public:algo-txt:statistiques_sur_les_termes

Soit un document d :

  • constitué de K mots d[1], …, d[i], ….
  • appartenant au vocabulaire V={t1,...,tm} constitué de m termes.
Fréquence d’un terme t :

Soit tV un terme de vocabulaire. On note P(X=t) la fréquence d'apparition de ce terme dans le langage L considéré, soit~: P(X=t)=|ωΩ:X=t||Ω|Ω représente l'ensemble des productions de termes.

On a par définition~: tAP(X=t)=1

La fréquence empirique du symbole t dans le document d est donnée par~:

fd(t)=|{i:d[i]=t}||d|

où |d| est le nombre de mots dans le document.

Soit B un corpus de documents, constitué de n documents.

La fréquence empirique du terme t dans le corpus B est donnée par~: fB(t)=|{(i,j):diB,di[j]=t}||B| où |B| est le nombre total de mots dans le corpus.
Fréquence locale :

Le fréquence empirique locale fB(t,d) est donnée par : fB(t,d)=p(X=t|Y=d)=p(t|d) fB(t,d)=|{j:dB,d[j]=t}||d| où |d| est le nombre de mots dans le document d.

Fréquence documentaire

On appelle fréquence documentaire g(t) d’un terme t la fréquence d’apparition du terme dans les différents documents de la base :

g(t)=p(td)

Fréquence documentaire empirique :

˜g(t)=|d:td||B| avec:

  • n=|B| : nombre de documents
  • |d:td| : nombre de documents contenant t
Information documentaire

I(t)=log2g(t)

  • I(t)=0 ⇒ aucune information documentaire.

Ainsi, les termes apportant I bits d’information permettent de réaliser I partitions de la base (pour extraire des sous-ensembles de taille |B|/2I )

On remarque que :

  • si le terme est présent dans tous les documents, son information documentaire est nulle.
  • si le terme est présent dans un seul document, son information documentaire est maximale

On peut de même calculer l’entropie (documentaire) croisée de la base comme E(I(t)) : H(B)=E(log2p(td))=tVp(t)log2p(td) où p(t) représente la probabilité d’apparition du terme t sur tous les documents de la base.

On note h(t) la contribution documentaire du terme t : h(t)=p(t)log2p(td)


On calcule de même l’entropie conditionnelle d’un document d comme E(I(t)|d): H(d)=E(log2p(td)|d) =tVp(t|d)log2p(td) =tdp(t|d)log2p(td)

On note h(t|d) la contribution documentaire conditionnelle du terme t dans le document d: h(t|d)=p(t|d)log2p(td)

Cette contribution est également appelée : TF-IDF ("Term frequency - Inverse document frequency")

  • public/algo-txt/statistiques_sur_les_termes.txt
  • Dernière modification : 2020/04/20 17:27
  • de edauce