Table des matières

Statistiques sur les termes

Soit un document dd :

Fréquence d’un terme tt :

Soit tVtV un terme de vocabulaire. On note P(X=t)P(X=t) la fréquence d'apparition de ce terme dans le langage LL considéré, soit~: P(X=t)=|ωΩ:X=t||Ω|P(X=t)=|ωΩ:X=t||Ω|ΩΩ représente l'ensemble des productions de termes.

On a par définition~: tAP(X=t)=1tAP(X=t)=1

La fréquence empirique du symbole tt dans le document dd est donnée par~:

fd(t)=|{i:d[i]=t}||d|fd(t)=|{i:d[i]=t}||d|

où |d| est le nombre de mots dans le document.

Corpus de documents

Soit BB un corpus de documents, constitué de nn documents.

La fréquence empirique du terme tt dans le corpus BB est donnée par~: fB(t)=|{(i,j):diB,di[j]=t}||B|fB(t)=|{(i,j):diB,di[j]=t}||B| où |B| est le nombre total de mots dans le corpus.
Fréquence locale :

Le fréquence empirique locale fB(t,d)fB(t,d) est donnée par : fB(t,d)=p(X=t|Y=d)=p(t|d)fB(t,d)=p(X=t|Y=d)=p(t|d) fB(t,d)=|{j:dB,d[j]=t}||d|fB(t,d)=|{j:dB,d[j]=t}||d| où |d| est le nombre de mots dans le document dd.

Fréquence documentaire

On appelle fréquence documentaire g(t)g(t) d’un terme tt la fréquence d’apparition du terme dans les différents documents de la base :

g(t)=p(td)g(t)=p(td)

Fréquence documentaire empirique :

˜g(t)=|d:td||B|~g(t)=|d:td||B| avec:

Information documentaire

I(t)=log2g(t)I(t)=log2g(t)

Ainsi, les termes apportant II bits d’information permettent de réaliser II partitions de la base (pour extraire des sous-ensembles de taille |B|/2I|B|/2I )

On remarque que :

On peut de même calculer l’entropie (documentaire) croisée de la base comme E(I(t))E(I(t)) : H(B)=E(log2p(td))=tVp(t)log2p(td)H(B)=E(log2p(td))=tVp(t)log2p(td) où p(t) représente la probabilité d’apparition du terme t sur tous les documents de la base.

On note h(t) la contribution documentaire du terme t : h(t)=p(t)log2p(td)h(t)=p(t)log2p(td)


On calcule de même l’entropie conditionnelle d’un document d comme E(I(t)|d)E(I(t)|d): H(d)=E(log2p(td)|d)H(d)=E(log2p(td)|d) =tVp(t|d)log2p(td)=tVp(t|d)log2p(td) =tdp(t|d)log2p(td)=tdp(t|d)log2p(td)

On note h(t|d)h(t|d) la contribution documentaire conditionnelle du terme tt dans le document dd: h(t|d)=p(t|d)log2p(td)h(t|d)=p(t|d)log2p(td)

Cette contribution est également appelée : TF-IDF ("Term frequency - Inverse document frequency")