Soit un document dd :
Soit t∈Vt∈V un terme de vocabulaire. On note P(X=t)P(X=t) la fréquence d'apparition de ce terme dans le langage LL considéré, soit~: P(X=t)=|ω∈Ω:X=t||Ω|P(X=t)=|ω∈Ω:X=t||Ω| où ΩΩ représente l'ensemble des productions de termes.
On a par définition~: ∑t∈AP(X=t)=1∑t∈AP(X=t)=1
La fréquence empirique du symbole tt dans le document dd est donnée par~:
où |d| est le nombre de mots dans le document.
Soit BB un corpus de documents, constitué de nn documents.
Le fréquence empirique locale fB(t,d)fB(t,d) est donnée par : fB(t,d)=p(X=t|Y=d)=p(t|d)fB(t,d)=p(X=t|Y=d)=p(t|d) fB(t,d)=|{j:d∈B,d[j]=t}||d|fB(t,d)=|{j:d∈B,d[j]=t}||d| où |d| est le nombre de mots dans le document dd.
On appelle fréquence documentaire g(t)g(t) d’un terme tt la fréquence d’apparition du terme dans les différents documents de la base :
g(t)=p(t∈d)g(t)=p(t∈d)
Fréquence documentaire empirique :
˜g(t)=|d:t∈d||B|~g(t)=|d:t∈d||B| avec:
I(t)=−log2g(t)I(t)=−log2g(t)
Ainsi, les termes apportant II bits d’information permettent de réaliser II partitions de la base (pour extraire des sous-ensembles de taille |B|/2I|B|/2I )
On remarque que :
On peut de même calculer l’entropie (documentaire) croisée de la base comme E(I(t))E(I(t)) : H(B)=−E(log2p(t∈d))=−∑t∈Vp(t)log2p(t∈d)H(B)=−E(log2p(t∈d))=−∑t∈Vp(t)log2p(t∈d) où p(t) représente la probabilité d’apparition du terme t sur tous les documents de la base.
On note h(t) la contribution documentaire du terme t : h(t)=−p(t)log2p(t∈d)h(t)=−p(t)log2p(t∈d)
On calcule de même l’entropie conditionnelle d’un document d comme E(I(t)|d)E(I(t)|d): H(d)=−E(log2p(t∈d)|d)H(d)=−E(log2p(t∈d)|d) =−∑t∈Vp(t|d)log2p(t∈d)=−∑t∈Vp(t|d)log2p(t∈d) =−∑t∈dp(t|d)log2p(t∈d)=−∑t∈dp(t|d)log2p(t∈d)
On note h(t|d)h(t|d) la contribution documentaire conditionnelle du terme tt dans le document dd: h(t|d)=−p(t|d)log2p(t∈d)h(t|d)=−p(t|d)log2p(t∈d)
Cette contribution est également appelée : TF-IDF ("Term frequency - Inverse document frequency")