Statistiques sur les termes
Soit un document d :
- constitué de K mots d[1], …, d[i], ….
- appartenant au vocabulaire V={t1,...,tm} constitué de m termes.
Fréquence d’un terme t :
Soit t∈V un terme de vocabulaire. On note P(X=t) la fréquence d'apparition de ce terme dans le langage L considéré, soit~: P(X=t)=|ω∈Ω:X=t||Ω| où Ω représente l'ensemble des productions de termes.
On a par définition~: ∑t∈AP(X=t)=1
La fréquence empirique du symbole t dans le document d est donnée par~:
où |d| est le nombre de mots dans le document.
Corpus de documents
Soit B un corpus de documents, constitué de n documents.
Fréquence locale :
Le fréquence empirique locale fB(t,d) est donnée par : fB(t,d)=p(X=t|Y=d)=p(t|d) fB(t,d)=|{j:d∈B,d[j]=t}||d| où |d| est le nombre de mots dans le document d.
Fréquence documentaire
On appelle fréquence documentaire g(t) d’un terme t la fréquence d’apparition du terme dans les différents documents de la base :
g(t)=p(t∈d)
Fréquence documentaire empirique :
˜g(t)=|d:t∈d||B| avec:
- n=|B| : nombre de documents
- |d:t∈d| : nombre de documents contenant t
Information documentaire
I(t)=−log2g(t)
- I(t)=0 ⇒ aucune information documentaire.
Ainsi, les termes apportant I bits d’information permettent de réaliser I partitions de la base (pour extraire des sous-ensembles de taille |B|/2I )
On remarque que :
- si le terme est présent dans tous les documents, son information documentaire est nulle.
- si le terme est présent dans un seul document, son information documentaire est maximale
On peut de même calculer l’entropie (documentaire) croisée de la base comme E(I(t)) : H(B)=−E(log2p(t∈d))=−∑t∈Vp(t)log2p(t∈d) où p(t) représente la probabilité d’apparition du terme t sur tous les documents de la base.
On note h(t) la contribution documentaire du terme t : h(t)=−p(t)log2p(t∈d)
On calcule de même l’entropie conditionnelle d’un document d comme E(I(t)|d): H(d)=−E(log2p(t∈d)|d) =−∑t∈Vp(t|d)log2p(t∈d) =−∑t∈dp(t|d)log2p(t∈d)
On note h(t|d) la contribution documentaire conditionnelle du terme t dans le document d: h(t|d)=−p(t|d)log2p(t∈d)
Cette contribution est également appelée : TF-IDF ("Term frequency - Inverse document frequency")