Processing math: 100%

Table des matières

Statistiques sur les termes

Soit un document d :

Fréquence d’un terme t :

Soit tV un terme de vocabulaire. On note P(X=t) la fréquence d'apparition de ce terme dans le langage L considéré, soit~: P(X=t)=|ωΩ:X=t||Ω|Ω représente l'ensemble des productions de termes.

On a par définition~: tAP(X=t)=1

La fréquence empirique du symbole t dans le document d est donnée par~:

fd(t)=|{i:d[i]=t}||d|

où |d| est le nombre de mots dans le document.

Corpus de documents

Soit B un corpus de documents, constitué de n documents.

La fréquence empirique du terme t dans le corpus B est donnée par~: fB(t)=|{(i,j):diB,di[j]=t}||B| où |B| est le nombre total de mots dans le corpus.
Fréquence locale :

Le fréquence empirique locale fB(t,d) est donnée par : fB(t,d)=p(X=t|Y=d)=p(t|d) fB(t,d)=|{j:dB,d[j]=t}||d| où |d| est le nombre de mots dans le document d.

Fréquence documentaire

On appelle fréquence documentaire g(t) d’un terme t la fréquence d’apparition du terme dans les différents documents de la base :

g(t)=p(td)

Fréquence documentaire empirique :

˜g(t)=|d:td||B| avec:

Information documentaire

I(t)=log2g(t)

Ainsi, les termes apportant I bits d’information permettent de réaliser I partitions de la base (pour extraire des sous-ensembles de taille |B|/2I )

On remarque que :

On peut de même calculer l’entropie (documentaire) croisée de la base comme E(I(t)) : H(B)=E(log2p(td))=tVp(t)log2p(td) où p(t) représente la probabilité d’apparition du terme t sur tous les documents de la base.

On note h(t) la contribution documentaire du terme t : h(t)=p(t)log2p(td)


On calcule de même l’entropie conditionnelle d’un document d comme E(I(t)|d): H(d)=E(log2p(td)|d) =tVp(t|d)log2p(td) =tdp(t|d)log2p(td)

On note h(t|d) la contribution documentaire conditionnelle du terme t dans le document d: h(t|d)=p(t|d)log2p(td)

Cette contribution est également appelée : TF-IDF ("Term frequency - Inverse document frequency")