public:algo-txt:statistiques_sur_les_termes

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:algo-txt:statistiques_sur_les_termes [2017/02/23 12:51] edaucepublic:algo-txt:statistiques_sur_les_termes [2020/04/20 17:27] (Version actuelle) edauce
Ligne 1: Ligne 1:
 +===== Statistiques sur les termes ====
 +
 +Soit un document d :
 +  * constitué de K mots d[1], …, d[i], ….
 +  * appartenant au vocabulaire V={t1,...,tm} constitué de m termes.
 +
 +
 +==Fréquence d’un terme t :==
 +
 +Soit tV un terme de vocabulaire. On note P(X=t) la fréquence d'apparition de ce terme //dans le langage L considéré//, soit~:
 +P(X=t)=|ωΩ:X=t||Ω|
 +Ω représente l'ensemble des productions de termes.
 +
 +On a par définition~:
 +tAP(X=t)=1
 +
 +La fréquence empirique du symbole t dans le document d 
 +est donnée par~:
 +<note important>
 +fd(t)=|{i:d[i]=t}||d|
 +</note>
 +où |d| est le nombre de mots dans le document.
 +
 +
 +====Corpus de documents====
 +Soit B un corpus de documents, constitué de n documents. 
 +<note>
 +La fréquence empirique du terme t dans le corpus B 
 +est donnée par~:
 +fB(t)=|{(i,j):diB,di[j]=t}||B|
 +où |B| est le nombre total de mots dans le corpus.
 +</note>
 +
 +==Fréquence locale : ==
 +
 +Le fréquence empirique //locale// fB(t,d) est donnée par :
 +fB(t,d)=p(X=t|Y=d)=p(t|d)
 +fB(t,d)=|{j:dB,d[j]=t}||d|
 +où |d| est le nombre de mots dans le document d.
 +
 +== Fréquence documentaire ==
 +On appelle **fréquence documentaire** g(t) d’un terme t la fréquence d’apparition du terme dans les différents documents de la base :
 +
 +g(t)=p(td)
 +
 +Fréquence documentaire empirique :
 +
 +˜g(t)=|d:td||B|
 +avec: 
 +  * n=|B| : nombre de documents
 +  * |d:td| : nombre de documents contenant t 
 + 
 +== Information documentaire ==
 +I(t)=log2g(t)
 +  * I(t)=0 => aucune information documentaire.
 +
 +Ainsi, les termes apportant I bits d’information permettent de réaliser I partitions de la base (pour extraire des sous-ensembles de taille |B|/2I )
 +
 +On remarque que :
 +  * si le terme est présent dans tous les documents, son information documentaire est nulle.
 +  * si le terme est présent dans un seul document, son information documentaire est maximale
 +
 +On peut de même calculer l’**entropie (documentaire) croisée** de la base comme E(I(t)) :
 +H(B)=E(log2p(td))=tVp(t)log2p(td)
 +où p(t) représente la probabilité d’apparition du terme t sur tous les documents de la base.
 +
 +On note h(t) la **contribution documentaire** du terme t :
 +h(t)=p(t)log2p(td)
 +
 +----
 +
 +On calcule de même l’**entropie conditionnelle** d’un document d comme E(I(t)|d):
 +H(d)=E(log2p(td)|d)
 +=tVp(t|d)log2p(td)
 +=tdp(t|d)log2p(td)
 +
 +On note  h(t|d) la **contribution documentaire conditionnelle** du terme t dans le document d:
 +h(t|d)=p(t|d)log2p(td)
 +
 +Cette contribution est également appelée : **TF-IDF** ("Term frequency - Inverse document frequency")