Différences
Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédente | ||
public:algo-txt:statistiques_sur_les_termes [2015/11/10 17:03] – créée edauce | public:algo-txt:statistiques_sur_les_termes [2020/04/20 17:27] (Version actuelle) – edauce | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | ===== Statistiques sur les termes ==== | ||
+ | |||
+ | Soit un document d : | ||
+ | * constitué de K mots d[1], …, d[i], …. | ||
+ | * appartenant au vocabulaire V={t1,...,tm} constitué de m termes. | ||
+ | |||
+ | |||
+ | ==Fréquence d’un terme t :== | ||
+ | |||
+ | Soit t∈V un terme de vocabulaire. On note P(X=t) la fréquence d' | ||
+ | P(X=t)=|ω∈Ω:X=t||Ω| | ||
+ | où Ω représente l' | ||
+ | |||
+ | On a par définition~: | ||
+ | ∑t∈AP(X=t)=1 | ||
+ | |||
+ | La fréquence empirique du symbole t dans le document d | ||
+ | est donnée par~: | ||
+ | <note important> | ||
+ | fd(t)=|{i:d[i]=t}||d| | ||
+ | </ | ||
+ | où |d| est le nombre de mots dans le document. | ||
+ | |||
+ | |||
+ | ====Corpus de documents==== | ||
+ | Soit B un corpus de documents, constitué de n documents. | ||
+ | < | ||
+ | La fréquence empirique du terme t dans le corpus B | ||
+ | est donnée par~: | ||
+ | fB(t)=|{(i,j):di∈B,di[j]=t}||B| | ||
+ | où |B| est le nombre total de mots dans le corpus. | ||
+ | </ | ||
+ | |||
+ | ==Fréquence locale : == | ||
+ | |||
+ | Le fréquence empirique //locale// fB(t,d) est donnée par : | ||
+ | fB(t,d)=p(X=t|Y=d)=p(t|d) | ||
+ | fB(t,d)=|{j:d∈B,d[j]=t}||d| | ||
+ | où |d| est le nombre de mots dans le document d. | ||
+ | |||
+ | == Fréquence documentaire == | ||
+ | On appelle **fréquence documentaire** g(t) d’un terme t la fréquence d’apparition du terme dans les différents documents de la base : | ||
+ | |||
+ | g(t)=p(t∈d) | ||
+ | |||
+ | Fréquence documentaire empirique : | ||
+ | |||
+ | ˜g(t)=|d:t∈d||B| | ||
+ | avec: | ||
+ | * n=|B| : nombre de documents | ||
+ | * |d:t∈d| : nombre de documents contenant t | ||
+ | |||
+ | == Information documentaire == | ||
+ | I(t)=−log2g(t) | ||
+ | * I(t)=0 => aucune information documentaire. | ||
+ | |||
+ | Ainsi, les termes apportant I bits d’information permettent de réaliser I partitions de la base (pour extraire des sous-ensembles de taille |B|/2I ) | ||
+ | |||
+ | On remarque que : | ||
+ | * si le terme est présent dans tous les documents, son information documentaire est nulle. | ||
+ | * si le terme est présent dans un seul document, son information documentaire est maximale | ||
+ | |||
+ | On peut de même calculer l’**entropie (documentaire) croisée** de la base comme E(I(t)) : | ||
+ | H(B)=−E(log2p(t∈d))=−∑t∈Vp(t)log2p(t∈d) | ||
+ | où p(t) représente la probabilité d’apparition du terme t sur tous les documents de la base. | ||
+ | |||
+ | On note h(t) la **contribution documentaire** du terme t : | ||
+ | h(t)=−p(t)log2p(t∈d) | ||
+ | |||
+ | ---- | ||
+ | |||
+ | On calcule de même l’**entropie conditionnelle** d’un document d comme E(I(t)|d): | ||
+ | H(d)=−E(log2p(t∈d)|d) | ||
+ | =−∑t∈Vp(t|d)log2p(t∈d) | ||
+ | =−∑t∈dp(t|d)log2p(t∈d) | ||
+ | |||
+ | On note h(t|d) la **contribution documentaire conditionnelle** du terme t dans le document d: | ||
+ | h(t|d)=−p(t|d)log2p(t∈d) | ||
+ | |||
+ | Cette contribution est également appelée : **TF-IDF** ("Term frequency - Inverse document frequency" | ||