public:algo-txt:statistiques_sur_les_termes

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:algo-txt:statistiques_sur_les_termes [2017/12/15 13:26] – [Corpus de documents] edaucepublic:algo-txt:statistiques_sur_les_termes [2020/04/20 17:27] (Version actuelle) edauce
Ligne 1: Ligne 1:
 +===== Statistiques sur les termes ====
 +
 +Soit un document $d$ :
 +  * constitué de $K$ mots $d[1]$, …, $d[i]$, ….
 +  * appartenant au vocabulaire $V = \{t_1,...,t_m\}$ constitué de $m$ termes.
 +
 +
 +==Fréquence d’un terme $t$ :==
 +
 +Soit $t \in V$ un terme de vocabulaire. On note $P(X=t)$ la fréquence d'apparition de ce terme //dans le langage $\mathcal{L}$ considéré//, soit~:
 +$$P(X=t) = \frac{|\omega \in \Omega : X=t|}{|\Omega|}$$
 +où $\Omega$ représente l'ensemble des productions de termes.
 +
 +On a par définition~:
 +$$\sum_{t \in A} P(X=t) = 1$$
 +
 +La fréquence empirique du symbole $t$ dans le document $d$ 
 +est donnée par~:
 +<note important>
 +$$f_d(t) = \frac{|\{i:d[i] =t\}|}{|d|} $$
 +</note>
 +où |d| est le nombre de mots dans le document.
 +
 +
 +====Corpus de documents====
 +Soit $B$ un corpus de documents, constitué de $n$ documents. 
 +<note>
 +La fréquence empirique du terme $t$ dans le corpus $B$ 
 +est donnée par~:
 +$$f_B(t) = \frac{|\{(i,j):d_i \in B,d_i[j] = t\}|}{|B|} $$
 +où |B| est le nombre total de mots dans le corpus.
 +</note>
 +
 +==Fréquence locale : ==
 +
 +Le fréquence empirique //locale// $f_B(t,d)$ est donnée par :
 +$$f_B(t,d) = p(X=t|Y=d) = p(t|d)$$
 +$$f_B(t,d) = \frac{|\{j:d \in B,d[j] = t\}|}{|d|} $$
 +où |d| est le nombre de mots dans le document $d$.
 +
 +== Fréquence documentaire ==
 +On appelle **fréquence documentaire** $g(t)$ d’un terme $t$ la fréquence d’apparition du terme dans les différents documents de la base :
 +
 +$$g(t) = p(t ∈ d) $$
 +
 +Fréquence documentaire empirique :
 +
 +$$\tilde{g}(t) = \frac{|{d:t \in d}|} {|B|}$$
 +avec: 
 +  * $n = |B|$ : nombre de documents
 +  * $|{d:t \in d}|$ : nombre de documents contenant $t$ 
 + 
 +== Information documentaire ==
 +$$ I(t) = -\log_2 g(t) $$
 +  * $I(t) = 0$ => aucune information documentaire.
 +
 +Ainsi, les termes apportant $I$ bits d’information permettent de réaliser $I$ partitions de la base (pour extraire des sous-ensembles de taille $|B| / {2^I}$ )
 +
 +On remarque que :
 +  * si le terme est présent dans tous les documents, son information documentaire est nulle.
 +  * si le terme est présent dans un seul document, son information documentaire est maximale
 +
 +On peut de même calculer l’**entropie (documentaire) croisée** de la base comme $E(I(t))$ :
 +$$H(B) = - E(\log_2 p(t \in d)) = - \sum_{t\in V} p(t) \log_2 p(t \in d)$$
 +où p(t) représente la probabilité d’apparition du terme t sur tous les documents de la base.
 +
 +On note h(t) la **contribution documentaire** du terme t :
 +$$h(t) = - p(t) \log_2 p(t  \in d)$$
 +
 +----
 +
 +On calcule de même l’**entropie conditionnelle** d’un document d comme $E(I(t) | d)$:
 +$$H(d) = - E(\log_2 p(t \in d) | d )$$
 +$$= - \sum_{t\in V} p(t|d) \log_2 p(t \in d)$$
 +$$= - \sum_{t\in d} p(t|d) \log_2 p(t \in d)$$
 +
 +On note  $h(t|d)$ la **contribution documentaire conditionnelle** du terme $t$ dans le document $d$:
 +$$h(t | d) = - p(t|d) \log_2 p(t \in d)$$
 +
 +Cette contribution est également appelée : **TF-IDF** ("Term frequency - Inverse document frequency")