Statistiques sur les termes
Soit un document :
- constitué de mots , …, , ….
- appartenant au vocabulaire constitué de termes.
Fréquence d’un terme :
Soit un terme de vocabulaire. On note la fréquence d'apparition de ce terme dans le langage considéré, soit~: où représente l'ensemble des productions de termes.
On a par définition~:
La fréquence empirique du symbole dans le document est donnée par~:
où |d| est le nombre de mots dans le document.
Corpus de documents
Soit un corpus de documents, constitué de documents.
Fréquence locale :
Le fréquence empirique locale est donnée par : où |d| est le nombre de mots dans le document .
Fréquence documentaire
On appelle fréquence documentaire d’un terme la fréquence d’apparition du terme dans les différents documents de la base :
Fréquence documentaire empirique :
avec:
- : nombre de documents
- : nombre de documents contenant
Information documentaire
- ⇒ aucune information documentaire.
Ainsi, les termes apportant bits d’information permettent de réaliser partitions de la base (pour extraire des sous-ensembles de taille )
On remarque que :
- si le terme est présent dans tous les documents, son information documentaire est nulle.
- si le terme est présent dans un seul document, son information documentaire est maximale
On peut de même calculer l’entropie (documentaire) croisée de la base comme : où p(t) représente la probabilité d’apparition du terme t sur tous les documents de la base.
On note h(t) la contribution documentaire du terme t :
On calcule de même l’entropie conditionnelle d’un document d comme :
On note la contribution documentaire conditionnelle du terme dans le document :
Cette contribution est également appelée : TF-IDF ("Term frequency - Inverse document frequency")