TP 2

Statistiques sur les textes

In [ ]:

%matplotlib inline

Importation des librairies mathématiques¶

In [27]:

import numpy as np
import scipy.sparse as sp
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
import re
import matplotlib.pyplot as plt

from IPython.display import Image

Lecture des données¶

In [ ]:

newsgroups_train = fetch_20newsgroups(subset='train',remove=('headers', 'footers', 'quotes'))

In [ ]:

n = newsgroups_train.filenames.shape[0]

In [ ]:

corpus = newsgroups_train.data

In [ ]:

print corpus[0]

In [ ]:

vectoriseur = CountVectorizer()

In [ ]:

vectoriseur.fit(corpus)

In [ ]:

X = vectoriseur.transform(corpus).tocsc()

In [ ]:

indice = vectoriseur.vocabulary_
indice['woman']

In [ ]:

terme = vectoriseur.get_feature_names()
terme[97164]

Exercice 1 : Loi de Zipf¶

Term Frequency¶

Définir un dictionnaire donnant pour chaque terme son nombre d'occurrences dans l'ensemble du corpus.

Affichez les 100 termes les plus courants et les 10 termes les moins courants

Afficher ensuite la frequence des termes en fonction de leur rang (Utiliser une échelle logarithmique)

Vous utiliserez la librairie d'affichage matplotlib (import matplotlib.pyplot as plt)

Voir : http://openclassrooms.com/courses/la-programmation-scientifique-avec-python/un-scientifique-sans-graphique-c-est-triste

Si la distribution des fréquences suit une loi de Zipf, alors $f(t) \simeq C / r(t)$ où r(t) est le rang du terme t par ordre de fréquence décroissante. Calculer la valeur de la constante C sur ce jeu de données.

In [ ]:

occ = {}
for i in range(len(indice)):
    occ[terme[i]] = X[:,i].sum()

In [ ]:

occ['the']

In [ ]:

from operator import itemgetter
l = occ.items()
l.sort(key=itemgetter(1),reverse=True)

In [ ]:

print l[:100]

In [ ]:

print l[-10:]

In [ ]:

v = occ.values()
v.sort(reverse = True)

In [ ]:

plt.loglog(v)

Document frequency¶

Même exercice avec la fréquence documentaire (Document Frequency)

Définir un second dictionnaire donnant pour chaque terme sa fréquence documentaire (pensez à utiliser la matrice X).

Affichez les 100 termes ayant la fréquence documentaire la plus élevée. Affichez également 10 termes ayant la fréquence documentaire la plus faible.

Afficher ensuite la frequence des termes en fonction de leur rang (Utiliser une échelle logarithmique)

Enfin, calculer la valeur de la constante C et comparez .

In [ ]:

Exercice 2 : prédiction de textes¶

Un texte est une séquence de caractères modélisable comme une série de tirages aléatoires selon une loi L à déterminer.

Modèle unigramme¶

Soit une séquence de symboles $x_1,...,x_t,...$ . Le modèle unigramme considère chaque symbole $x_t$ comme issu d'un tirage multinomial de probabilité $(p_1,...,p_n)$ avec $\sum_i p_i =1$ , où n est le nombre de symboles.

A partir du corpus '20 newsgroups", calculez le vecteur de probabilité $(p_1,...,p_n)$ en fonction des fréquences d'apparition des différents caractères.

Ensuite, vous utiliserez un générateur aléatoire (numpy.random.multinomial) pour générer une séquence de caractères obéissant à cette loi de probabilité.

In [ ]:

Modèle bigramme¶

Soit une séquence de symboles $x_1,...,x_t,...$ . Le modèle bigramme considère que la probabilité d'apparition du symbole $x_t$ dépend du symbole précédent uniquement, soit $P(X_t=x_t|X_1=x_1,...,X_{t-1}=x_{t-1}) = P(X_t=x_t|X_{t-1}=x_{t-1})$

Cette probabilité peut être représentée à l'aide d'un tableau bidimensionnel $(P_{ij})_{i,j= 1..n}$ , avec $\sum_j P_{ij}=1$ , où $P_{ij}$ représente la probabilité de choisir le symbole $j$ après le symbole $i$ .

A partir du corpus '20 newsgroups", calculez la matrice de probabilité $((p_{11},...,p_{1n}), ..., (p_{n1}, ..., p_{nn}))$ en fonction des fréquences d'apparition des différents couples de caractères dans la base.

Ensuite, vous utiliserez un générateur aléatoire (numpy.random.multinomial) pour générer une séquence de caractères obéissant à cette loi de probabilité.

In [ ]:

Exercice 3 : complétion de mots¶

Un algorithme de complétion est un mécanisme logique permettant d'anticiper la saisie et de proposer des mots automatiquement pour faciliter les recherches dans un formulaire sur une page web par exemple.

On utilise pour cela une structure de données arborescente, où chaque nœud de l'arbre est une lettre, ses nœuds enfants les lettres suivantes possibles du mot, avec un indicateur par lettre pour savoir si celle-ci est finale ou non.

Le but de cet exercice est de construire un arbre de complétion à partir des mots de vocabulaire présents dans la base '20 newsgroups', puis de l'utiliser pour compléter un début de mot proposé par l'utilisateur.

Arbre de completion

Un arbre de complétion sera défini de manière récursive. Un noeud de l'arbre contient 2 éléments :

fils : un dictionnaire de noeuds indexés par des caractères
compteur : un entier valant :

0 si le mot n'est pas dans la base
une valeur >0 indiquant le nombre d'occurrences du mot dans la base sinon.

Vous devez :

Créer une classe ArbreComplétion contenant les attributs mentionnés.
Définir un constructeur qui crée un noeud vide.
Définir la méthode insère(mot) qui insère un mot dans un noeud. Cette méthode récursive teste si la première lettre du mot est présente dans le dictionnaire. Si non, elle crée l'entrée correspondante. Elle vérifie ensuite si le mot est un caractère isolé. Si oui, elle incrémente le compteur du noeud fils, sinon, elle insère la suite du mot dans le noeud fils.
Définir une méthode affiche(noeud) qui affiche l'arbre de complétion de manière récursive.

Créez un arbre de complétion. Insérez les mots 'bonjour', 'bonjour', 'bonsoir', 'bon', 'jour', 'soir' et vérifiez grâce à l'affichage que les mots sont correctement insérés.

In [ ]:

Ecrivez ensuite une fonction suivant(debut, A) qui, à partir de la chaîne debut et de l'arbre de complétion A, retourne la liste de mots qui complète le début de mot.

Améliorez votre fonction pour que les mots les plus courants apparaissent en premier dans la liste.

In [ ]: