Table des matières

Cours

1. Indexation

2. Recommandation

3. Analyse des données

4. Travail final

Travaux dirigés

Ces travaux dirigés sont des "notebooks" fonctionnant sur l'interpréteur "jupyter". Les notebooks permettent d'écrire et d'exécuter des scripts python à l'aide d'un simple navigateur web. Les résultats d'exécution sont conservés et peuvent être retrouvés d'une session à l'autre.

Téléchargez les fichiers .ipynb dans un dossier. Ouvrez un terminal dans ce même dossier et tapez :

jupyter-notebook

Ceci ouvre un onglet de l'interpréteur jupyter dans votre navigateur. Cliquez ensuite sur le notebook sur lequel vous souhaitez travailler.

Pour utiliser un notebook, voir :

La librairie numpy

Les exercices et problèmes seront réalisés à l'aide des librairies scientifiques de Python: numpy, scipy et matplotlib. Le lien suivant propose une introduction à la librairie numpy (manipulation de matrices et de vecteurs en Python) :

La librairie scikit-learn

TD1

Le but de ce premier TD est de développer un moteur de recherche dans une base de textes. Nous utilisons une base constitués d'un peu plus de 11.000 messages postés sur des forums de discussion (anglophones), fréquemment utilisée en analyse des données.

Il s'agit de la base 20newsgroups.

Le TD est constitué de plusieurs exercices ainsi que d'un problème. Les principales opérations sont réalisées à l'aide de la librairie scikit-learn.

TD2

TD3

Calcul des scores de popularité sur un graphe social.

Base "Enron"

TD4

Calcul de similarité et profilage sur la base "MovieLens"

Téléchargez le fichier suivant :

TD5

Filtrage collaboratif sur la base "MovieLens"

Téléchargez le fichier suivant :

TD6

Analyse des données

Téléchargez le fichier suivant :