→ La réponse de l’algorithme est une liste ordonnée de références, classée d’après la pertinence des résultats (≃ similarité)
On cherche à évaluer les performances d’un programme de recherche d’information. Pour ce faire, on le teste sur une base constituée de questions et de réponses (connues).
On veut savoir : - si les réponses obtenues sont correctes? - si toutes les réponses souhaitées ont été obtenues?
Exemple:
Il n’y a pas de formule unique pour évaluer la performance du programme!!
F=1−D/A
Remarques :
G=1−E/B
Remarques :
Conclusion : pour mesurer la performance du programme, il faut considérer deux notes et non pas une seule. La performance d’un programme se mesure sur un axe (précision, rappel).
Une courbe ROC (receiver operating characteristic) est un graphique représentant les performances d'un modèle de classification pour tous les seuils de classification. Cette courbe trace le taux de vrais positifs en fonction du taux de faux positifs :
Une courbe ROC trace les valeurs TVP et TFP pour différents seuils de classification. Diminuer la valeur du seuil de classification permet de classer plus d'éléments comme positifs, ce qui augmente le nombre de faux positifs et de vrais positifs. La figure ci-dessous représente une courbe ROC classique.
Exemples de tâches de classification:
Mesures de similarité. On utilise une des mesures de similarité vues précédemment et "groupe" ensemble les documents qui se ressemblent.
Bases d'exemples. Une base d'exemples est un ensemble de couples {(d1,r1),...,(dn,rn)} constitué de n documents étiquetés, où les di sont les documents et les ri sont les réponses attendues.
Soit P un programme de recherche d'informations. Les bases d'exemples permettent de produire une estimation des taux de bonne réponses et des taux d'erreurs produits par le programme.
Remarque: les réponses peuvent être simples ou multiples, c'est à dire qu'un document peut appartenir à une catégorie unique ou au contraire appartenir à de nombreuses catégories.
Soit C un ensemble de catégories. Pour un ensemble d'exemples donnés, on mesure les performances d'un programme de classification à l'aide d'une matrice de confusion:
Exemple: On souhaite mesurer la qualité d'un système de classification de courriers électroniques. Les courriers sont classifiés selon deux classes : courriel pertinent ou pourriel intempestif. Supposons que notre classificateur est testé avec un jeu de 200 mails, dont 100 sont des courriels pertinents et les 100 autres sont des pourriels.
Pour cela, on veut savoir :
Classe estimée par le classifieur | Courriel | Pourriel | |
---|---|---|---|
Classe réelle | Courriel | 95 (vrais positifs) | 5 (faux positifs) |
Pourriel | 3 (faux positifs) | 97 (vrais négatifs) |
La matrice de confusion suivante se lit alors comme suit :
La méthode des K plus proche voisins permet de prédire la classe d'un document d inconnu à partir des classes des documents les plus similaires au document courant.
La liste des voisins est obtenues par calcul de similarité entre le document courant et l'ensemble des exemples de la base. Une fois les valeurs de similarité calculées, on sélectionne les K documents qui donnent le score de similarité le plus élevé.
Une fois la liste des voisins déterminée, il faut déterminer la classe du document:
wc=∑v∈Voisins;c∈r(v)sim(d,v)∑v∈Voisinssim(d,v) La fonction retourne la classe au score le plus élevé.
voir : calculating-a-probability
Un classifieur bayésien estime la probabilité d'appartenance d'un document d à la classe c. Grâce à cette probabilité, il est possible de retourner la classe la plus probable, mais également la probabilité d'erreur de classification pour chaque réponse produite.
Soit V un vocabulaire de taille m. Soit t un terme de vocabulaire. On note p(t|c) la probabilité que le terme t apparaisse dans un document de classe c.
On suppose qu'il existe pour chaque terme une probabilité conditionnelle associée à la classe, appelée la vraisemblance (vraisemblance du fait que le terme t apparaisse dans le document s'il est de classe c.)
La formule de Bayes permet de dire, étant donnée l'observation du terme t, la probabilité inverse (dite postérieure), c'est à dire la probabilité de la classe c conditionnée à t.
p(c|t)=p(t|c)p(c)∑c′∈Cp(t|c′)p(c′)
Si d est un document contenant k termes t1,...,tk, la formule se généralise à : p(c|t1,...,tk)=p(t1,...,tk|c)p(c)∑c′∈Cp(t1,...,tk|c′)p(c′)
En général, on ne dispose pas des probabilités p(t1,...,tk|c). On utilise en général l'approximation, dite du Bayes naïf: p(d|c)≃p(t1,...,tk|c)≃p(t1|c)×...×p(tk|c)
Au final, la réponse du classifieur repose sur un produit de probabilités élémentaires portant sur les fréquences documentaires des termes présents dans les groupes de documents appartenant à certaines classes.
Pour construire le classifieur:
Pour classer un document d inconnu, le classifieur retourne la classe qui maximise le score de vraisemblance, soit : maxcg(t1,c)×...×g(tk,c)
Il existe deux grandes méthodes de partitionnement :