Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
restricted:cm3 [2020/05/04 09:19] – [4.1. Sélection] edauce | restricted:cm3 [2020/05/04 17:42] (Version actuelle) – edauce | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | ===== 4. Moteurs de recherche ===== | ||
+ | Les algorithmes que l’on va étudier portent sur la recherche d' | ||
+ | |||
+ | Notation : q={t1,t2,…} <- liste de termes | ||
+ | |||
+ | Exemples : | ||
+ | * Recherche de textes contenant le terme : “artichaud” | ||
+ | * Recherche de textes contenant les terme : " | ||
+ | |||
+ | Recherche documentaire : | ||
+ | {{: | ||
+ | |||
+ | La réponse du serveur est une liste **ordonnée** de références vers des documents de la base **par ordre décroissant de pertinence**. | ||
+ | |||
+ | <note important> | ||
+ | **NB**: on considère | ||
+ | </ | ||
+ | |||
+ | Un algorithme de recherche d' | ||
+ | * Sélection : les documents conformes à la requête | ||
+ | * Similarité : score brut basé sur la similarité requête/ | ||
+ | * Pondération : prise en compte de critères supplémentaires : popularité, | ||
+ | |||
+ | ==== 4.1. Sélection ==== | ||
+ | |||
+ | Soit q une requête constituée de k termes : t1, ..., tk. | ||
+ | |||
+ | On note Dt⊂B l' | ||
+ | |||
+ | L' | ||
+ | |||
+ | === Fichier inverse === | ||
+ | |||
+ | On appelle fichier inverse la structure de données qui, à tout terme t, associe l’ensemble D(t) des références vers les documents contenant le terme t. | ||
+ | |||
+ | t→D(t) | ||
+ | |||
+ | * t est la clé | ||
+ | * D(t) est une liste de références | ||
+ | |||
+ | On parle de multi-indexation (par opposition à l' | ||
+ | | ||
+ | === Index BitMap === | ||
+ | La structure de données implémentant | ||
+ | * B est la base documentaire, | ||
+ | * A chaque document d∈B est attribué un entier j∈1..n | ||
+ | * V est le vocabulaire, | ||
+ | * A chaque terme t∈V est attribué un entier i∈1..m | ||
+ | * T[i,j]=1⇔t∈d | ||
+ | * T[i,j]=0⇔t∉d | ||
+ | * Chaque colonne T[:,j] désigne l' | ||
+ | * Chaque ligne T[i,:] désigne l' | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Soit q une requête constituée de plusieurs termes i1,i2,...ik. | ||
+ | |||
+ | Cette requête s' | ||
+ | |||
+ | L' | ||
+ | T[i1,:] and T[i2,:] and ... and T[ik,:] | ||
+ | |||
+ | <note important> | ||
+ | Opérateur booléen appliqué sur les lignes de la matrice | ||
+ | </ | ||
+ | |||
+ | On note {j1,j2,...} la liste des références des documents sélectionnés par la requête q. | ||
+ | |||
+ | {{: | ||
+ | |||
+ | === Parallélisation === | ||
+ | |||
+ | <note tip> | ||
+ | Remarques : | ||
+ | * On a une structure de matrice creuse (beaucoup de 0, peu de 1) | ||
+ | * En ordre de grandeur, on a m<< | ||
+ | </ | ||
+ | |||
+ | Pour réduire les temps de réponse,il est nécessaire de paralléliser les calculs en répartissant la requête sur différents serveurs. | ||
+ | * La même requête est distribuée à différents serveurs | ||
+ | * Chaque serveur gère un index bitmap différent (même vocabulaire / références différentes) | ||
+ | * Chaque serveur retourne une liste de références | ||
+ | * L' | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Algorithme de référence pour la parallélisation: | ||
+ | |||
+ | |||
+ | |||
+ | ==== 4.2 Similarité ==== | ||
+ | |||
+ | Pour chaque document d (indexé par j) sélectionné par fichier inverse, on calcule un score de **similarité** : | ||
+ | |||
+ | Les documents sont ensuite classés par ordre // | ||
+ | (j′1,j′2,...) | ||
+ | avec sim(j′1,q)≥sim(j′2,q)≥... | ||
+ | |||
+ | |||
+ | === Représentation vectorielle | ||
+ | |||
+ | * Un document d (indexé par j) et une requête q peuvent être représentés par un vecteur **binaire** x de dimension m | ||
+ | * m est la taille du vocabulaire | ||
+ | * Chaque terme t∈V est indexé par un entier i∈1..m | ||
+ | * xi=1⇔i∈d | ||
+ | * xi=0⇔i∉d | ||
+ | <note tip> **NB** | ||
+ | Pour les documents, ce vecteur binaire est une colonne de l' | ||
+ | |||
+ | * Similarité de Jaccard : | ||
+ | sim(j,q)=x.q||x⊕q|| | ||
+ | |||
+ | </ | ||
+ | |||
+ | * Un document d (indexé par j) peut être représenté par sous la forme d'un vecteur **réel** x de dimension m | ||
+ | * m est la taille du vocabulaire | ||
+ | * Chaque terme t∈V est indexé par un entier i∈1..m | ||
+ | * xi=w(i,d)⇔i∈d | ||
+ | * w(i,d) correspond : | ||
+ | * à la fréquence de i dans d : f(i,d) | ||
+ | * (ou) au score TF-IFD de i dans d : −f(i,d)logg(i,B) | ||
+ | * xi=0⇔i∉d$ | ||
+ | |||
+ | <note tip> | ||
+ | * Similarité du cosinus : | ||
+ | sim(j,q)=x.q||x||×||q|| | ||
+ | </ | ||
+ | |||
+ | ==== 4.3 Popularité ==== | ||
+ | |||
+ | <note tip> | ||
+ | Prise en compte de la popularité: | ||
+ | * 1ère idée : pour accélérer le tri, on établit l’ordre sur un sous-ensemble de documents présélectionnés (documents/ | ||
+ | * 2ème idée: le score de popularité peut être calculé de manière objective indépendamment des taux de fréquentation | ||
+ | </ | ||
+ | |||
+ | === PageRank === | ||
+ | |||
+ | < | ||
+ | Le World Wide Web (www) est un réseau | ||
+ | * formé de documents (les pages html) hébergées sur des serveurs, | ||
+ | * les serveurs sont localisés à l'aide de leur adresse (url : universal ressource locator) | ||
+ | * les documents sont liés entre eux par des liens hypertextes. | ||
+ | </ | ||
+ | |||
+ | Les algorithmes d' | ||
+ | |||
+ | <note important> | ||
+ | score(j,q)=PR(j)×sim(j,q) | ||
+ | où PR(j) est la popularité de la page j. | ||
+ | </ | ||
+ | |||
+ | <note tip> | ||
+ | Le score de popularité le plus célèbre est le **" | ||
+ | </ | ||
+ | |||
+ | Le calcul du Page Rank repose sur un modèle de parcours aléatoire de graphes. On considère un internaute se déplaçant sur le Web de manière aléatoire. A chaque page visitée, il suit un lien au hasard et répète cette opération un nombre indéfini de fois. Le résultat est un chemin aléatoire sur le graphe. Au cours de ce parcours, certains sites seront visités plus souvent que d' | ||
+ | |||
+ | |||
+ | |||
+ | < | ||
+ | {{public: | ||
+ | </ | ||
+ | |||
+ | **Modélisation statistique d’un parcours aléatoire du graphe du web** | ||
+ | |||
+ | Soit un agent qui surfe sur le web au hasard | ||
+ | * dans q% des cas il suit d’un lien du site courant au hasard (q ≃ 80%) | ||
+ | * dans (1-q)% des cas il visite une page quelconque du réseau sans suivre de lien particulier. | ||
+ | |||
+ | q est appelé le terme d'// | ||
+ | |||
+ | Le graphe du web est constitué de n nœuds où chaque nœud est une page web. On considère que chaque page est indexée par un indice i∈1..n. | ||
+ | |||
+ | < | ||
+ | Dans ce cas, le graphe peut être représenté par une matrice G de taille | ||
+ | G a une structure de //matrice creuse// (beaucoup de 0, peu de 1) | ||
+ | |||
+ | $$G = \left( | ||
+ | \begin{array}{ccccccccccc} | ||
+ | 1& & & & & & & & & & \\ | ||
+ | & | ||
+ | & | ||
+ | 1& | ||
+ | & | ||
+ | & | ||
+ | & | ||
+ | & | ||
+ | & | ||
+ | & & & &1& & & & &1& \\ | ||
+ | & & & &1& & & & & &1\\ | ||
+ | \end{array} | ||
+ | \right) | ||
+ | $$ | ||
+ | (La valeur 0 n'est pas représentée) | ||
+ | </ | ||
+ | |||
+ | < | ||
+ | On peut de même définir une matrice de transition P contenant les probabilités de transition d'une page à l' | ||
+ | $$P = \left( | ||
+ | \begin{array}{ccccccccccc} | ||
+ | 1& & & & & & & & & & \\ | ||
+ | & | ||
+ | & | ||
+ | \frac{1}{3}& | ||
+ | & | ||
+ | & | ||
+ | & | ||
+ | & | ||
+ | & | ||
+ | & & & & | ||
+ | & & & & | ||
+ | \end{array} | ||
+ | \right) | ||
+ | $$ | ||
+ | </ | ||
+ | |||
+ | Le calcul du page Rank est fondé sur une estimation de la proportion de temps passée sur chaque site en suivant ce principe. | ||
+ | |||
+ | Il correspond à la mesure stationnaire de la chaîne de Markov associée, définie comme le vecteur x positif et de somme 1 vérifiant~: | ||
+ | x=xQT | ||
+ | avec~ | ||
+ | Q=qP+(1−q)n1 | ||
+ | avec 1 matrice de taille n×n ne contenant que des 1. | ||
+ | |||
+ | En pratique : | ||
+ | * Le graphe étant de grande taille, il n'est pas possible de résoudre directement l' | ||
+ | * Le graphe est régulièrement mis à jour pour prendre en compte les évolution du Web et de la popularité des différentes pages. | ||
+ | |||
+ | La mise à jour du graphe //et du PageRank// se fait de manière itérative à l'aide d'un " | ||
+ | |||
+ | < | ||
+ | **Algo** : | ||
+ | * Initialiser le vecteur x à la valeur (1/n,1/n,...,1/n) | ||
+ | * Pour chaque page visitée i : | ||
+ | - Mettre à jour les valeurs des liens sortants : ∀j:i→j,Pij←1∑j:i→j1 | ||
+ | - choisir une page j au hasard parmi les liens sortants | ||
+ | - Mettre à jour le score xj de la page j en fonction des liens entrants, i.e. xj←q∑i:i→jPijxi+1−qn | ||
+ | </ | ||
+ | |||
+ | <note important> | ||
+ | La popularité du site j est le logarithme en base 10 de la mesure invariante amortie de la chaîne de Markov du web (+ une constante), soit: | ||
+ | * si x∈Rn est la mesure invariante | ||
+ | * PR(j)=C+log10xj | ||
+ | * en pratique, C≃10 | ||
+ | </ | ||
+ | | ||
+ | <note tip> | ||
+ | Limites : | ||
+ | * il y a des sites qui apparaissent et qui disparaissent | ||
+ | * les sites non référencés par le graphe principal peuvent ne jamais être vus (dark web) | ||
+ | * l’algo a intérêt à visiter uniformément tous les sites référencés (pas seulement les plus populaires) | ||
+ | </ | ||
+ | |||
+ | <note important> | ||
+ | |||
+ | Certaines entreprises se sont spécialisées dans l' | ||
+ | (technique devenue obsolète avec les dernières versions de l' | ||
+ | |||
+ | </ | ||
+ | |||
+ | |||
+ | **Conclusion :** | ||
+ | Des algorithmes de recherche facilement parallélisables : plus il y a de serveurs en parallèle, plus le temps de réponse est court... Une efficacité qui explique leur grand succès économique. | ||
+ | |||
+ | |||