Différences

Ci-dessous, les différences entre deux révisions de la page.

--- tc_info:2020_cm_textes [2023/11/29 17:12] – [1 Données texte] edauce
+++ tc_info:2020_cm_textes [2023/11/30 00:09] – [5. Modèles génératifs] edauce
@@ Ligne 75: / Ligne 75: @@
 </code>
   * On peut inversement afficher le caractère à partir de son code entier :
-<code python>
+<code java>
 int code1 = 233;
 int code2 = 119070;
@@ Ligne 89: / Ligne 89: @@
 === 1.3 Codage des mots et du texte ===
 Chaîne de caractère :
-<code python>
+<code java>
-s = "bonjour"
+String s = "bonjour";
 </code>
   * ''s'' est une variable
@@ Ligne 96: / Ligne 96: @@
     * "chaîne" de caractères : type //string// en anglais
     * assimilable à un tableau de caractère :
-<code python>
+<code java>
-for c in s :
+for (char c : s.toCharArray()) {
-  print (c)
+            System.out.println(c);
+        }
 </code>
 Affiche :
@@ Ligne 136: / Ligne 137: @@
     * Il existe une fonction ''encode'' qui effectue une telle traduction
       * Exemple :
-<code python>
+<code java>
-s = 'paul.poitevin@centrale-marseille.fr'
+String s = "paul.poitevin@centrale-marseille.fr";
-b = s.encode()
+// Encodage de la chaîne en bytes en utilisant UTF-8
+byte[] b = s.getBytes();
+// Affichage des bytes encodés
+for (byte byteValue : b) {
+    System.out.print(byteValue + " ");
+    }
 </code>
+ce qui affiche:
+<code>
+97 117 108 46 112 111 105 116 101 118 105 110 64 99 101 110 116 114 97 108 101 45 109 97 114 115 101 105 108 108 101 46 102 114
+</code>
 Un nombre en base 256 est difficile à lire et interpréter. On le traduit en base 10 :
-<code python>
+<code java>
-i = int.from_bytes(b, byteorder='big')
+// Conversion des bytes en BigInteger
-print("i =", i)
+BigInteger bigInteger = new BigInteger(b);
+// Affichage du résultat
+System.out.println("i = " + bigInteger);
 </code>
 Ce qui donne :
@@ Ligne 230: / Ligne 247: @@
 Cette approche a un inconvénient : après une comparaison infructueuse, la comparaison suivante débutera à la position i + 1, sans tenir aucun compte de celles qui ont déjà eu lieu à l'itération précédente, à la position i.
-** Algorithme de Knuth-Morris-Pratt **
+** Algorithme de Boyer-Moore **
-L'algorithme de Knuth-Morris-Pratt examine d'abord la chaîne ''t'' et en déduit des informations permettant de ne pas comparer chaque caractère plus d'une fois.
+L'algorithme de Boyer-Moore examine d'abord la chaîne ''t'' et en déduit des informations permettant de ne pas comparer chaque caractère plus d'une fois.
   * On suppose qu'on peut tester si un caractère ''c'' appartient au motif ''t'' en temps constant
   * Le but est de calculer un décalage permettant de ne pas inspecter les positions où il n'y a aucune chance de trouver le motif ''t''.
   * On commence par chercher la position ''i = m - 1''
-  * On inspecte la chaîne ''d'' de ''i'' à ''i - m'' décroissant, et on s'arrête au premier caractère commun (i.e. ''j <= m-1'' t.q. ''d[i-j]'' appartient à ''t'')
+  * Soit ''c'' = ''d[i]'' le dernier caractère
-  * Soit ''c'' = ''d[i-j]'' le caractère commun
+  * Si ''c'' n'est pas dans ''t'', le décalage vaut ''m''
-  * On note ''k'' la position de la dernière occurrence de ''c'' dans ''t[:m-j-1]''
+  * Sinon on note ''k'' la position de la dernière occurrence de ''c'' dans ''t''
-  * Le décalage est égal à ''m - 1 - j - k''
+    * si ''k'' vaut ''m-1'' (dernier caractère), le décalage vaut ''m''
-  * Si on ne trouve rien (ou si le décalage vaut 0), le décalage vaut ''m''
+    * Sinon le décalage est égal à ''m - 1 - k''
 <note tip>
@@ Ligne 252: / Ligne 269: @@
                 CHINE
                      CHINE
-                       CHINE
+                          CHINE
-                            CHINE
+                               CHINE
-                                 CHINE
                                    CHINE
   RECHERCHE DE CHAINES CODEES EN MACHINE
 </note>
-<code>
-Algo : recherche améliorée (Knuth-Morris-Pratt)
-Données : d, t : chaînes de caractères
-Début:
-    n = len (d)
-    m = len (t)
-    i <-- m - 1
-    tant que i < n :
-      # PRE-TRAITEMENT
-      j <-- 0
-      tant que j < m  - 1:
-        c = d[i - j]
-        si c appartient à t[:m-j-1]
-           k <-- dernière_occurrence(c, t[:m-j-1])
-           decalage <--  m - 1 - j  - k
-           break
-        sinon
-           j += 1
-      si j == m - 1 ou si décalage == 0:
-         decalage <-- m
-      # TRAITEMENT
-      j <-- 0
-      tant que j < m :
-         si t[m - j - 1] = d[i - j]
-            j += 1
-         sinon
-            break
-      si j = m:
-        retourner i - m + 1
-      # DECALAGE
-      i <-- i + decalage
-    retourner -1
-Fin
-</code>
 === 2.2 Compter les mots ===
@@ Ligne 445: / Ligne 426: @@
   * Les classes d'expressions qui peuvent être reconnues par un automate fini sont appelées des //expressions régulières//
   * En python, les expressions régulières s'expriment à l'aide d'une syntaxe  spécifique à l'aide de la librairie ''re''
+  * Les expressions régulières (regex) servent à décrire des motifs complexes à chercher ("marcher") dans les chaînes de caractères.
 Traduction de l'automate non déterministe précédent sous forme d'expression régulière :
@@ Ligne 455: / Ligne 438: @@
   * reconnaître une expression arithmétique
   * vérifier la syntaxe d'un code informatique
 === Syntaxe des expressions régulières Python ===
@@ Ligne 495: / Ligne 476: @@
 accepte tous les mots de 3 lettres
-**Branchements et Récursion**
+**Branchements et itération**
   * Les parenthèses permettent :
     * de factoriser une expression (qui peut alors être traitée comme une transition)
       * ''(artichaud)''
-    * de définir des branchements :
+    * de définir des branchements (Union):
       * ''(chien|chat)''
@@ Ligne 506: / Ligne 487: @@
   * ''?'' : le caractère ou l'expression précédente répété entre 0 et 1 fois
+<note tip> ** Récapitulatif **
+. **Caractères littéraux :**
+  * Les caractères alphabétiques et numériques sont traités littéralement. Par exemple, le motif ''"abc"'' correspond à la chaîne ''"abc"''.
+. **Caractères spéciaux :**
+   * Certains caractères ont une signification spéciale dans une expression régulière et doivent être échappés s'ils doivent être traités littéralement. Ces caractères spéciaux incluent ''. ^ $ * + ? { } [ ] \ | ( )''.
+. **Classes de caractères :**
+   * ''[abc]'' : Correspond à un caractère qui est soit ''a'', ''b'' ou ''c''.
+   * ''[^abc]'' : Correspond à un caractère qui n'est pas ''a'', ''b'' ou ''c''.
+   * ''[a-z]'' : Correspond à un caractère alphabétique en minuscules.
+   * ''[A-Z]'' : Correspond à un caractère alphabétique en majuscules.
+   * ''[0-9]'' : Correspond à un chiffre.
+. **Caractères génériques :**
+   * ''.'' : Correspond à n'importe quel caractère sauf une nouvelle ligne.
+   * ''\d'' : Correspond à un chiffre (équivalent à ''[0-9]'').
+   * ''\D'' : Correspond à un caractère qui n'est pas un chiffre.
+   * ''\w'' : Correspond à un caractère alphanumérique (équivalent à ''[a-zA-Z0-9_]'').
+   * ''\W'' : Correspond à un caractère qui n'est pas alphanumérique.
+. **Quantificateurs :**
+   * ''*'' : Correspond à zéro ou plusieurs occurrences du caractère précédent.
+   * ''+'' : Correspond à une ou plusieurs occurrences du caractère précédent.
+   * ''?'' : Correspond à zéro ou une occurrence du caractère précédent.
+   * ''{n}'' : Correspond exactement à ''n'' occurrences du caractère précédent.
+   * ''{n,}'' : Correspond à au moins ''n'' occurrences du caractère précédent.
+   * ''{n,m}'' : Correspond à entre ''n'' et ''m'' occurrences du caractère précédent.
+. **Ancrages :**
+   * ''^'' : Correspond au début de la chaîne.
+   * ''$'' : Correspond à la fin de la chaîne.
+. **Groupes et Alternatives :**
+   * ''()'' : Crée un groupe. Par exemple, ''(abc)+'' correspond à une ou plusieurs occurrences de ''"abc"''.
+   * ''|'' : Représente une alternative (ou). Par exemple, ''a|b'' correspond à ''"a"'' ou ''"b"''.
+. **Échappement :**
+   * ''\'' : Permet d'échapper un caractère spécial pour le traiter littéralement. Par exemple, ''\\'' correspond à un seul backslash.
+</note>
 ==exemples==
@@ Ligne 535: / Ligne 558: @@
   * début de mot : ''ar''
   * complétions possibles : ''{art, arbre}''
+** Autre exemple:**
+{{https://algo.developpez.com/images/faq/StructuresArborescentes/arbre_patricia.png}}
 ==== 4 Comparaison/appariement de textes ====
 On cherche à exprimer une distance entre deux chaînes de caractères.
@@ Ligne 659: / Ligne 685: @@
 {{:tc_info:corr:alignement_glouton.png?600|}}
+===== 5. Modèles génératifs =====
+Soit un document $d$ :
+  * constitué de $T$ symboles $d[1]$, …, $d[i]$, ….
+  * appartenant à l'alphabet $A = \{\alpha_1,...,\alpha_K\}$ constitué de $K$ symboles.
+Une description statistique d’un texte correspond à un histogramme qui porte sur un ensemble de symboles :
+{{:restricted:text_mining.png|}}
+<note tip>
+Modèles probabiliste : la suite de symbole observés (le message) est générée par un processus aléatoire:
+$d = (d_1, d_2, ..., d_T$)
+  * chaque $d_i$ est la réalisation d'un tirage aléatoire
+  * obéissant à une distribution de probabilité $p$
+</note>
+<note important>
+Les symboles sont au choix :
+  * des caractères appartenant à un alphabet
+  * des termes appartenant à un vocabulaire
+</note>
+=== 5.1 Modèles probabilistes ===
+Les modèles probabilistes interprètent les données de type texte comme étant générées par une distribution de probabilité $P$ inconnue.
+La distribution $P$ définit le langage utilisé dans le texte. On ne s'intéresse pas au sens du message, on regarde seulement comment les symboles se répartissent dans les documents, leurs fréquences d'apparition, les régularités, ...
+=== Fréquence d'un symbole ===
+Soit $\alpha \in A$ un symbole de l'alphabet. On note $P(X=\alpha)$ la fréquence d'apparition de ce symbole //dans le langage $\mathcal{L}$ considéré//.
+On a par définition~:
+$$\sum_{\alpha \in V} P(X=\alpha) = 1$$
+<note>
+**Exemple**:
+$$\boldsymbol{p}_\text{Français} = (0.0942, 	0.0102, 0.0264,	0.0339, 0.01587, 0.095, 0.0104, 0.0077,	0.0841,	0.0089,	...)$$
+où
+  * $p_1 = 0.0942$ est la fréquence de la lettre 'A',
+  * $p_2 = 0.0102$ est la fréquence d'apparition de la lettre 'B'
+  * etc.
+</note>
+=== Probabilité jointe ===
+On s'intéresse maintenant aux fréquence d'apparition de couples de lettre successives.
+Soient $\alpha$ et $\beta$ deux symboles de l'alphabet.
+<note>
+  * Les séquences de deux caractères sont classiquement appelées des //bigrammes//.
+  * On définit de même les //trigrammes// comme les séquences de trois caractères
+  * etc.
+</note>
+On notera $\boldsymbol{P}_\mathcal{L}$ la matrice des fréquences des bigrammes dans un langage $\mathcal{L}$ donné, où $P_{ij}$ donne la fréquence du bigramme $(\alpha_i,\alpha_j)$.
+<note>
+**Exemple**:
+$$\boldsymbol{P}_\text{Français} = 10^{-5} \times \left(
+\begin{array}{cccc}
+.5 & 116.8 & 199.1 & ...\\
+.8 & 1.6 & 0.14 & ...\\
+.8 & 0 & 52.4 & ...\\
+&...&&&
+\end{array}
+\right)$$
+où
+  * $P_{11} = 1.5 \times 10^{-5}$ est la fréquence du bigramme 'AA',
+  * $P_{12} = 116.8 \times 10^{-5}$ est la fréquence d'apparition du bigramme 'AB'
+  * etc.
+</note>
+avec bien sûr :
+$$\sum_{(i,j) \in \{1,...,K\}^2} P_{ij}=1$$
+<note tip>
+ voir {{http://www.nymphomath.ch/crypto/stat/francais.html|comptage des bigrammes en français}}
+</note>
+La **probabilité conditionnelle** du caractère $\beta$ étant donné le caractère précédent $\alpha$ est définie comme :
+$$P(Y = \beta | X=\alpha) = \frac{|\xi \in \Xi : (X,Y)=(\alpha,\beta)|}{|\xi \in \Xi : X = \alpha|}$$
+<note tip>
+{{public:omi-5a-o-rech:proba_condi.png?300}}
+</note>
+Soit en français :
+<note>
+$$
+M_\text{Français} = \left(
+\begin{array}{cccc}
+.0016 & 0.0124 & 0.0211 & ...\\
+.0615 & 0.0016 & 0.0001 & ...\\
+.0700 & 0.0000 & 0.0198 & ...\\
+& ... &&&
+\end{array}
+\right)
+$$
+où :
+  * $M_{11}$ est la probabilité de voir un 'A' suivre un 'A'
+  * $M_{12}$ est la probabilité de voir un 'B' suivre un 'A'
+  * etc.
+</note>
+<note important>
+La matrice des probabilités conditionnelles $M$ permet de définir un **modèle génératif** de langage inspiré des **processus aléatoires de Markov**:
+  * La production d'un mot ou d'un texte est modélisée comme un parcours aléatoire sur une chaîne de Markov définie par la matrice de transitions $M$.
+  * La fréquence d'apparition des lettres est modélisée comme la mesure stationnaire de la chaîne de Markov, autrement dit le vecteur de probabilité vérifiant : $$ \boldsymbol{p} = \boldsymbol{p} M$$
+<note>
+{{public:omi-5a-o-rech:markov-fr.png?400|}}
+</note>
+ </note>
+On peutétendre ce principe à la distribution des mots dans les textes, ce qui permet de produire des //modèles génératifs de langage//.
+  * Exemple : le pseudo latin ("Lorem Ipsum") : {{https://www.lipsum.com/}}
+  * Exemple de pseudo-français (Utilisant une trace (mémoire) de 1 mot):
+<note tip>
+//j'ai vu parfois des yeux, remonter vers toi bien fatiguée! n'est pas un appel de la terre– je hume à coups mutins les voiles la blafarde lumière puisée au delà les vieux flacon débouché rien ne puis la pourriture les forêts ou bien que vénus par des choses dans les forts des senteurs confondues de ma chère, prêtre orgueilleux danse amoureusement l'éphémère ébloui par ses couleurs du haut qu'avec effroi dans sa beauté où je puis, sans remord un fleuve invisible d'un rayon frais n'éclaira vos banquiers un parfait d'une girouette ou décor suborneur ce temps! n'est plus ma carcasse superbe pyrrhus auprès d'un ange enivré du souvenir pour moi même dans le tortu, il fée, dévotes et mange retrouve jamais enfanté au poète– cependant de minéraux charmants, horreur, plus t'enfourcher! folle, si bien loin des laves les amants nous lançant son sein palpitant les blessés ou sirène qu'importé le coin du vin des jongleurs sacrés au loin de ton bétail, embusqué, et ton juge que ce globe entier dans les temps et d'un mouvement qui m'accable sur moi hurlait longue misère toi sans pitié de pleurs aboutit dans l'or et ne vibre que le soleil d'un chemin bourbeux croyant par votre corps brûlé par mille labyrinthes c'est un etre maudit soit actif ou de l'antre taciturne je le regard m'a déjà flaire peut être n'importe où les vrais rois pour le frais n'éclaira vos riches cités dans son coeur racorni, //
+</note>
+=== 5.2 Espaces de plongement (Word embedding) ===
+Le plongement des mots (word embedding)
+  * est une technique en traitement automatique du langage naturel (TALN)
+  * qui consiste à représenter les mots **sous forme de vecteurs de nombres réels dans un espace vectoriel**.
+  * L'idée est :
+    * de projeter les mots dans cet espace vectoriel
+    * où la proximité spatiale entre les vecteurs reflète la sémantique des mots.
+<note tip>
+Largement utilisés dans diverses tâches de traitement du langage naturel:
+  - classification de texte,
+  - la traduction automatique,
+  - l'analyse des sentiments,
+  - la recherche d'information, etc
+</note>
+**Word2Vec** est un algorithme d'apprentissage de représentations de mots (embeddings) développé par Tomas Mikolov et son équipe chez Google en 2013.
+  * L'idée fondamentale est que les mots ayant des contextes similaires ont tendance à avoir des significations similaires.
+  * Word2Vec utilise des modèles de **prédictions** pour apprendre des représentations vectorielles en analysant les contextes d'occurrence des mots dans un corpus de texte.
+Il existe deux architectures principales de Word2Vec : Skip-Gram et CBOW
+=== 1. Skip-Gram ===
+Dans l'approche Skip-Gram, le modèle tente de prédire les mots environnants (contexte) à partir d'un mot donné (mot central). Le processus d'apprentissage consiste à maximiser la probabilité d'observer les contextes donnés un mot central :
+\[ \max \sum_{t=1}^{T} \sum_{-c \leq j \leq c, j \neq 0} \log P(w_{t+j} \mid w_t) \]
+où \(T\) est la taille du corpus, \(w_t\) est le mot central, \(w_{t+j}\) est le mot contexte, et \(c\) est la taille de la fenêtre contextuelle.
+=== 2. CBOW (Continuous Bag of Words) ===
+Dans l'approche CBOW, le modèle tente de prédire le mot central à partir des mots contextuels (contexte). Le processus d'apprentissage consiste à maximiser la probabilité d'observer le mot central étant donnés les contextes:
+\[ \max \sum_{t=1}^{T} \log P(w_t \mid w_{t-c}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+c}) \]
+où \(T\) est la taille du corpus, \(w_t\) est le mot central, et \(w_{t-i}\) sont les mots contextuels dans la fenêtre de contexte.
+=== Fonctionnement Général ===
+Le processus d'apprentissage dans Word2Vec implique la création d'une matrice de co-occurrence, où chaque entrée représente la fréquence ou la probabilité d'occurrence conjointe de deux mots. À partir de cette matrice, le modèle ajuste les vecteurs de mots de manière itérative pour maximiser la probabilité d'observation du contexte étant donné le mot central.
+Une fois l'apprentissage terminé, les vecteurs de mots obtenus (les embeddings) capturent les relations sémantiques entre les mots dans l'espace vectoriel. Des mots similaires seront représentés par des vecteurs similaires, ce qui permet d'effectuer des opérations algébriques intéressantes telles que \( \text{"roi"} - \text{"homme"} + \text{"femme"} \approx \text{"reine"} \).
+Word2Vec a été révolutionnaire en raison de sa capacité à apprendre des représentations de mots utiles à partir de grands volumes de texte non annoté, et ses embeddings sont souvent utilisés comme points de départ pour de nombreuses tâches de traitement du langage naturel (NLP) et d'apprentissage automatique.