Table des matières

CM3 : Données non structurées

3. Données non structurées

TBD : Manu
  • chaine de caractères
  • fichiers textes (stockage, utf8, lecture et ecriture)
  • expressions régulières

3.1 Données texte

3.1.1 Codage des caractères

  x = 'a'

3.1.2 Codage des mots et du texte

Chaîne de caractère :

s = "bonjour"
for c in s :
  print (c)

Affiche :

b
o
n
j
o
u
r

Le programme affiche les caractère 1 par 1, c’est une "chaîne" de plusieurs caractères individuels.

3.1.3 Textes et bases de textes

Un texte, au même titre qu'un mot, est une chaîne de caractères (dont la longueur est définie par la longueur de la séquence de caractères qui définissent le textes, ponctuations, espaces et caractères de retour à la ligne compris.

Les caractères séparateurs

Par définition les caractères séparateurs définissent la taille des espaces entre les mots, ainsi que les passages à la ligne lors de l'affichage du texte.

  • "" : caractère nul
  • " " : un espace simple
  • "\t" : tabulation
  • "\n" : passage à la ligne ("retour chariot")
  • "\b" : retour arrière ("backspace")
  • etc.

3.2 Recherche dans les textes

Exemples :
Problématiques de la recherche de texte :
Remarque :

Un document texte pourra être décrit soit comme :

3.2.1 Recherche simple

TODO

d : document de taille m On cherche un algorithme qui retourne toutes les occurrences (position dans le doc) d’un certain terme t (de taille k<m)

t = "ami"

d :

"Les amis de mes amis sont mes amis."
     ^           ^             ^    
     4           16            30      

Remarque : Il peut être nécessaire de vérifier que le terme est précédé et suivi par les caractères d’espacement pour éviter de détecter les mots dont le mot recherché est préfixe ou suffixe.

3.2.2 Compter les mots

TODO

Lecture séquentielle des caractères :

"Les amis de mes amis sont mes amis."
 ^            
 position initiale de la tête de lecture
{a,à,ä,b,c,ç,d,e,é,è,ê,ë,...,z,A,B,C,...,Z,1,2,3,...,0}
{!,#,$,%,&,",',...}

remarque : pour extraire la liste des mots présents dans le texte, on doit identifier les débuts et les fins de mots :

3.2.3 Recherche de motifs et expressions régulières

De manière plus générale recherche d’expressions peut être effectuée à l’aide d’automates finis.

Lecture séquentielle des caractères :

"Les amis de mes amis sont mes amis."
 ^            
 position initiale de la tête de lecture

Représentation graphique : (source : Luc.Maranget@inria.fr)

Traduction sous forme d'expression régulière :

(a|b)*ab

Ce motif reconnaît les mots suivants :

ab
aab
bab
aaab
abab
baab
bbab
aaaab
etc..

Remarques :

Exemples:

Syntaxe des expressions régulières Python

Définition : Il s’agit d’une syntaxe “condensée” de description d’automates finis permettant de reconnaître des motifs dans un texte.

En Python, les expressions régulières sont implémentées dans la librairie re

import re
 
d = "Les astronautes de la mission Gemini 8 sont désignés le 20 septembre 1965 : Armstrong est le commandant et David Scott le pilote. Ce dernier est le premier membre du groupe d'astronautes à recevoir une place dans l'équipage titulaire d'une mission spatiale. La mission est lancée le 16 mars 1966. Celle-ci est la plus complexe réalisée jusque-là, avec un rendez-vous et un amarrage du vaisseau Gemini avec l'étage de fusée Agena et une activité extravéhiculaire (EVA) qui constitue la deuxième sortie américaine et la troisième en tout, réalisée par Scott. La mission doit durer 75 heures et le vaisseau doit effectuer 55 orbites. Après le lancement de l'étage-cible Agena à 15 h 00 UTC, la fusée Titan II GLV transportant Armstrong et Scott décolle à 16 h 41 UTC. Une fois en orbite, la poursuite de l'étage Agena par le vaisseau Gemini 8 s'engage."
 
liste_termes = re.findall(r"([1-9]\d*|0)", d)
Transitions : caractères et groupes de caractères

Def : une expression est définie comme une suite de transition. Le mot est accepté lorsque la suite de transitions est respectée

Exemple :

r"chal[eu]t"

accepte chalet et chalut

r"\w\w\w"

accepte tous les mots de 3 lettres

Branchements et Récursion
exemples
 r'\w[\.\w\-]*\w@\w[\.\w\-]*\.\w\w\w?' 

3.3 Comparaison/appariement de textes

TODO

3.4 Complétion / Correction

TODO