tc_info:2020_cm_textes

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
tc_info:2020_cm_textes [2023/11/30 10:21] edaucetc_info:2020_cm_textes [2025/04/23 10:59] (Version actuelle) edauce
Ligne 41: Ligne 41:
 <code java> <code java>
   char x;   char x;
-  x = 'a';+  x = 'x';
 </code>   </code>  
   * ''x'' une variable de type caractère   * ''x'' une variable de type caractère
-  * ''a'' la valeur numérique (encodé):+  * '''x''' la valeur numérique (encodée):
  
   *   *
Ligne 54: Ligne 54:
     * Codage latin-1 (caractères latins étendus)     * Codage latin-1 (caractères latins étendus)
     * etc...     * etc...
 +
 +<note> ** La table ASCII **
 +{{ :tc_info:capture_d_ecran_du_2025-04-23_10-37-41.png |}}
 +</note>
  
  
Ligne 67: Ligne 71:
   *   *
     * affiche la valeur ''47'' (le code ASCII du caractère '''/'''     * affiche la valeur ''47'' (le code ASCII du caractère '''/'''
-  * La norme UTF-8 encode les caractères sur un nombre d'octets variant entre 1 et 4. Il permet ainsi de coder un nombre de caractères considérablement plus élevé. 
-    * Exemple : le smiley '''😃''' appartient à la norme utf-8. Pour obtenir la valeur entière correspondante : 
-<code java> 
-String s = "😃"; 
-int code = s.codePointAt(0); 
-System.out.println(code); 
-</code> 
-  * On peut inversement afficher le caractère à partir de son code entier : 
-<code java> 
-int code1 = 233; 
-int code2 = 119070; 
- 
-char char1 = (char) code1; 
-String char2 = new String(Character.toChars(code2)); 
- 
-System.out.println(char1); 
-System.out.println(char2); 
-</code> 
 </note> </note>
 +
 +voir aussi : {{https://koor.fr/Java/Tutorial/java_type_character.wp}}
  
 === 1.3 Codage des mots et du texte === === 1.3 Codage des mots et du texte ===
Ligne 111: Ligne 99:
  
 Le programme affiche les caractère 1 par 1, c’est une "chaîne" de plusieurs caractères individuels. Le programme affiche les caractère 1 par 1, c’est une "chaîne" de plusieurs caractères individuels.
 +
 +<note important> 
 +  * La norme UTF-8 encode les caractères sur un nombre d'octets variant entre 1 et 4. Il permet ainsi de coder un nombre de caractères considérablement plus élevé.
 +    * Exemple : le smiley '''😃''' appartient à la norme utf-8. Pour obtenir la valeur entière correspondante :
 +<code java>
 +String s = "😃";
 +int code = s.codePointAt(0);
 +System.out.println(code);
 +</code>
 +  * On peut inversement afficher le caractère à partir de son code entier :
 +<code java>
 +int code1 = 233;
 +int code2 = 119070;
 +
 +char char1 = (char) code1;
 +String char2 = new String(Character.toChars(code2));
 +
 +System.out.println(char1);
 +System.out.println(char2);
 +</code>
 +</note>
  
 **Donnée texte** **Donnée texte**
Ligne 116: Ligne 125:
 Un texte, au même titre qu'un mot, est une chaîne de caractères (dont la longueur est définie par la longueur de  Un texte, au même titre qu'un mot, est une chaîne de caractères (dont la longueur est définie par la longueur de 
 la séquence de caractères qui définissent le texte, ponctuations, espaces et caractères de retour à la ligne compris). la séquence de caractères qui définissent le texte, ponctuations, espaces et caractères de retour à la ligne compris).
-<note tip> ** Les caractères séparateurs **+
  
 Par définition les caractères séparateurs définissent la taille des espaces entre les mots, ainsi que les passages à la ligne lors de l'affichage du texte.  Par définition les caractères séparateurs définissent la taille des espaces entre les mots, ainsi que les passages à la ligne lors de l'affichage du texte. 
-  * ''""''  : caractère nul  + 
-  * ''" "'' : un espace simple +<note tip> ** Les caractères séparateurs ** 
-  * ''"\t"'' : tabulation +  * <code java>'' </code>  : caractère nul  
-  * ''"\n"'' : passage à la ligne ("retour chariot"+  * <code java>' ' </code> : un espace simple 
-  * ''"\b"'' : retour arrière ("//backspace//")+  * <code java>'\t' </code> : tabulation 
 +  * <code java>'\n' </code> : passage à la ligne ("retour chariot"
 +  * <code java>'\b' </code> : retour arrière ("//backspace//")
   * etc.   * etc.
 </note> </note>
Ligne 134: Ligne 145:
   * ainsi, dans le système décimal, la position du chiffre dans le nombre définit à quelle puissance de 10 il appartient (unité, dizaines, centaines, etc...) Le chiffre le plus à gauche a la puissance la plus élevée et celui le plus à droite la puissance la plus faible.     * ainsi, dans le système décimal, la position du chiffre dans le nombre définit à quelle puissance de 10 il appartient (unité, dizaines, centaines, etc...) Le chiffre le plus à gauche a la puissance la plus élevée et celui le plus à droite la puissance la plus faible.  
   * Si on suppose, pour simplifier, que chaque caractère est codé par un entier entre 0 et 255 (soit le code ASCII "étendu"), alors toute séquence de caractères (de claviers européens) exprime un nombre en base 256.    * Si on suppose, pour simplifier, que chaque caractère est codé par un entier entre 0 et 255 (soit le code ASCII "étendu"), alors toute séquence de caractères (de claviers européens) exprime un nombre en base 256. 
-    * Un tel nombre s'appelle un "bytestring" en python.  +    * Un tel nombre s'appelle un "bytestring" ("chaine d'octets").  
     * Il existe une fonction ''encode'' qui effectue une telle traduction     * Il existe une fonction ''encode'' qui effectue une telle traduction
       * Exemple :       * Exemple :
Ligne 686: Ligne 697:
 {{:tc_info:corr:alignement_glouton.png?600|}} {{:tc_info:corr:alignement_glouton.png?600|}}
  
-==== 5. Modèles génératifs ====+==== 5. Modèles génératifs (Hors programme) ====
  
 Soit un document d : Soit un document d :
  • tc_info/2020_cm_textes.1701336098.txt.gz
  • Dernière modification : 2023/11/30 10:21
  • de edauce