L’encodages des caractères

1. Définition

Un encodage de caractères est un système qui associe à chaque caractère (lettre, chiffre, symbole, espace, etc.) un code numérique permettant à un ordinateur de le représenter, de le stocker et de l’afficher.

2. Enjeux

L’encodage garantit que les textes sont lisibles et identiques sur tous les appareils et systèmes.
Une erreur d’encodage provoque des symboles illisibles (par exemple : � ou é au lieu de é).
Il est donc essentiel pour :

  • la circulation correcte des fichiers (édition, web, bases de données) ;
  • la conservation des textes sur le long terme ;
  • l’interopérabilité entre logiciels.

3. Les encodages principaux

EncodageDescriptionParticularités
ASCII (1963)Premier standard (128 caractères)Limité à l’anglais.
ISO-8859-1 (Latin-1)Extension pour les langues d’Europe occidentaleReprésente les caractères accentués, mais pas les guillemets français.
Windows-1252Variante utilisée par MicrosoftInclut les caractères typographiques courants (œ, –, “”).
UTF-8Encodage universel du standard UnicodeCompatible ASCII ; représente toutes les langues du monde ; encodage par défaut du Web.

4. Le standard Unicode

Unicode attribue un code point unique à chaque caractère (ex. : U+00E9 pour “é”), indépendamment de la langue ou du système.
UTF-8, UTF-16 et UTF-32 sont trois méthodes d’encodage d’Unicode ; UTF-8 est la plus utilisée.

5. Bonnes pratiques

  • Toujours enregistrer les fichiers texte en UTF-8 sans BOM.
  • Vérifier l’encodage avant tout import/export de texte.
  • Déclarer l’encodage dans les métadonnées (ex. : <meta charset="UTF-8"> en HTML).
  • Pour l’édition numérique : vérifier la compatibilité avec les logiciels de PAO, de lecture et de conversion (InDesign, Sigil, Calibre, etc.).

6. Exemple pratique

Un texte contenant le caractère “é” :

  • En ASCII → impossible à représenter.
  • En ISO-8859-1 → 0xE9
  • En UTF-8 → deux octets : 0xC3 0xA9

7. Ressources

Exercice : Comprendre et identifier les encodages de caractères

Objectifs pédagogiques

– Comprendre les principes fondamentaux des encodages de caractères.
– Identifier les problèmes d’affichage liés à un encodage incorrect.
– Apprendre à corriger et à vérifier l’encodage d’un fichier texte.

Consignes

Ouvrez les trois fichiers texte fournis (texte1.txt, texte2.txt, texte3.txt). Notez les différences d’affichage (lettres manquantes, caractères étranges, symboles). Indiquez pour chaque fichier :
a) Les anomalies observées.
b) L’encodage probable du fichier (ASCII, ISO-8859-1, Windows-1252, UTF-8)

c) Corriger le fichier HTML suivant :