XML encodage : problèmes courants et solutions

Qu'est-ce que l'encodage XML ?

C'est la manière dont les caractères sont représentés en octets et déclarés dans le prologue XML pour être interprétés correctement.

Voici les aspects fondamentaux à maîtriser autour de l'encodage XML :

1 Caractères réservés et entités

Obligatoire d'échapper dans le contenu texte et les attributs.

& → & < → < > → > " → " ' → '

2 Déclaration et jeu de caractères

La déclaration doit refléter l'encodage réel du fichier.

UTF-8, UTF-16BE/LE (avec BOM), ISO-8859-1 (héritage, à convertir)

3 Octets et marqueurs invisibles

Souvent sources d'erreurs silencieuses lors du parsing :

BOM UTF-8 (U+FEFF) en tête de fichier

ZWNBSP (U+FEFF) dans le flux texte

Retours à la ligne hétérogènes CRLF/LF

Caractères hors plage XML 1.0

4 Restrictions XML 1.0 / 1.1

Tous les caractères Unicode ne sont pas autorisés en XML 1.0.

Interdits: C0 sauf HT(9), LF(10), CR(13)

U+FFFE, U+FFFF non valides

Plages autorisées: 0x20-0xD7FF, 0xE000-0xFFFD (XML 1.0)

Problèmes classiques

Caractères réservés non échappés

Un & ou un < dans le contenu casse le document et fait échouer le parseur.

Parsing XML qui échoue

BOM inattendu, caractère interdit ou séquence d'octets invalide.

Déclaration d'encodage incohérente

encoding="ISO-8859-1" alors que le fichier est en UTF-8 (ou inversement).

Entités HTML vs XML

Certaines entités HTML (ex: ) ne sont pas valides en XML sans DTD adaptée.

Exemple de problème courant :

# Deux XML visuellement proches mais pas identiques

xml1 = "<root>R&D</root>"

xml2 = "<root>R&D</root>" # Entité correctement échappée

parse(xml1) # ❌ Échec

Symptômes qui doivent vous alerter

🚨 Signaux d'alarme

!

L'analyseur XML renvoie "not well-formed" ou "invalid character" sans indice clair

!

Un diff git indique une modification en tête de fichier après un copier-coller (BOM ajouté)

!

Un flux RSS/Atom est refusé par une plateforme sans message exploitable

!

Un endpoint SOAP/REST échoue après l'ajout d'un simple caractère &

!

Un export CSV vers XML ne respecte plus le même nombre d'éléments

Comment les détecter

✨ Solution recommandée : Clean ASCII

Clean ASCII met en évidence les caractères non conformes, les marqueurs BOM et les symboles qui doivent être échappés en XML. Vous visualisez rapidement ce qui empêche votre document d'être bien formé.

✅ Détection automatique

Caractères interdits XML, BOM, entités manquantes

📊 Analyse complète

Codes Unicode, positions exactes, propositions d'échappement

🧹 Nettoyage automatique

Conversion en UTF-8, suppression du BOM, remplacement des caractères

💾 Export propre

Téléchargement du texte prêt pour une sérialisation XML

🔍 Vérifier mon encodage XML

Autres méthodes de détection

Affichage dans l'éditeur

✓ Affichez l'encodage du fichier et forcez UTF-8 par défaut (VS Code, JetBrains, Sublime)

✓ Activez la visualisation des blancs/BOM et utilisez une coloration XML stricte

En ligne de commande (Unix)

# Détecter l'encodage et la présence de BOM

file -I fichier.xml

# Valider le document

xmllint --noout fichier.xml

# Convertir proprement vers UTF-8

iconv -f ISO-8859-1 -t UTF-8 fichier.xml > sortie.xml

# Repérer les octets interdits (XML 1.0)

grep -P "[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]" fichier.xml

En code

JavaScript

str.replace(/[&<>"']/g, m => ({'&':'&','<':'<','>':'>','"':'"',"'":'''}[m]))

Python

[f"U+{ord(c):04X}" for c in s if c in "<>&\"'"]

Excel / Google Sheets

SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(A1;"&";"&");"<";"<");">";">");CHAR(34);""");"'";"'")

Nettoyer et prévenir

🚀 Solution rapide avec Clean ASCII

Avant d'écrire des scripts, utilisez Clean ASCII pour assainir votre contenu destiné à XML :

✓ Détection des caractères interdits

✓ Conversion UTF-8 et suppression du BOM

✓ Échappement des symboles réservés

Nettoyer maintenant

Méthodes techniques avancées

🔧 Normaliser

✓ Sauvegardez tout en UTF-8, sans BOM si possible

✓ Vérifiez la cohérence du prologue:

✓ Uniformisez les fins de ligne (dos2unix, gitattributes)

🧹 Filtrer

✓ Écrivez une fonction xml_escape() pour &, <, >, " et '

✓ Remplacez NBSP et autres espaces non standards par espace simple si nécessaire

✓ Bloquez les caractères de contrôle non autorisés par XML 1.0

⚙️ Automatiser

✓ Hooks pre-commit pour refuser des fichiers non UTF-8 ou contenant un BOM

✓ Validation xmllint/XSD en CI sur chaque build

✓ Tests d'entrée/sortie vérifiant l'échappement et l'absence de caractères interdits

Checklist rapide

Fichiers en UTF-8 sans BOM

Prologue XML avec encoding cohérent

Échappement systématique des caractères réservés

Validation xmllint/XSD intégrée au workflow

Tests vérifiant l'absence de caractères interdits XML 1.0

Documentation équipe sur encodage, entités et fins de ligne

Conclusion

L'encodage XML est un détail qui a de grands effets. Un seul octet inapproprié ou un & non échappé suffit pour bloquer un pipeline entier.

Standardisez l'encodage en UTF-8, échappez les caractères réservés et automatisez vos vérifications: vous éliminez l'essentiel des erreurs de parsing.