Qu'est-ce que l'encodage XML ?
C'est la manière dont les caractères sont représentés en octets et déclarés dans le prologue XML pour être interprétés correctement.
Voici les aspects fondamentaux à maîtriser autour de l'encodage XML :
1 Caractères réservés et entités
Obligatoire d'échapper dans le contenu texte et les attributs.
2 Déclaration et jeu de caractères
La déclaration doit refléter l'encodage réel du fichier.
UTF-8, UTF-16BE/LE (avec BOM), ISO-8859-1 (héritage, à convertir)
3 Octets et marqueurs invisibles
Souvent sources d'erreurs silencieuses lors du parsing :
4 Restrictions XML 1.0 / 1.1
Tous les caractères Unicode ne sont pas autorisés en XML 1.0.
Problèmes classiques
Caractères réservés non échappés
Un & ou un < dans le contenu casse le document et fait échouer le parseur.
Parsing XML qui échoue
BOM inattendu, caractère interdit ou séquence d'octets invalide.
Déclaration d'encodage incohérente
encoding="ISO-8859-1" alors que le fichier est en UTF-8 (ou inversement).
Entités HTML vs XML
Certaines entités HTML (ex: ) ne sont pas valides en XML sans DTD adaptée.
Exemple de problème courant :
Symptômes qui doivent vous alerter
🚨 Signaux d'alarme
Comment les détecter
✨ Solution recommandée : Clean ASCII
Clean ASCII met en évidence les caractères non conformes, les marqueurs BOM et les symboles qui doivent être échappés en XML. Vous visualisez rapidement ce qui empêche votre document d'être bien formé.
✅ Détection automatique
Caractères interdits XML, BOM, entités manquantes
📊 Analyse complète
Codes Unicode, positions exactes, propositions d'échappement
🧹 Nettoyage automatique
Conversion en UTF-8, suppression du BOM, remplacement des caractères
💾 Export propre
Téléchargement du texte prêt pour une sérialisation XML
Autres méthodes de détection
Affichage dans l'éditeur
En ligne de commande (Unix)
En code
JavaScript
Python
Excel / Google Sheets
Nettoyer et prévenir
🚀 Solution rapide avec Clean ASCII
Avant d'écrire des scripts, utilisez Clean ASCII pour assainir votre contenu destiné à XML :
Méthodes techniques avancées
🔧 Normaliser
🧹 Filtrer
xml_escape() pour &, <, >, " et '
⚙️ Automatiser
Checklist rapide
Conclusion
L'encodage XML est un détail qui a de grands effets. Un seul octet inapproprié ou un & non échappé suffit pour bloquer un pipeline entier.
Standardisez l'encodage en UTF-8, échappez les caractères réservés et automatisez vos vérifications: vous éliminez l'essentiel des erreurs de parsing.
Vérifiez l'encodage XML maintenant
Utilisez notre outil pour repérer et corriger les problèmes d'encodage et d'entités dans vos contenus XML.
Analyser mon XML