Qu'est-ce qu'une code page ?
C’est un tableau de correspondance entre des octets et des caractères. Selon la code page utilisée, les mêmes octets n’affichent pas les mêmes symboles.
Les familles de code pages et d'encodages les plus rencontrées :
1 ASCII et jeux mono-octet occidentaux
Jeux 7/8 bits historiques, utilisés dans de nombreux exports legacy.
2 Code pages Windows
Très répandues dans les applications bureautiques et certains systèmes.
3 Encodages multi-octets et internationaux
Recommandés pour les applications modernes et les contenus multilingues.
4 Pièges techniques liés aux code pages
Ce qui dérègle l’affichage ou la lecture des fichiers :
Problèmes classiques
Fichier enregistré dans la mauvaise code page
Un CSV en CP1252 servi en UTF-8 affiche é, — et autres artefacts.
Chaînes "identiques" qui ne comparent pas
Accents décodés différemment (UTF-8 vs CP1252) font échouer les assertions.
Mojibake après import/export
Double encodage ou décodage avec une code page incorrecte.
Entêtes HTTP ou meta charset manquants
Sans charset explicite, le navigateur ou l’outil devine et se trompe.
Exemple de problème courant :
Symptômes qui doivent vous alerter
🚨 Signaux d'alarme
Comment les détecter
✨ Solution recommandée : Clean ASCII
Clean ASCII met en évidence les octets hors ASCII et les marqueurs comme le BOM. En pratique, cela permet d’identifier rapidement si un texte provient d’une code page (CP1252, ISO-8859-1) ou s’il est déjà en UTF-8.
✅ Détection automatique
Octets hors ASCII, BOM, caractères de contrôle révélateurs
📊 Analyse complète
Indices d’encodage (fréquences, plages CP1252), positions exactes
🧹 Nettoyage automatique
Conversion vers UTF-8 et remplacement des caractères ambigus
💾 Export propre
Téléchargement en UTF-8 sans BOM, prêt à intégrer
Autres méthodes de détection
Affichage dans l'éditeur
En ligne de commande (Unix)
En code
JavaScript
Python
Excel / Google Sheets
Nettoyer et prévenir
🚀 Solution rapide avec Clean ASCII
Avant d’écrire des scripts, utilisez Clean ASCII pour vérifier la présence d’un BOM, repérer des octets non-ASCII et convertir proprement en UTF-8.
Méthodes techniques avancées
🔧 Normaliser
🧹 Filtrer
transcode_utf8() centralisée (iconv, mbstring)
⚙️ Automatiser
Checklist rapide
Conclusion
Les code pages expliquent la plupart des soucis d’accents et de symboles brisés. En les maîtrisant, vous gagnez des heures de debug.
Unifiez l’encodage sur UTF-8, explicitez le charset dans vos flux et contrôlez vos conversions : la plupart des erreurs disparaissent.
Diagnostiquez la code page de vos textes
Utilisez notre outil pour identifier l’encodage, repérer un BOM et convertir proprement en UTF-8.
Analyser mon texte