Qu'est-ce que GBK ?
GBK est un encodage à double octet pour le chinois simplifié, extension de GB2312, populaire sur Windows (CP936). Il coexiste encore dans de nombreux systèmes hérités et jeux de données.
Voici les principaux aspects à connaître sur GBK :
1 Sous-ensemble ASCII compatible
La plage 0x00–0x7F est identique à ASCII : chiffres, lettres, ponctuation de base.
2 Octets de contrôle et flux binaires
Les codes 0–31/127 restent des contrôles. Leur présence dans du texte peut indiquer un mauvais encodage.
3 Plages double-octet spécifiques à GBK
Octets d'amorce 0x81–0xFE suivis de 0x40–0xFE (sauf 0x7F).
4 Variantes et extensions
Contexte autour de GBK dans l'écosystème chinois :
Problèmes classiques
Copier-coller GBK dans un projet UTF-8
Produit des caractères illisibles (mojibake/乱码) dans des CSV, logs ou pages web.
Tests unitaires qui échouent
Comparaison de chaînes rompue car l’une est UTF-8, l’autre GBK, pour un même texte.
Lecture/écriture avec mauvais encodage par défaut
Un parseur suppose UTF-8 alors que la source est GBK (ou l’inverse).
Regex et limites de mots
Traitement byte-par-byte au lieu d’Unicode complet, erreurs de capture ou de split.
Exemple d'encodage GBK mal interprété :
Symptômes qui doivent vous alerter
🚨 Signaux d'alarme
Comment les détecter
✨ Solution recommandée : Clean ASCII
Clean ASCII met en évidence les octets non-UTF-8, détecte les séquences typiques de GBK et vous aide à identifier rapidement les sections du texte nécessitant une conversion.
✅ Détection automatique
Octets hors ASCII, séquences GBK/CP936, anomalies d’encodage
📊 Analyse complète
Encodage probable, positions exactes, recommandations de conversion
🧹 Nettoyage automatique
Conversion sûre vers UTF-8, options de substitution des symboles
💾 Export propre
Téléchargement du texte converti en UTF-8 prêt à intégrer
Autres méthodes de détection
Affichage dans l'éditeur
En ligne de commande (Unix)
En code
JavaScript
Python
Excel / Google Sheets
Nettoyer et prévenir
🚀 Conversion rapide avec Clean ASCII
Avant d’écrire des scripts, utilisez Clean ASCII pour inspecter et convertir vos textes encodés en GBK vers UTF-8 en quelques clics.
Méthodes techniques avancées
🔧 Normaliser
🧹 Filtrer
⚙️ Automatiser
Checklist rapide
Conclusion
GBK reste présent dans de nombreux systèmes et fichiers historiques. Un simple mauvais choix d’encodage suffit à corrompre l’affichage et à casser des traitements.
Adoptez une politique claire (UTF-8 en cible), détectez tôt le GBK et automatisez la conversion pour fiabiliser vos flux texte.
Vérifiez et convertissez GBK maintenant
Utilisez notre outil pour repérer le GBK, diagnostiquer les erreurs d’encodage et convertir proprement vers UTF-8.
Contrôler mon encodage