Qu'est-ce que Big5 ?
Big5 est un jeu de caractères multi‑octets historique pour le chinois traditionnel (Taïwan, Hong Kong), aussi connu sous le nom de code page 950 (CP950 sous Windows).
Voici les points clés à connaître pour travailler avec Big5 :
1 Structure et plages d’octets
ASCII sur 1 octet + caractères chinois sur 2 octets (DBCS).
2 Variantes et extensions
Différentes tables et ajouts selon les plateformes et régions.
3 Écarts avec Unicode
Certains caractères n’ont pas d’équivalent direct ou un mappage ambigu.
4 Indication d’encodage
Big5 n’a pas de BOM. Il est signalé via les en‑têtes ou balises.
Problèmes classiques
Ouverture Big5 en UTF‑8
Affichage en hiéroglyphes ou caractères �, CSV illisible, pertes de données.
Tests unitaires qui échouent après conversion
Les chaînes converties ne correspondent plus octet pour octet ou contiennent des remplacements.
Fonctions non multi‑octets
strlen/substring sur Big5 donnent des longueurs fausses et coupent au milieu d’un caractère.
Regex et correspondances
Sans support multi‑octets, les classes \w/\s et les ancrages ne se comportent pas comme prévu.
Exemple de problème courant :
Symptômes qui doivent vous alerter
🚨 Signaux d'alarme
Comment les détecter
✨ Solution recommandée : Clean ASCII
Clean ASCII met en évidence les octets non‑ASCII, repère les schémas typiques de Big5/CP950 et vous aide à préparer une conversion propre vers UTF‑8.
✅ Détection automatique
Octets hors ASCII, motifs DBCS, caractères problématiques
📊 Analyse complète
Positions exactes, occurrences, recommandations de conversion
🧹 Nettoyage automatique
Conversion vers UTF‑8 avec stratégies de remplacement
💾 Export propre
Téléchargement du texte converti prêt à l’emploi
Autres méthodes de détection
Affichage dans l'éditeur
En ligne de commande (Unix)
En code
JavaScript
Python
Excel / Google Sheets
Nettoyer et prévenir
🚀 Solution rapide avec Clean ASCII
Avant d’écrire des scripts, utilisez Clean ASCII pour détecter les octets Big5 et préparer une conversion fiable vers UTF‑8.
Méthodes techniques avancées
🔧 Normaliser
🧹 Filtrer
mb_strlen, mb_substr)
convert_to_utf8() centralisé en entrée
⚙️ Automatiser
Checklist rapide
Conclusion
Big5 reste présent dans des systèmes et fichiers hérités. Savoir l’identifier et le convertir correctement évite des corruptions coûteuses.
Standardisez en UTF‑8, contrôlez vos encodages aux frontières de vos applications et la plupart des problèmes de compatibilité disparaissent.
Vérifiez vos fichiers Big5 dès maintenant
Utilisez notre outil pour repérer les octets non‑UTF‑8 et préparer une conversion Big5 → UTF‑8 sans perte.
Analyser mon texte