Qu'est-ce que UTF-16 LE ?
UTF-16 LE est un encodage Unicode sur 16 bits en ordre d’octets Little Endian. Il peut commencer par un BOM 0xFF 0xFE et insère souvent un octet NUL entre les caractères ASCII.
Voici les principales notions à comprendre sur UTF-16 LE :
1 Endianness et unités de code
UTF-16 encode en unités de 16 bits. En Little Endian, l'octet faible précède l'octet fort.
2 BOM et détection automatique
Le BOM indique l’encodage et l’ordre des octets. En UTF-16 LE, il vaut 0xFF 0xFE.
3 Paires de substitution (surrogates)
Les caractères hors BMP (emojis, symboles musicaux…) utilisent deux unités de 16 bits.
4 Compatibilité et formats
Beaucoup d’outils attendent UTF-8. UTF-16 LE introduit des 0x00 qui perturbent parseurs et shells.
Problèmes classiques
Exports Windows/Excel en UTF‑16 LE
Fichiers .csv ou .txt encodés en UTF‑16 LE non reconnus par des scripts ou outils UNIX.
Tests unitaires qui comparent des chaînes
La valeur lue contient des 0x00 ou un BOM UTF‑16 LE, les égalités échouent.
trim() ou strip() inefficaces
Les octets NUL et BOM ne sont pas retirés, la chaîne paraît vide ou plus longue.
Regex et outils CLI perturbés
Présence de \x00 et encodage 16 bits : grep/sed/awk ne se comportent pas comme prévu.
Exemple de problème courant :
Symptômes qui doivent vous alerter
🚨 Signaux d'alarme
Comment les détecter
✨ Solution recommandée : Clean ASCII
Clean ASCII identifie automatiquement les fichiers et textes en UTF-16 LE, détecte le BOM, les octets NUL et vous indique la meilleure conversion vers UTF-8.
✅ Détection automatique
UTF‑16 LE/BE, BOM, octets NUL, surrogates
📊 Analyse complète
Positions, taille réelle, présence du BOM, erreurs d'encodage
🧹 Nettoyage automatique
Conversion UTF‑16 LE → UTF‑8, suppression du BOM
💾 Export propre
Téléchargement du texte normalisé en UTF‑8 prêt à l’emploi
Autres méthodes de détection
Affichage dans l'éditeur
En ligne de commande (Unix)
En code
JavaScript
Python
Excel / Google Sheets
Nettoyer et prévenir
🚀 Solution rapide avec Clean ASCII
Avant d’écrire des scripts, utilisez Clean ASCII pour détecter l’UTF‑16 LE, enlever le BOM et convertir en UTF‑8 propre.
Méthodes techniques avancées
🔧 Normaliser
🧹 Filtrer
⚙️ Automatiser
Checklist rapide
Conclusion
UTF‑16 LE est utile dans certains contextes, mais surprend dans les pipelines orientés UTF‑8.
Détectez l’encodage tôt, standardisez sur UTF‑8 et éliminez BOM et octets NUL pour des intégrations stables.
Convertissez UTF‑16 LE en UTF‑8 maintenant
Utilisez notre outil pour reconnaître, convertir et nettoyer vos fichiers encodés en UTF‑16 LE.
Convertir mon texte