python unicodedata : normalisation, catégories et bonnes pratiques

Qu'est-ce que python unicodedata ?

C’est le module standard Python qui expose la base de données Unicode : normalisation, catégories (Lu, Ll, Nd…), noms, largeur Est-Asie, direction, accents combinants, valeurs numériques.

Voici les principales capacités utiles de python unicodedata :

1 Fonctions essentielles

Identifier, décrire et comparer les caractères.

normalize(), category(), name(), lookup()

2 Catégories Unicode

Classer les caractères selon la norme :

Lu (lettre maj.), Ll (lettre min.), Nd (chiffre), Zs (espace), Cc (contrôle), Cf (format)

3 Normalisation Unicode

Rendre comparables des chaînes visuellement identiques :

NFC - Composition canonique (recommandé pour stockage)

NFD - Décomposition canonique

NFKC - Compatibilité + composition (utile pour recherche)

NFKD - Compatibilité + décomposition

4 Métadonnées avancées

Exploiter les propriétés pour nettoyer et sécuriser :

combining() - Intensité d’accent

bidirectional() - Direction du script

east_asian_width() - Largeur d’affichage

decimal()/numeric() - Valeurs numériques

Problèmes classiques avec python unicodedata

Chaînes visuellement identiques ≠ égales

NFD vs NFC : un accent combinant empêche l’égalité sans normalisation.

Tests qui échouent à cause des accents

Des données contiennent des combinaisons (e + ◌́) au lieu de caractères précomposés.

strip() incomplet sur le texte

Il ignore certaines catégories (Zs) et marques combinantes ; filtrez via unicodedata.category().

Regex incomplètes

Les classes \w/\s ne couvrent pas toutes les écritures ; combinez-les avec unicodedata pour filtrer proprement.

Exemple de problème courant :

# Chaînes qui semblent identiques mais diffèrent par la normalisation

s1 = "école" # e + U+0301 (NFD)

s2 = "école" # U+00E9 (NFC)

assert s1 == s2 # ❌ Échec

Symptômes qui doivent vous alerter

🚨 Signaux d'alarme

!

Deux chaînes affichées identiques ne correspondent pas en Python sans normalisation

!

split(), compare ou deduplicate ne suppriment pas tous les accents/espaces spéciaux

!

Un slug/identifiant varie selon la source de données (précomposé vs combinant)

!

Le tri/ordre lexicographique surprend dans des listes multilingues

!

Confusion visuelle entre caractères "confusables" (ex. latin vs cyrillique)

Comment les détecter

✨ Solution recommandée : Clean ASCII

Avant d’écrire vos scripts python unicodedata, utilisez Clean ASCII pour repérer vite les caractères inattendus. Visualisez d’un coup d’œil les espaces non standard, marques combinantes et contrôles qui compliquent la normalisation.

✅ Détection automatique

NBSP, ZWSP, BOM, soft hyphens, caractères de contrôle

📊 Analyse complète

Codes Unicode, positions exactes, suggestions de normalisation

🧹 Nettoyage automatique

Préparation du texte en amont d’un normalize('NFC'/'NFKC')

💾 Export propre

Téléchargement du texte prêt pour traitement Python

🔍 Préparer mon texte pour python unicodedata

Autres méthodes de détection

Affichage dans l'éditeur

✓ Activez les blancs/contrôles visibles pour voir ce que python unicodedata devra gérer

✓ Installez un linter qui signale NBSP/ZWSP et soft hyphen

En ligne de commande (Unix)

# Sortir les octets hors ASCII imprimable

grep -P "[^\x09\x0A\x0D\x20-\x7E]" fichier.txt

# Voir les fins de ligne et tabulations

sed -n l fichier.txt

# Afficher les caractères de contrôle

cat -A fichier.txt

# Voir les codes hexadécimaux

hexdump -C fichier.txt

En code

JavaScript (repérage basique)

Array.from(str).map(c => c.codePointAt(0).toString(16))

Python (unicodedata)

[ (c, ord(c), unicodedata.category(c), unicodedata.name(c, '?')) for c in s ]

Excel / Google Sheets (avant Python)

CODE(MID(cellule;position;1))

Nettoyer et prévenir avec python unicodedata

🚀 Pré-diagnostic rapide avec Clean ASCII

Avant de coder en python unicodedata, utilisez Clean ASCII pour révéler les zones problématiques et accélérer vos corrections.

✓ Détection automatique

✓ Nettoyage intelligent

✓ Export immédiat

Nettoyer avant python unicodedata

Méthodes techniques avancées

🔧 Normaliser

✓ Appliquez unicodedata.normalize('NFC', s) pour stocker/comparer

✓ Utilisez NFKC + str.casefold() pour les recherches insensibles

✓ Harmonisez les retours à la ligne et supprimez les BOM résiduels

🧹 Filtrer

✓ Écrivez un strip_unicode() basé sur unicodedata.category()

✓ Retirez les accents via NFD + exclusion des combining marks (Mn)

✓ Remplacez NBSP (Zs) par espace simple si requis par votre métier

⚙️ Automatiser

✓ Hooks pre-commit exécutant un script Python qui valide NFC

✓ Sanitization des inputs avec unicodedata avant toute persistance

✓ Vérifications CI sur présence de Cc/Cf non autorisés

Checklist rapide

Normalisez en NFC dès l’entrée (unicodedata.normalize)

Utilisez NFKC + casefold pour les recherches/identifiants

Filtrez Cc/Cf et harmonisez Zs avant la comparaison

Supprimez les marques combinantes (Mn) quand pertinent

Ajoutez des tests qui vérifient l’invariance après normalisation

Documentez l’usage de python unicodedata dans vos guidelines

Conclusion

python unicodedata est la boîte à outils Unicode de référence en Python. En l’appliquant systématiquement, vous évitez des bugs subtils et des écarts entre plateformes.

Normalisez, catégorisez, filtrez. En combinant unicodedata avec une hygiène d’entrée/sortie, vos traitements texte deviennent robustes et prévisibles.

python unicodedata : maîtriser la normalisation et les métadonnées Unicode