Qu'est-ce qu'un diacritic mark ?
Ce sont des marques qui modifient le son ou le sens d’une lettre (accents, cédilles, trémas, tildes), sous forme précomposée ou combinante.
Voici les principales familles de diacritic marks et formes associées :
1 Lettres précomposées Unicode
Caractères monocode intégrant la lettre et l’accent.
2 Caractères combinants (combining marks)
S’appliquent à la lettre précédente pour former le caractère accentué.
3 Diacritiques et combinaisons moins courants
Les plus problématiques pour les développeurs :
4 Marques techniques et normalisation
Formes et marqueurs influençant la gestion des diacritiques :
Problèmes classiques
Copier-coller hétérogène NFC/NFD
Mélange de lettres précomposées et combinantes dans CSV, JSON ou code.
Tests unitaires qui échouent
"é" (U+00E9) vs "e" + U+0301 : visuellement identiques, binaires différents.
Lowercase/uppercase incohérents
mb_strtolower(), locale et normalisation peuvent donner des résultats inattendus.
Regex \w incomplètes
Selon le moteur, \w n’inclut pas toutes les lettres avec accents.
Exemple de problème courant :
Symptômes qui doivent vous alerter
🚨 Signaux d'alarme
Comment les détecter
✨ Solution recommandée : Clean ASCII
Clean ASCII détecte précisément les diacritic marks, distingue lettres précomposées et caractères combinants, et met en évidence les séquences nécessitant une normalisation.
✅ Détection automatique
Combining marks, lettres précomposées, séquences mixtes NFC/NFD
📊 Analyse complète
Points de code, positions exactes, propositions de normalisation
🧹 Nettoyage automatique
Normalisation en NFC et option de suppression des diacritiques
💾 Export propre
Texte normalisé et/ou translittéré prêt à l’emploi
Autres méthodes de détection
Affichage dans l'éditeur
En ligne de commande (Unix)
En code
JavaScript
Python
Excel / Google Sheets
Nettoyer et prévenir
🚀 Solution rapide avec Clean ASCII
Avant de coder des traitements complexes, utilisez Clean ASCII pour normaliser et maîtriser vos diacritic marks en quelques clics :
Méthodes techniques avancées
🔧 Normaliser
🧹 Filtrer
remove_diacritics() pour enlever les combining marks
⚙️ Automatiser
Checklist rapide
Conclusion
Les diacritic marks sont discrets mais déterminants. En les maîtrisant, vous évitez des écarts de tri, de recherches et des comparaisons fallacieuses.
Normalisez systématiquement, surveillez les caractères combinants et alignez vos collations pour réduire la quasi‑totalité des problèmes liés aux accents.
Détectez les diacritic marks maintenant
Utilisez notre outil pour identifier, normaliser et nettoyer les diacritiques dans vos textes.
Analyser mon texte