Unfake Text
Sanitise les chaînes obfusquées en mappant les homoglyphes cyrilliques et grecs vers le latin. Normalise la pleine largeur et les specs Unicode RFC.
Veuillez configurer les paramètres et exécuter l'action.
À propos de Unfake Text
Unfake Text permet de reconvertir un texte trompeur en texte normal en remplaçant des homoglyphes connus et en normalisant les caractères pleine largeur.
Fonctionnalités
Cet outil propose les fonctionnalités suivantes :
- Homoglyph Cleanup - Convertit les lettres sosies cyrilliques/grecques courantes en latin.
- Normalisation pleine largeur - Convertit les caractères pleine chasse en largeur normale.
- Préserve la mise en page - Conserve les espaces et les sauts de ligne inchangés.
Exemples
-
Faux sosies cyrilliques
entrée : Réinitialisation du mot de passe maintenant Convertir les homoglyphes : activé Convertir pleine largeur : désactivé sortie : Réinitialisation du mot de passe maintenant
-
Un faux texte pleine largeur
entrée : Hello, world! Convertir les homoglyphes : Désactivé Convertir pleine largeur : Sur sortie : Bonjour tout le monde !
-
Défaux les deux
entrée : VΕRΙFY ACCΟUNT Convertir les homoglyphes : activé Convertir pleine largeur : activé sortie : VÉRIFIER LE COMPTE
Scénarios d'utilisation réelle
- Détection de tentatives de phishing par homographes - Les spécialistes en cybersécurité utilisent cet outil pour analyser des URL suspectes. En convertissant les caractères homographes (comme un 'a' cyrillique imitant un 'a' latin), l'outil révèle la véritable nature des domaines utilisés pour l'hameçonnage de données bancaires.
- Contournement des filtres de modération - Sur les réseaux sociaux, certains utilisateurs emploient des polices 'fantaisie' pour éviter la détection de mots-clés interdits. Cet outil normalise ces textes en caractères latins standards, permettant aux modérateurs de traiter efficacement le contenu signalé.
- Nettoyage de bases de données exportées - Lors de l'importation de données provenant de systèmes utilisant des claviers asiatiques, les caractères 'pleine chasse' (full-width) peuvent bloquer les recherches. L'outil les transforme en caractères de largeur normale pour garantir la cohérence des index de recherche.
- Préparation de données pour l'intelligence artificielle - Pour entraîner des modèles LLM ou nettoyer des datasets, il est crucial d'éliminer le bruit visuel Unicode. La normalisation garantit une tokenisation uniforme, évitant ainsi des erreurs d'interprétation par les algorithmes de Machine Learning.
Questions Fréquentes
Comment l'outil traite-t-il les alphabets mixtes ?
L'algorithme identifie spécifiquement les points de code Unicode appartenant à d'autres alphabets (Cyrillique, Grec) qui imitent le Latin, et les remplace chirurgicalement sans altérer le reste du texte.
Est-ce que tous les caractères suspects sont détectés ?
L'outil couvre les variantes les plus fréquentes utilisées dans la cyber-fraude et les caractères à double largeur. Il est conçu pour les glyphes visuellement identiques dans les polices système courantes.
L'outil modifie-t-il la mise en page ?
Absolument pas. Seuls les caractères eux-mêmes sont convertis. Les espaces, sauts de ligne et la ponctuation standard sont préservés pour maintenir l'intégrité du document.
Pourquoi certains textes semblent corrects mais bloquent les systèmes ?
L'œil humain ne voit pas la différence, mais la machine voit deux codes différents. Un 'o' latin n'est pas un 'ο' grec. L'outil harmonise ces codes pour qu'ils passent les validations techniques.