12 septembre 2017
info:eu-repo/semantics/OpenAccess
Louise Tarrade, « Normalisation des messages issus de la communication électronique médiée », DUMAS - Dépôt Universitaire de Mémoires Après Soutenance, ID : 10670/1.aox4xp
Le travail dont ce mémoire rend compte consistait à élaborer un outil de normalisation automatique des textes non standard en français, en particulier les tweets et les SMS. Pour cela, nous avons d’abord annoté un corpus de 1000 tweets et 1000 SMS, en fonction de phénomènes morpho-lexicaux et morpho-syntaxiques, que nous avions au préalable identifiés lors de l’élaboration d’une typologie pour l’annotation de textes non standard. À partir de l’observation de ce corpus, nous avons développé un outil de normalisation automatique qui génère pour chaque token non standard un ensemble de candidats en fonction des phénomènes observés le plus fréquemment dans notre corpus de tweets et de SMS. Ensuite, la normalisation du token non standard est sélectionnée parmi l’ensemble de ces candidats, à l’aide d’un système d’attribution de scores prenant également en compte le contexte immédiat du token traité.