Normalisation des messages issus de la communication électronique médiée

Louise Tarrade, « Normalisation des messages issus de la communication électronique médiée », DUMAS - Dépôt Universitaire de Mémoires Après Soutenance, ID : 10670/1.aox4xp

Partage / Export

Résumé En Fr

Le travail dont ce mémoire rend compte consistait à élaborer un outil de normalisation automatique des textes non standard en français, en particulier les tweets et les SMS. Pour cela, nous avons d’abord annoté un corpus de 1000 tweets et 1000 SMS, en fonction de phénomènes morpho-lexicaux et morpho-syntaxiques, que nous avions au préalable identifiés lors de l’élaboration d’une typologie pour l’annotation de textes non standard. À partir de l’observation de ce corpus, nous avons développé un outil de normalisation automatique qui génère pour chaque token non standard un ensemble de candidats en fonction des phénomènes observés le plus fréquemment dans notre corpus de tweets et de SMS. Ensuite, la normalisation du token non standard est sélectionnée parmi l’ensemble de ces candidats, à l’aide d’un système d’attribution de scores prenant également en compte le contexte immédiat du token traité.

Normalisation des messages issus de la communication électronique médiée

Fiche du document

Mots-clés En Fr

Sujets proches Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en