Normalisation des messages issus de la communication électronique médiée

Fiche du document

Date

12 septembre 2017

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Louise Tarrade, « Normalisation des messages issus de la communication électronique médiée », DUMAS - Dépôt Universitaire de Mémoires Après Soutenance, ID : 10670/1.aox4xp


Métriques


Partage / Export

Résumé En Fr

The work reported in this paper consisted in the creation of an automatic normalization tool for non-standard texts written in French, in particular tweets and SMS. In order to do so, we first annotated a corpus of 1000 tweets and 1000 SMS, according to morpho-lexical and morpho-syntactic phenomena, which we had previously identified when elaborating a typology for the annotation of non-standard texts. From the observation of this corpus, we have developed an automatic normalization tool that generates for each non-standard token a set of candidates according to the phenomena observed most frequently in our corpus of tweets and SMS. Then, the normalization of the non-standard token is selected from all of these candidates, using a scoring system that also takes into account the immediate context of the processed token.

Le travail dont ce mémoire rend compte consistait à élaborer un outil de normalisation automatique des textes non standard en français, en particulier les tweets et les SMS. Pour cela, nous avons d’abord annoté un corpus de 1000 tweets et 1000 SMS, en fonction de phénomènes morpho-lexicaux et morpho-syntaxiques, que nous avions au préalable identifiés lors de l’élaboration d’une typologie pour l’annotation de textes non standard. À partir de l’observation de ce corpus, nous avons développé un outil de normalisation automatique qui génère pour chaque token non standard un ensemble de candidats en fonction des phénomènes observés le plus fréquemment dans notre corpus de tweets et de SMS. Ensuite, la normalisation du token non standard est sélectionnée parmi l’ensemble de ces candidats, à l’aide d’un système d’attribution de scores prenant également en compte le contexte immédiat du token traité.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en