TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

Antonio Balvet; Dejan Stosic; Aleksandra Miletic

TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

Fiche du document

Auteurs

Date

19 juillet 2014

Discipline

Linguistique

Type de document

Colloques et conférences

Périmètre

Publications

Langue

Français

Identifiants

Source

HAL-SHS : linguistique

Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.1051/shsconf/20140801035

Collection

Archives ouvertes

Organisation

Centre pour la communication scientifique directe

Licence

info:eu-repo/semantics/OpenAccess

Mots-clés Fr

Corpus Parallèles Serbe Annotation Morpho-syntaxique

Sujets proches En Fr

Locutions Termes Expressions (linguistique) Mots Vocables Mot

Citer ce document

Antonio Balvet et al., « TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français », HAL-SHS : linguistique, ID : 10.1051/shsconf/20140801035

Partage / Export

Résumé Fr

Le corpus TALC-sef (TAgged Literary Corpus in Serbian, English, French) est un corpus parallèle d'ouvrages littéraires en serbe, anglais et français, étiquetés en parties du discours et librement consultables via une interface en ligne. Il a été constitué par l'Université d'Arras, en collaboration avec l'Université Lille 3 et l'Université de Belgrade, dans une perspective d'études comparées en stylistique et linguistique. Le corpus TALC-sef représente au total plus de 2 millions de mots, il intègre notamment un corpus étiqueté, corrigé manuellement pour la langue serbe, de 150 000 mots. Dans cet article, nous présentons le mode de constitution du corpus parallèle dans son ensemble, puis nous nous attachons plus spécifiquement à l'élaboration du sous-corpus serbe étiqueté. Nous détaillons les choix linguistiques et techniques sous-jacents à la constitution de ce sous-corpus, qui vient compléter l'offre existante pour la linguistique sur corpus en serbe: à ce jour, le seul corpus librement disponible consiste en une traduction du roman 1984 de G. Orwell (100 000 mots), alors que nous proposons un corpus d'œuvres écrites à l'origine en Serbe, de 150 000 mots. La constitution de ce sous-corpus a permis l'élaboration de modèles d'étiquetage automatique pour trois étiqueteurs syntaxiques, dont Treetagger, TnT et BTagger, le plus efficace d'entre eux. Enfin, nous présentons les perspectives d'évolution du corpus existant, en termes d'enrichissement des annotations syntaxiques (analyses en dépendance en parallèle sur les trois langues), ainsi que les apports d'un tel corpus parallèle étiqueté pour la linguistique du français.

TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

Fiche du document

Mots-clés Fr

Sujets proches En Fr

Citer ce document

Métriques

Partage / Export

Résumé Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en