Developping a method for detailed morphosyntactic tagging of Serbian

Persienne Grille de protection Store Volet Plan d'Occupation des Sols PUD Plan d'Urbanisme de Détail Spectateurs Public Auditoire Assistance (public) Visiteurs Fréquentation Audience Passe-temps Récréations Divertissements Distractions Amusements Programmes de stage Étude et enseignement (stages) Stages pratiques Parties d'orchestre Matériel d'orchestre Instabilité Théories stables Émondage Étiquettes de prix Parties du discours (rhétorique) Péroraisons Speeches Allocutions Oraisons Discours (genre littéraire) Philippiques Proclamations Exortations Exordes Discours (rhétorique) Harangues Expérience (philosophie) Expérience (psychologie) POS Plans d'occupation des sols Plan d'occupation des sols Plan local d'urbanisme PLU Régulateurs automatiques Automatique Contrôle automatique Régulateurs industriels Régulation industrielle Conduite automatique Commande automatique, Systèmes de outillage discours politique Lutèce République française Royaume de France Royaume de France (987-1791)

Citer ce document

Aleksandra Miletic et al., « Mise au point d'une méthode d'annotation morphosyntaxique fine du serbe », HAL-SHS : linguistique, ID : 10670/1.fcp0qm

Partage / Export

Résumé En Fr

Cet article présente une expérience d'annotation morphosyntaxique fine du volet serbe du corpus parallèle ParCoLab (corpus serbe-français-anglais). Elle a consisté à enrichir une annotation existante en parties du discours avec des traits morphosyntaxiques fins, afin de préparer une étape ultérieure de parsing. Nous avons comparé trois approches : 1) annotation manuelle ; 2) pré-annotation avec un étiqueteur entraîné sur le croate suivie d'une correction manuelle ; 3) ré-entraînement de l'outil sur un petit échantillon validé du corpus, suivi de l'annotation automatique et de la correction manuelle. Le modèle croate maintient une stabilité globale en passant au serbe, mais les différences entre les deux jeux d'étiquettes exigent des interventions manuelles importantes. Le modèle ré-entraîné sur un échantillon de taille limité (20K tokens) atteint la même exactitude que le modèle existant et le gain de temps observé montre que cette méthode optimise la phase de correction.

Developping a method for detailed morphosyntactic tagging of Serbian Mise au point d'une méthode d'annotation morphosyntaxique fine du serbe En Fr

Fiche du document

Mots-clés En Fr

Sujets proches En Es Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en