22 juin 2015
info:eu-repo/semantics/OpenAccess
Aleksandra Miletic et al., « Construction du jeu d'étiquettes pour le parsing du serbe », HAL-SHS : linguistique, ID : 10670/1.3gwvxr
Cet article présente la démarche utilisée pour la construction d'un jeu d'étiquettes syntaxiques destiné à l'élaboration d'un corpus d'entraînement pour le parsing du serbe dans le but de doter le corpus ParCoLab (corpus parallèle serbe-français-anglais) d'une annotation syntaxique. Vu que le serbe ne dispose pas encore de treebank, il est nécessaire d'élaborer manuellement un corpus d'entraînement. Comme la structure et la taille du jeu d'étiquettes peuvent affecter les résultats du parsing, la définition du jeu est une étape cruciale. Dans le choix des étiquettes, nous avons été guidés par deux principes : réconcilier les traditions grammaticales serbe et française pour des raisons techniques et théoriques et maintenir la comparabilité avec les jeux d'étiquettes élaborés pour d'autres langues slaves. Cette démarche aboutit à un jeu de 28 étiquettes qui assurent la cohérence des traitements dans les différents volets du corpus et la possibilité d'exploiter les outils développés pour d'autres langues dans l'élaboration du corpus d'entraînement.