2014
Cairn
Mohamed Outahajala et al., « Construction d’un grand corpus annoté pour la langue amazighe », Études et Documents Berbères, ID : 10670/1.vs28vm
Comme la plupart des langues qui n’ont que récemment commencé la recherche en TAL (Traitement automatique des langues), la langue amazighe souffre encore de la pénurie d’outils et de ressources pour son traitement automatique, en particulier de corpus annotés. Ces derniers sont plus difficiles à construire et à finaliser que les corpus bruts qui nécessitent pourtant des prétraitements dans la majorité des cas. L’objectif de cet article est de présenter notre démarche de construction pour la langue amazighe d’un grand corpus annoté, morphologiquement, syntaxiquement et sémantiquement. Dans le même sens, nous présentons un premier travail d’annotation morphosyntaxique d’un corpus amazighe d’environ vingt mille mots. Nous montrerons également comment il peut être étendu afin de réaliser le corpus annoté cible.