2021
Cairn
Loïc Grobol, « Exploitation du corpus DEMOCRAT par apprentissage artificiel », Langages, ID : 10670/1.ablfn2
La détection automatique de chaînes de coréférences pour le français est encore un domaine assez peu exploré, entre autres en raison du développement tardif de ressources annotées adaptées. democrat, premier corpus de français écrit de grande envergure annoté en chaînes de coréférences, rend possible l'utilisation de techniques d'apprentissage artificiel pour combler ce manque. Dans ce travail, nous présentons le système DeCOFre, premier système de détection des chaînes de coréférences pour le français parlé, et étudions son utilisation pour le traitement de democrat. Nos expériences montrent que ce système n'est pas robuste au changement induits par le passage de l'oral spontané à l'écrit et suggère que les particularités de democrat pourraient être mieux prises en compte par des architectures plus riches que celles des systèmes end-to-end omniprésentes dans l'état de l'art récent.