Explorer des corpus à l'aide de CasSys. Application au Corpus d'Orléans

Résumé En

Cet article présente un outil d'exploration de corpus, CasSys, facilement paramétrisable par les linguistes, permettant de reconnaître des motifs même complexes et de les baliser, éventuellement par des balises XML. Ce balisage automatique peut ensuite être révisé par un expert. CasSys est donc un outil d'exploration de corpus, mais également d'annotation enrichie semi-supervisée.Deux exemples réels complèteront cette présentation : la recherche des entités nommées du Corpus d'Orléans et l'utilisation de ces entités pour connaître des informations sur les personnes répondant à l'enquête qui constitue ce corpus. Ce travail a bénéficié du financement du projet ANR Variling et d'un projet Feder Région Centre. Il a aussi été testé dans le cadre de l'évaluation Ester2 (campagne d'évaluation des systèmes de transcription enrichie d'émissions radiophoniques) .

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en