6 septembre 2012
info:eu-repo/semantics/OpenAccess
Christophe Reffay et al., « Anonymisation semi-automatique de corpus d'interactions éléments pour une méthode interactive », HAL-SHS : sciences de l'éducation, ID : 10670/1.bx6x5k
Pour faciliter le partage de données de recherche, et donc la comparaison, il est indispensable que les chercheurs puissent disposer de méthodes et d'outils permettant d'anonymiser les grands volumes d'interactions de leurs corpus. Nous rappelons le cadre légal et les enjeux de l'anonymisation avant de montrer les difficultés de son automatisation. La méthode proposée ici laisse au chercheur-utilisateur visé, le contrôle du processus de transformation de son corpus. C'est une méthode interactive, systématique et applicable à des corpus écrits en toutes langues. Elle est basée sur un cycle de marquage et de fouille détaillé dans cet article et appliqué à deux corpus de forums très différents. Les résultats de ces premières applications sont présentés et discutés pour envisager de nouvelles améliorations à cette méthode et une mise en œuvre comme outil de la plateforme Calico.