Anonymisation de corpus réutilisables: Masquer l'identité sans altérer l'analyse des interactions

Résumé Fr

La mise à disposition de corpus de traces issues de formations en ligne intéresse la communauté scientifique dans sa démarche d'analyse des interactions humaines produites à travers le dispositif médiatisé. Pour des raisons éthiques, les échanges de corpus doivent garantir l'anonymat des acteurs concernés. Ce travail s'intéresse au processus d'anonymi¬sation d'un corpus pour en permettre un accès plus large. Les principes et l'outil d'anonymisation présentés sont appliqués à un corpus d'interactions en apprentissage des langues. Dans de telles situations, les marques d'identité à masquer sont tantôt des identifiants immuables produits par le système, tantôt des appellations ou interpellations produites par les acteurs eux-mêmes et sujettes à des variations syntaxiques parfois signifiantes et empreintes de culture (surnoms, diminutifs). Enfin, cette contribution pose la question de la frontière à définir entre le contexte socioculturel utile à l'analyse et l'identité de l'acteur à protéger.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en