30 mai 2022
http://hal.archives-ouvertes.fr/licences/copyright/ , info:eu-repo/semantics/OpenAccess
Elisa Gugliotta, « Arabizi tunisien : Analyses linguistiques et création d'un corpus par le biais du traitement automatique des langues (TAL) », HAL-SHS : linguistique, ID : 10670/1.tvzr1g
Ce travail vise à étudier l'arabe tunisien et, en même temps, à apporter une réponse au manque d'outils pour soutenir la recherche sur l'arabe tunisien. En particulier, l'objectif était de construire un corpus se prêtant à différents types d'analyses linguistiques, d'où les nombreux niveaux d'annotation dont nous l'avons doté. En particulier, nous avons restreint notre perspective à une variété spécifique de l'arabe tunisien, qui est celle utilisée pour la communication numérique et le partage d'identité, c'est-à-dire ce que nous avons défini comme Digital Networked Writing (DNW). De plus, nous avons collecté des textes encodés dans le système d'écriture typique dédié à ce contexte, c'est-à-dire l'arabizi.Dans le chapitre 1, nous avons présenté la complexité multilingue du tunisien, en fournissant au lecteur quelques clés fondamentales pour saisir les implications possibles de l'utilisation de ce système d'écriture. Parmi ces points clés, nous avons considéré l'histoire de ce pays, la classification dialectologique traditionnelle de l'arabe tunisien, l'interprétation historique et moderne de la répartition des différentes entités linguistiques sur le territoire. Le thème du plurilinguisme, en particulier, a servi de porte d'entrée aux questions ultérieures sur l'émergence d'une variété urbaine par rapport aux autres. Ici, en fait, nous avons mentionné la diffusion du tunisien dans la Communication Médiatisée par Ordinateur (CMO), et en particulier le double mode d'écriture, la digraphie. Enfin, nous avons présenté les principales caractéristiques de l'arabe tunisien.Dans le chapitre 2, après une brève introduction, nous avons exposé notre méthodologie. Tout d'abord, nous avons décrit les caractéristiques structurelles de la DNW et la manière dont elle est abordée par la recherche linguistique. Nous avons ensuite développé les bonnes pratiques à observer dans la construction de corpus linguistiques. Enfin, afin d'accélérer le processus et d'assurer la reproductibilité de la méthodologie adoptée, mais aussi d'étendre le bassin d'utilité tant du corpus que de la procédure elle-même, nous avons opté pour l'utilisation de techniques d'apprentissage profond (Deep Learning). Au final, nous avons fait le point sur l'état de l'art avec l’objective de partager des informations sur les différents types de travaux menés avec une méthodologie similaire à la nôtre sur l'Arabe Standard Moderne (ASM) et l'arabe dialectal. Un deuxième objectif était de mettre en évidence le manque de ressources disponibles pour soutenir la recherche sur l'arabe tunisien.Le chapitre 3 a traité des opérations spécifiques qui nous ont conduits à la création du corpus. Le chapitre a retracé le chemin à rebours, en commençant par la collecte des données et les décisions prises pour la sélection et la collecte des métadonnées des textes. Nous avons également décrit les étapes d'annotation semi-automatique du corpus dans ses couches d'annotation : classification au niveau des mots, translittération en caractères arabes, tokénisation, étiquetage de la partie du discours et lemmatisation. Enfin, nous avons décrit les résultats de la procédure d’annotation, réalisé à travers d’une architecture multi-tâches de prédiction de séquence. C'est l'outil qui a été construit pour produire les différentes couches d'annotation qui constituent le Tunisian Arabish Corpus (TArC) à partir du texte arabizi. L'autre résultat de la deuxième phase d'annotation est le corpus lui-même. Il est décrit, ainsi que des informations sur la quantité de données et de métadonnées qu'il comprend.Enfin, dans le chapitre 4, nous avons abordé l'enquête préliminaire. Les analyses ont visé à délimiter la nature du corpus lui-même et à entreprendre des stratégies linguistico-computationnelles pour observer la réalité linguistique de l’arabizi tunisien. Chacune de ces analyses est reproductible grâce à la mise à disposition des petits scripts utilisés pour les réaliser.