17 décembre 2020
Ce document est lié à :
info:eu-repo/semantics/reference/issn/1951-6215
https://creativecommons.org/licenses/by-nc-nd/4.0/ , info:eu-repo/semantics/openAccess
Hanna Mahler, « Lexical Emergence on Reddit: An Analysis of Lexical Change on the “Front Page of the Internet” », Lexis, ID : 10.4000/lexis.4917
Les progrès actuels concernant la disponibilité et la taille des corpus électroniques, particulièrement contenant du langage virtuel, créent de nouvelles possibilités de recherche dans le milieu des changements sémantiques du lexique anglais [Allan & Robinson 2012 : 4]. En adéquation avec ces développements, Grieve et al. [2017] présentent une méthodologie destinée à trouver de « nouveaux lexèmes » et l’appliquent à un corpus de données concernant Twitter aux États-Unis de 2013 à 2014. Leur méthodologie implique une recherche de mots débutant avec une fréquence globale basse et présentant un coefficient de corrélation élevé avec leur rang dans les séries chronologiques sur l’ensemble de l’année. [Grieve et al. 2017 : 103-105]. Se concentrant sur une période d’un an du Pushshift Reddit Dataset (Baumgartner et al. [2020]), cette étude applique la méthodologie proposée à un forum en ligne différent : Reddit. Par conséquent, cet article a deux objectifs : tout d’abord, tester la méthodologie proposée par Grieve et al. [2017], puis étudier les émergences lexicales récentes sur la plateforme Reddit. Cela permettra également une comparaison entre les deux plateformes Reddit et Twitter dans le but de fournir un éclairage complémentaire sur la dépendance au contexte de l’émergence lexicale dans un environnement virtuel. De plus, la mise à l’épreuve ainsi que le perfectionnement de la méthodologie permettant de découvrir de nouveaux lexèmes fourniront des informations précieuses pour les spécialistes souhaitant par la suite utiliser cette procédure. Appliquer la méthodologie au Pushshift Reddit Dataset permet d’observer un total de huit nouveaux lexèmes ; six résultant principalement d’un changement onomasiologique, ainsi que deux apparaissant comme le résultat d’un changement sémasiologique. Les caractéristiques des nouveaux lexèmes (catégorie grammaticale, processus de formation lexicale) sont en général très similaires à celles identifiées par Grieve et al. [2017 : 108-109], alors que leurs trajectoires durant la période étudiée varient radicalement et ne suivent pas les courbes en S généralement proposées [par ex. Blythe & Croft 2012] et également attestées par Grieve et al. [2017 : 116]. Concernant les critères sémantiques, les domaines sémantiques correspondant aux lexèmes identifiés diffèrent considérablement des résultats obtenus par Grieve et al. [2017 : 107-108], ce qui peut également être expliqué par les profils différents des deux plateformes ainsi que par la différence de leurs utilisateurs respectifs. De nombreuses limites ont pu être identifiées concernant l’application de la méthodologie de Grieve et al. [2017] : tout d’abord, une possible ambiguïté liée à la catégorie grammaticale est susceptible de fausser les fréquences obtenues. Dans un second temps, la classification des mots en tant que mots ‘établis’ a été basée sur la présence attestée de ces mots dans un corpus représentatif plutôt que sur leur présence dans les dictionnaires standards. Dans un troisième temps, la méthodologie permet seulement la détection de lemmes simples, ce qui ne représente pas le changement actuel de manière exacte, puisque de nombreux nouveaux lexèmes semblent faire partie de mots composés.