Lexical Emergence on Reddit: An Analysis of Lexical Change on the “Front Page of the Internet”

Fiche du document

Auteur
Date

17 décembre 2020

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

Lexis

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1951-6215

Organisation

OpenEdition

Licences

https://creativecommons.org/licenses/by-nc-nd/4.0/ , info:eu-repo/semantics/openAccess




Citer ce document

Hanna Mahler, « Lexical Emergence on Reddit: An Analysis of Lexical Change on the “Front Page of the Internet” », Lexis, ID : 10.4000/lexis.4917


Métriques


Partage / Export

Résumé Fr En

Les progrès actuels concernant la disponibilité et la taille des corpus électroniques, particulièrement contenant du langage virtuel, créent de nouvelles possibilités de recherche dans le milieu des changements sémantiques du lexique anglais [Allan & Robinson 2012 : 4]. En adéquation avec ces développements, Grieve et al. [2017] présentent une méthodologie destinée à trouver de « nouveaux lexèmes » et l’appliquent à un corpus de données concernant Twitter aux États-Unis de 2013 à 2014. Leur méthodologie implique une recherche de mots débutant avec une fréquence globale basse et présentant un coefficient de corrélation élevé avec leur rang dans les séries chronologiques sur l’ensemble de l’année. [Grieve et al. 2017 : 103-105]. Se concentrant sur une période d’un an du Pushshift Reddit Dataset (Baumgartner et al. [2020]), cette étude applique la méthodologie proposée à un forum en ligne différent : Reddit. Par conséquent, cet article a deux objectifs : tout d’abord, tester la méthodologie proposée par Grieve et al. [2017], puis étudier les émergences lexicales récentes sur la plateforme Reddit. Cela permettra également une comparaison entre les deux plateformes Reddit et Twitter dans le but de fournir un éclairage complémentaire sur la dépendance au contexte de l’émergence lexicale dans un environnement virtuel. De plus, la mise à l’épreuve ainsi que le perfectionnement de la méthodologie permettant de découvrir de nouveaux lexèmes fourniront des informations précieuses pour les spécialistes souhaitant par la suite utiliser cette procédure. Appliquer la méthodologie au Pushshift Reddit Dataset permet d’observer un total de huit nouveaux lexèmes ; six résultant principalement d’un changement onomasiologique, ainsi que deux apparaissant comme le résultat d’un changement sémasiologique. Les caractéristiques des nouveaux lexèmes (catégorie grammaticale, processus de formation lexicale) sont en général très similaires à celles identifiées par Grieve et al. [2017 : 108-109], alors que leurs trajectoires durant la période étudiée varient radicalement et ne suivent pas les courbes en S généralement proposées [par ex. Blythe & Croft 2012] et également attestées par Grieve et al. [2017 : 116]. Concernant les critères sémantiques, les domaines sémantiques correspondant aux lexèmes identifiés diffèrent considérablement des résultats obtenus par Grieve et al. [2017 : 107-108], ce qui peut également être expliqué par les profils différents des deux plateformes ainsi que par la différence de leurs utilisateurs respectifs. De nombreuses limites ont pu être identifiées concernant l’application de la méthodologie de Grieve et al. [2017] : tout d’abord, une possible ambiguïté liée à la catégorie grammaticale est susceptible de fausser les fréquences obtenues. Dans un second temps, la classification des mots en tant que mots ‘établis’ a été basée sur la présence attestée de ces mots dans un corpus représentatif plutôt que sur leur présence dans les dictionnaires standards. Dans un troisième temps, la méthodologie permet seulement la détection de lemmes simples, ce qui ne représente pas le changement actuel de manière exacte, puisque de nombreux nouveaux lexèmes semblent faire partie de mots composés.

The current advancements in the availability and size of electronic corpora, especially containing computer-mediated language, open up new possibilities for the study of change in the English lexicon [Allan & Robinson 2012: 4]. In line with these developments, Grieve et al. [2017] present a methodology for finding “emerging lexemes” and apply it to a corpus of American Twitter data from 2013 to 2014. Their methodology entails searching for word forms that start off with a low overall frequency and that feature a high correlation coefficient with their rank in the time series over the whole year [Grieve et al. 2017: 103-105]. Working with a one-year section of the Pushshift Reddit Dataset (Baumgartner et al. [2020]), this study applies the methodology proposed to a different online forum, Reddit. The present paper therefore has two aims: to test the methodology proposed by Grieve et al. [2017] and to investigate recent lexical emergence on the platform Reddit. This also allows for a comparison between the two platforms Reddit and Twitter to provide further insights into the context-dependence of lexical emergence in the online environment. Furthermore, the trial and refinement of the methodology for discovering emerging lexemes holds valuable insights for scholars looking to use this procedure in the future.Applying the methodology to the Pushshift Reddit Dataset yields a total of eight emerging lexemes; six resulting primarily from onomasiological change, while two appear to be the outcome of semasiological change. The formal characteristics of the emerging lexemes (word class, word formation process) are overall very similar to the features identified by Grieve et al. [2017: 108-109], whereas their trajectories over the time period investigated vary noticeably and do not follow the s-shaped curves that are commonly proposed [e.g. Blythe & Croft 2012] and that are also attested by Grieve et al. [2017: 116]. Concerning the semantic criteria, the semantic domains of the identified lexemes differ considerably from the results by Grieve et al. [2017: 107-108], which can also be explained by the different profiles of the two platforms and their users. Several caveats could be identified for the application of the methodology by Grieve et al. [2017]: first of all, word class ambiguity is likely to distort the frequencies obtained. Secondly, words being attested in a representative corpus was proposed as a more realistic criterion for classifying a word as ‘established’ compared to its inclusion in standard dictionaries. A third problem is that the methodology only allows for the detection of single-word units, which is not an accurate representation of the changes taking place, as several of the emerging lexemes appear to be part of compounds.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en