MIGR-TWIT CORPUS. Migration Tweets of right and far-right politics in Europe. MIGR-TWIT CORPUS. Migration Tweets of right and far-right politics in Europe. Fr En

Fiche du document

Date

1 décembre 2022

Discipline
Type de document
Identifiant
  • 11403/MIGR-TWIT-CORPUS
Source

ORTOLANG

Collection

Ortolang

Organisation

Équipex ORTOLANG

Licences

free_use , Libre , Free , Licence Creative Commons - Attribution 4.0 International



Sujets proches Fr

Immigration

Citer ce document

Elena Battaglia et al., « MIGR-TWIT CORPUS. Migration Tweets of right and far-right politics in Europe. », ORTOLANG


Partage / Export

Résumé Fr En

Le Corpus MIGR-TWIT est un corpus multilingue de tweets sur le sujet de l'immigration en Europe. Dans le cadre du projet de recherche OLiNDiNUM (Observatoire LINguistique du DIscours NUMérique) le Corpus MIGR-TWIT est créé en ayant pour objectif de participer à l'élaboration d'une base de données numériques du débat public. Les contextes politiques français et britannique en lien avec le sujet de l’immigration entrent en ligne de compte pour la constitution du corpus. Le corpus consiste ainsi en deux sous-corpus : Corpus FR-R-MIGR-TWIT-2011-2022 pour le corpus de tweets en français (1er janvier 2011 - 30 juin 2022) Corpus UK-R-MIGR-RA-TWIT-2012-2022 pour le corpus de tweets en anglais britannique (1er janvier 2012 - 5 septembre 2022) En nous servant du Twitter API v2 Academic Research, les tweets contenant au moins une occurrence du lexique relatif à l’immigration et à l’asile sont automatiquement extraits de 28 comptes Twitter des figures et partis politiques de la droite et l’extrême-droite. Le corpus contient au total 18,233 tweets et 533,198 mots. Référence scientifique: Pietrandrea, P., Battaglia, E. (2022). “Migrants and the EU”. The diachronic construction of ad hoc categories in French far-right discourse. Journal of Pragmatics 192, 139-157. ContenuLe corpus complet contient deux fichiers CSV (format tabulaire de données) correspondant à chaque sous-corpus. Le corpus se présente en deux versions, une version avec l’identifiant du tweet (data__id) et du texte du tweet (data__text) comme l’entête. Il s’agit des dossiers nommés FR-R-MIGR-TWIT-2011-2022_textonly et UK-R-MIGR-RA-TWIT-2012-2022_textonly, respectivement composés de 12 et 11 fichiers CSV de chaque année. L’autre version a comme l’entête toutes les métadonnées du tweet, telles que la date de publication (data__created__at), le nombre de retweets (data__public_metrics__retweet_count), le nom d’utilisateur (author__username), etc. Il s’agit des dossiers nommés FR-R-MIGR-TWIT-2011-2022_meta et UK-R-MIGR-RA-TWIT-2012-2022_meta. Ci-dessous sont détaillées les informations pour chaque sous-corpus. 1. FR-R-MIGR-TWIT-2011-2022 Date de création (année-mois-jour): 2022-08-08Langue: français Portée et taille: 16 comptes Twitter (twittos); 11,761 tweets; 358,491 motsPériode de la collecte des données: début=2011-01-01; fin=2022-06-30 Mot-clé: mots dérivés de la racine latine “migr” de migrareComposition du corpus: Figure/parti politiqueNom d'utilisateur Tweets Année concernée 1 Michel Barnier @MichelBarnier 312017-20222 Valérie Pécresse @vpecresse 812017-20223 Rassemblement National @RNational_off 3,3472017-20224 Nicolas Dupont-aignan @dupontaignan 6632011-20225 Éric Ciotti @ECiotti 1,0072012-2022 6 Christian Estrosi @cestrosi 1372011-2022 7 Marin Le Pen @MLP_officiel 1,6502011-2022 8 Valérie Boyer @valerieboyer13 8372012-20229 Florian Philippot @f_philippot 4852012-2022 10 Xavier Bertrand @xavierbertrand 702017-202211 Marion Maréchal @MarionMarechal 4792012-2017, 2019-2022 12 Philippe Meunier @Meunier_Ph 2452013-202213 Jordan Bardella @J_Bardella 1,0952013-2022 14 Nicolas Bay @NicolasBay_ 1,2602017-202215 Emmanuel Macron @EmmanuelMacron 72 2017-202216 Éric Zemmour @ZemmourEric 3022019-202217 Jean Messiha* Suspendu par Twitter (depuis juillet 2021)Les figures et partis politiques sont classés dans l’ordre chronologique selon les dates de leur première publication du tweet.*Dans le cadre de l’étude de référence (Pietrandrea amp; Battaglia 2022) sont analysés les tweets-migr qui ont été collectés à partir de la base de données sur Europresse.com, incluant 1,453 tweets de Jean Messiha. Or, le compte Twitter de ce dernier a été définitivement suspendu à compter du 31 juillet 2021. Comme nous avons procédé à l’extraction automatique des données moyennant le Twitter API à partir de septembre 2021, l’accès au compte en question n’était plus en vigueur. Nous avons par conséquent décidé de ne pas inclure les tweets de Jean Messiha dans le corpus FR-R-MIGR-TWIT-2011-2022 par souci de cohérence avec les autres données qui ont été collectées automatiquement.Le sous-corpus FR-R-MIGR-TWIT-2017-2022 est développé, annoté et analysé dans le cadre du projet doctoral (Jeon, S.) en ayant pour objectifs d’étudier la construction sémantique du lexique-migr sur Twitter et l’évolution du discours de la droite et l’extrême-droite françaises pendant la période d’entre deux Élections Présidentielles de 2017 et 2022. 2. UK-R-MIGR-RA-TWIT-2012-2022 Date de création (année-mois-jour): 2022-09-06Langue: anglaisPortée et taille: 12 comptes Twitter (twittos); 6,472 tweets; 174,707 motsPériode de la collecte des données: début=2012-01-01; fin=2022-09-05 Mot-clé: mots dérivés de la racine latine “migr” de migrare et les mots-clés “refugee(s)” et “asylum”.Composition du corpus: Figure/parti politique Nom d'utilisateur Tweets Année concernée 1 David Cameron@David_Cameron322012-20222 Amber Rudd@AmberRuddUK292012-20223 Sajid Javid@sajidjavid842012-20224 Boris Johnson@BorisJohnson802015-20225 Priti Patel@pritipatel3042012-20226 UK Home Office@ukhomeoffice9092012-20227 Nigel Farage@Nigel_Farage1,0102012-20228 Richard Tice@TiceRichard1802013-20229 UKIP@UKIP2,7462012-202210 Neil Hamilton@NeilUKIP2522013-202211 Nick Griffin@NickGriffinBU5422012-202212 Robin Tilbrook@RobinTilbrook3042012-2022Nous avons 2 comptes officiels des organismes politiques, celui du Département de l’Intérieur (UK Home Office) et celui du Parti pour l’indépendance du Royaume-Uni (United Kingdom Independence Party, UKIP), et 10 comptes issus des figures politiques.Le corpus UK-R-MIGR-RA-TWIT-2012-2022 va être exploité dans le cadre du projet de recherche en vue de la réalisation du mémoire intitulé Guido Blandino, 10 years of public debate on immigration: combining topic modeling and corpus linguistics to examine the British (far-)right discourse on Twitter, MA University of Wolverhampton (2023) Financement:- Université de Lille, Projet d'Internationalisation 2021- Université Franco-italienne / Università Italo Francese- Campus France (Partenariats Hubert Curien): Italie - PHC Galilée 2018-19 ; Bay-Bas - PHC Van Gogh 2018-19

The MIGR-TWIT Corpus is a multilingual corpus of tweets about the topic of migration in Europe. Within the framework of the collaborative research project OLiNDiNUM (Observatoire LINguistique du DIscours NUMérique, Linguistic Observatory of Online Debate) the MIGR-TWIT Corpus is created with the aim of developing language databases of online debate. Considering the global issue of migration in line with British and French political contexts of last dozen years from 2011 to 2022, the corpus consists of two sub-corpora: FR-R-MIGR-TWIT-2011-2022 Corpus for French language data (1 January 2011 - 30 June 2022) and UK-R-MIGR-RA-TWIT-2012-2022 Corpus for English language data (1 January 2012 - 5 September 2022) Using the Twitter API v2 Academic Research, tweets containing at least one occurrence of migration or refugee related words are retrieved automatically from 28 right and far-right political figures and parties. The whole corpus contains 18,233 tweets and 533,198 words. Scientific reference: Pietrandrea, P., Battaglia, E. (2022). “Migrants and the EU”. The diachronic construction of ad hoc categories in French far-right discourse. Journal of Pragmatics 192, 139-157. ContentsThe whole corpus contains two CSV Zip files (tab-delimited format) corresponding to each sub-corpus. The complete corpus is presented in two versions, one version with the tweet identifier (data__id) and the text of the tweet (data__text) as a header (folders named FR-R-MIGR-TWIT-2011-2022_textonly and UK-R-MIGR-RA-TWIT-2012-2022_textonly, respectively composed of 12 and 11 Zip files of every single year), and the other version with all tweet fields information included as a header, such as the posting date (data__created__at), the username (author__name), the number of retweets (data__public_metrics__retweet_count), etc., with two folders named FR-R-MIGR-TWIT-2011-2022_meta and UK-R-MIGR-RA-TWIT-2012-2022_meta. Detailed information for each sub-corpus is illustrated below.1. FR-R-MIGR-TWIT-2011-2022 Created at: 2022-08-08Language: FR Coverage: 16 user accounts; 11,761 tweets; 358,491 wordsTime of data collection: start=2011-01-01; end=2022-06-30 Keywords: words derived from a latin root “migr” of migrareCorpus composition: Political figure/party Username Tweets Year concerned 1 Michel Barnier @MichelBarnier 312017-20222 Valérie Pécresse @vpecresse 812017-20223 Rassemblement National @RNational_off 3,3472017-20224 Nicolas Dupont-aignan @dupontaignan 6632011-20225 Éric Ciotti @ECiotti 1,0072012-2022 6 Christian Estrosi @cestrosi 1372011-2022 7 Marin Le Pen @MLP_officiel 1,6502011-2022 8 Valérie Boyer @valerieboyer13 8372012-20229 Florian Philippot @f_philippot 4852012-2022 10 Xavier Bertrand @xavierbertrand 702017-202211 Marion Maréchal @MarionMarechal 4792012-2017, 2019-2022 12 Philippe Meunier @Meunier_Ph 2452013-202213 Jordan Bardella @J_Bardella 1,0952013-2022 14 Nicolas Bay @NicolasBay_ 1,2602017-202215 Emmanuel Macron @EmmanuelMacron 72 2017-202216 Éric Zemmour @ZemmourEric 3022019-202217 Jean Messiha* Banned from Twitter (since July 2021)Political figures and parties of table above are listed in chronological order according to the dates on which they posted their first tweet.*Before the launching of Twitter API v2 Academic Research, migr-tweets were collected from the database of Europresse.com including 1,453 tweets of Jean Messiha as part of the reference study (Pietrandrea amp; Battaglia 2022). However, the Twitter account in question has been permanently banned since July 2021. For our data collection using the Twitter API started in September 2021, we could not access this account. Therefore, we decided not to include his tweets in the FR-R-MIGR-TWIT-2011-2022 for the sake of consistency with the rest of twitter data that are automatically retrieved.The sub-corpus FR-R-MIGR-TWIT-2017-2022 is developed, annotated and analyzed as part of a doctoral thesis (Jeon, S.) with the aim of studying the semantic construction of migr-lexicon over the 5-year-period between two recent French Presidential Elections. 2. UK-R-MIGR-RA-TWIT-2012-2022 Created at: 2022-09-06Language: ENCoverage: 12 user accounts; 6,472 tweets; 174,707 words Time of data collection: start=2012-01-01; end=2022-09-05Keywords: words derived from a latin root “migr” of migrare in addition to the keywords “refugee(s)” and “asylum”.Corpus composition: Political figure/party Username Tweets Year concerned 1 David Cameron@David_Cameron322012-20222 Amber Rudd@AmberRuddUK292012-20223 Sajid Javid@sajidjavid842012-20224 Boris Johnson@BorisJohnson802015-20225 Priti Patel@pritipatel3042012-20226 UK Home Office@ukhomeoffice9092012-20227 Nigel Farage@Nigel_Farage1,0102012-20228 Richard Tice@TiceRichard1802013-20229 UKIP@UKIP2,7462012-202210 Neil Hamilton@NeilUKIP2522013-202211 Nick Griffin@NickGriffinBU5422012-202212 Robin Tilbrook@RobinTilbrook3042012-20222 out of 12 accounts are official accounts belonging to the” UK Home Office” department and the “UKIP” (United Kingdom Independence Party) party. 10 out of 12 accounts are political figures’ accounts.The corpus UK-R-MIGR-RA-TWIT-2012-2022 will be exploited for the following master’s thesis: Guido Blandino, 10 years of public debate on immigration: combining topic modeling and corpus linguistics to examine the British (far-)right discourse on Twitter, MA University of Wolverhampton (2023)Funding acknowledgements:- Université de Lille, Projet d'Internationalisation 2021- Université Franco-italienne / Università Italo Francese- Campus France (Hubert Curien Partnerships): Italie - PHC Galilée 2018-19 ; Bay-Bas - PHC Van Gogh 2018-19

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en