Hurtlex: A Multilingual Lexicon of Words to Hurt

Fiche du document

Date

8 avril 2019

Discipline
Périmètre
Langue
Identifiants
Collection

OpenEdition Books

Organisation

OpenEdition

Licences

https://www.openedition.org/12554 , info:eu-repo/semantics/openAccess



Sujets proches En

Hatred Assessment

Citer ce document

Elisa Bassignana et al., « Hurtlex: A Multilingual Lexicon of Words to Hurt », Accademia University Press, ID : 10.4000/books.aaccademia.3085


Métriques


Partage / Export

Résumé En It

We describe the creation of HurtLex, a multilingual lexicon of hate words. The starting point is the Italian hate lexicon developed by the linguist Tullio De Mauro, organized in 17 categories. It has been expanded through the link to available synset-based computational lexical resources such as MultiWordNet and BabelNet, and evolved in a multi-lingual perspective by semi-automatic translation and expert annotation. A twofold evaluation of HurtLex as a resource for hate speech detection in social media is provided: a qualitative evaluation against an Italian annotated Twitter corpus of hate against immigrants, and an extrinsic evaluation in the context of the AMI@Ibereval2018 shared task, where the resource was exploited for extracting domain-specific lexicon-based features for the supervised classification of misogyny in English and Spanish tweets.

L’articolo descrive lo sviluppo di Hurtlex, un lessico multilingue di parole per ferire. Il punto di partenza è il lessico di parole d’odio italiane sviluppato dal linguista Tullio De Mauro, organizzato in 17 categorie. Il lessico è stato espanso sfruttando risorse lessicali sviluppate dalla comunità di Linguistica Computazionale come MultiWordNet e BabelNet e le sue controparti in altre lingue sono state generate semi-automaticamente con traduzione ed annotazione manuale di esperti. Viene presentata sia un’analisi qualitativa della nuova risorsa, mediante l’analisi di corpus di tweet italiani annotati per odio nei confronti dei migranti e una valutazione estrinseca, mediante l’uso della risorsa nell’ambito dello sviluppo di un sistema Automatic Misogyny Identification in tweet in spagnolo ed inglese.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en