Differentiating synonyms and adjective subclasses by syntactic profiling

Fiche du document

Date

12 juin 2020

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

Lexis

Organisation

OpenEdition

Licences

https://creativecommons.org/licenses/by-nc-nd/4.0/ , info:eu-repo/semantics/openAccess


Mots-clés

adjectifs linguistique de corpus fonction syntaxique déterminants sujet grammatical adjectives corpus linguistics syntactic function determiners grammatical subject


Citer ce document

Daniel Henkel, « Differentiating synonyms and adjective subclasses by syntactic profiling », Lexis, ID : 10.4000/lexis.4428


Métriques


Partage / Export

Résumé En Fr

Twenty adjectives belonging to five intuitively recognizable semantic families, age (old, young), size (large, small, big), color (black, white, red, yellow, blue), modality (possible, impossible, necessary, likely, sure) and emotion (happy, sad, glad, sorry) were inventoried in a 5-million word corpus tagged for part of speech (POS) and lemma. Regular expressions were used to target specific contextual parameters including syntactic function (adnominal or predicative), determiners, grammatical subject and intensifiers, while manual estimates were obtained from random samples of 500 occurrences per adjective. Benchmark data, for purposes of comparison, were first collected for the category as a whole using POS tags, from which it was observed that four major determiners and six copula verbs were present in 80-90% of all occurrences. Adjective families were found to share common, distinctive syntactic profiles, with similar predispositions to adnominal or predicative function and similar affinities with specific determiners or intensifiers. Differences were observed as well between certain quasi-synonyms such as glad/happy with respect to one or more of these criteria.

Vingt adjectifs appartenant, d’un point de vue sémantique et intuitif, à cinq familles, à savoir ceux qui décrivent l’âge (old, young), la taille (large, small, big), la couleur (black, white, red, yellow, blue), la modalité (possible, impossible, necessary, likely, sure) et les émotions (happy, sad, glad, sorry), ont été inventoriés dans un corpus de 5 millions de mots étiquetés par catégorie grammaticale et lemme. Des formules de recherche par expressions régulières (regex) ont été conçues pour viser certains paramètres contextuels, notamment la fonction syntaxique (adominale ou prédicative), le déterminant, le sujet grammatical et les marques d’intensification, tandis que, par ailleurs, des estimations manuelles ont été obtenues à partir d’échantillons aléatoires de 500 occurrences pour chaque adjectif. À des fins de comparaison, des données de référence ont été récoltées pour la catégorie dans son ensemble à partir des étiquettes grammaticales, ce qui a permis d’observer que quatre déterminants principaux et six verbes copules sont impliqués dans 80-90% des occurrences. Au sein de chaque famille d’adjectifs, l’on retrouve un profil syntaxique distinctif commun quant à leur prédisposition à la fonction adnominale ou prédicative et leurs affinités avec certains déterminants ou marques d’intensification. L’examen de ces critères syntaxiques fait aussi ressortir quelques différences entre des quasi-synonymes tels que glad/happy.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en