Extracting collocations in context: the case of verb-noun constructions in Romanian

Fiche du document

Date

27 septembre 2007

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Amalia Todirascu et al., « Extracting collocations in context: the case of verb-noun constructions in Romanian », HAL-SHS : linguistique, ID : 10670/1.m6qbu1


Métriques


Partage / Export

Résumé En Fr

Verb-Noun (VN) constructions involve a ‘generic’ V plus a ‘specific’ N which is either (i) a structural qualifierof the Predicator as in make haste,or (ii) a syntactic Complement as in to make a suggestion. In each case the Nexpresses the semantic Range of the VN construction (Banks 2000, Gledhill 2007). However, despite muchresearch on ‘support verb’ or ‘light verb’ constructions, there is no one morpho-syntactic feature which allows usto distinguish these constructions from any other sequence of V plus N, at least in English. From the point of view of corpus linguistics, this lack of formal marking makes it hard to extract them on a semi-automatic basis.As part of an on-going lexicographic project, we have examined various computational models in order toextract VN constructions from multilingual corpora. One of our main findings is that statistical methods aloneare not sufficient; the collocations that are thrown up in the data extend from a few ‘relevant’ VN constructions,to rather too many ‘semi-relevant’ VN co-occurrences and ‘irrelevant’ noise.

Les constructions Verbo-Nominales (VN) sont composées d’un V générique et d’un N spécifique, lequel est soit (i) qualifieur structurel du Prédicateur comme faire faillite, soit (ii) Complément syntaxique comme faire des recommandations. Dans chaque cas, le N exprime la Portée sémantique de la construction (Banks 2000, Gledhill2007). Mais malgré quantité d’études sur les ‘verbes supports’ ou ‘verbes légers’, aucune propriété morpho-syntaxique ne permet de distinguer ces constructions des autres séquences V plus N, au moins en anglais. Du point de vue de l’analyste de corpus, ce manque de marque formelle rend difficile la conception d’un outild’extraction automatique. Dans le cadre d’un projet lexicographique, nous avons étudié plusieurs modèlesdestinés à extraire des VN des corpus multilingues. Nos résultats préliminaires indiquent que des méthodes purement statistiques ne sont pas suffisantes : les données révèlent parfois de ‘véritables’ constructions VN,mais aussi pour la plupart des exemples ‘non-pertinents’ de cooccurrences VN, ou tout simplement du bruit.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en