Corpus linguistics for low-density varieties. Minority languages and corpus-based morphological investigations

Fiche du document

Date

2 mars 2022

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

Corpus

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-9808

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1765-3126

Organisation

OpenEdition

Licences

All rights reserved , info:eu-repo/semantics/openAccess




Citer ce document

Livio Gaeta et al., « Corpus linguistics for low-density varieties. Minority languages and corpus-based morphological investigations », Corpus, ID : 10.4000/corpus.7345


Métriques


Partage / Export

Résumé En Fr

Corpus linguistics grew up in the domain of written (and literary) varieties, while its recent methodological revolution is due to the computer-assisted capacity of elaborating massive amounts of text data. On the other hand, the so-called ‘low-density varieties’, including spoken varieties as well as varieties spoken in minority communities, have been confined to a rather marginal role. Among others, this is due to the technical problems connected to the scarce degree of normalization in linguistic –including graphemic– terms, as well as to the scarcity of language resources for automatic processing. In this paper, we will exploit the possibilities opened by corpus linguistics for acquiring and analyzing the textual patrimony of the Walser German communities of Piedmont and Aosta Valley. The varieties of Highest Alemannic spoken there, dramatically exposed to language decay, provide a limited but significant amount of data, which is accompanied by a substantial lexical documentation due to the active collaboration of the speakers’ communities in collecting and compiling local dictionaries. After briefly introducing our archive and discussing the peculiar solutions adopted for the construction of the platform, we will also present corpus-based morphological investigations regarding the representation of verbal prefixes, of the clitic group, as well as of the inflectional behaviour of verb classes.

La linguistique de corpus s’est développée dans le cadre des variétés écrites (et littéraires), tandis que sa récente révolution méthodologique est due à la capacité assistée par ordinateur d’élaborer des quantités massives de données textuelles. D’autre part, les variétés dites ‘à faible densité’ comprenant les variétés parlées ainsi que les variétés parlées dans les communautés minoritaires, ont été confinées à un rôle plutôt marginal. Cela est dû, entre autres, aux problèmes techniques liés au faible degré de normalisation en termes linguistiques, y compris graphémiques, de ces variétés ainsi qu’à la rareté des ressources linguistiques pour leur traitement automatique. Dans cet article, nous allons exploiter les possibilités offertes par la linguistique de corpus pour acquérir et analyser le patrimoine textuel des communautés allemandes Walser du Piémont et de la Vallée d’Aoste. Les variétés d’alémanique supérieur qui y sont parlées, dramatiquement exposées à des processus avancés de décadence linguistique, fournissent une quantité limitée mais significative de données, qui s’accompagne d’une documentation lexicale substantielle due à la collaboration active des communautés dans la collecte et la compilation de dictionnaires locaux. Après une brève présentation de nos archives et la discussion des solutions particulières adoptées pour la construction de la plate-forme, nous présenterons également des investigations morphologiques basées sur corpus concernant la représentation des préfixes verbaux, du groupe clitique, ainsi que du comportement flexionnel des classes de verbes.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en