Positional skipgrams for Bambara: a resource for corpus-based studies

Fiche du document

Date

13 mai 2020

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

Mandenkan

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/0752-5443

Ce document est lié à :
info:eu-repo/semantics/reference/issn/2104-371X

Organisation

OpenEdition

Licences

https://creativecommons.org/licenses/by-nc-sa/4.0/ , info:eu-repo/semantics/openAccess



Sujets proches En

Article

Citer ce document

Kirill Maslinsky, « Positional skipgrams for Bambara: a resource for corpus-based studies », Mandenkan, ID : 10.4000/mandenkan.2119


Métriques


Partage / Export

Résumé En Fr Ru

This article presents a new online dataset of linguistically rich n‑gram frequency data for Bambara based on the disambiguated part of the Bambara Reference Corpus. The n‑grams in the dataset are positional skipgrams that capture information about co-occurrence of lexical items with grammatical categories at various relative positions. These n‑grams were constructed with the aim to leverage those types of information that are available in the morphologically annotated corpus of Bambara given the limited amount of textual data. The methodology and data used for constructing n‑grams for Bambara are discussed, followed by brief illustrations of how the positional skipgrams data may be employed in corpus-based linguistic research.

L’article présente un nouveau paquet de données linguistiques de fréquences de n‑grams pour le bambara, basé sur le sous-corpus désambiguïsé du Corpus bambara de référence. Les n‑grams sont des skipgrams positionnels qui capturent l’information sur la co-occurrence des lexèmes avec des catégories grammaticales à des positions différentes. Ces n‑grams ont été conçus pour tirer profit de ce type d’informations disponibles dans le corpus bambara morphologiquement annoté, vu le volume limité des données textuelles. La discussion de la méthodologie et les données utilisées pour la construction des n‑grams pour le bambara est suivie par quelques illustrations d’utilisation des skipgrams positionnels dans des recherches linguistiques basées sur un corpus.

В статье представлен новый доступный онлайн набор данных: корпус н‑грамм слов на основе подкорпуса со снятой омонимией Справочного корпуса бамана. В наборе данных представлены частотные списки позиционных скип-грамм, в которых отражена информация о совместной встречаемости лексем с грамматическими категориями на различных относительных позициях в тексте. Данный тип н‑грамм разработан для того, чтобы более полно отразить лингвистическую информацию, содержащуюся в морфологически аннотированном корпусе бамана. В статье обсуждается методология подготовки корпуса н‑грамм для бамана и представлено несколько кратких иллюстративных примеров использования данных о частотности позиционных скип-грамм в корпусных лингвистических исследованиях.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en