Automatic Documentation of Faetar’s [i]: A Methodology for Discovering Vowel Space Using Artificial Neural Networks

Fiche du document

Date

19 mars 2019

Discipline
Type de document
Périmètre
Langue
Identifiant
Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/0761-9081

Ce document est lié à :
info:eu-repo/semantics/reference/issn/2650-8176

Organisation

OpenEdition

Licences

All rights reserved , info:eu-repo/semantics/openAccess




Citer ce document

Lyndon Rey et al., « Automatic Documentation of Faetar’s [i]: A Methodology for Discovering Vowel Space Using Artificial Neural Networks », Géolinguistique, ID : 10.4000/geolinguistique.306


Métriques


Partage / Export

Résumé En Fr

Consider a huge, untagged speech corpus from a language without a written tradition. How can we quickly and accurately measure vowel space, without expending large amounts of labour and funds? We present a methodology that can be used to measure probabilistic variation across large corpora of natural spoken languages, particularly useful for under-resourced and lesser-documented languages. Using a heuristic function, the optimal vowel sample for any given phone category can be found. This heuristic is trained through machine learning, in this case, an unsupervised neural network. This process allows us to test large amounts of raw data, and create a vowel space, without the need to hand-tag many hours of recordings. We aim to model how speakers from different dialect groups speak—what are the phonetic patterns they are most likely to show, and can we differentiate and categorize unknown samples using these models created from natural language? This work uses spontaneous speech data in the endangered language Faetar, from the Heritage Language Variation and Change Corpus.

Considérez un corpus de discours énorme et non étiqueté d’une langue sans tradition écrite. Comment mesurer rapidement et précisément l’espace des voyelles, sans trop dépenser de temps et de fonds ? Nous présentons une méthode pour établir la variation à travers de grands corpus de langage parlé naturel, particulièrement utiles pour les langues moins documentées. Par une fonction heuristique, l’échantillon de voyelle optimal pour une catégorie de phone donnée peut être trouvé. Cette heuristique est formée par l’apprentissage automatique, un réseau neuronal non supervisé. Ce processus nous permet de tester de grandes quantités de données brutes sans marquer manuellement des heures d’enregistrements. Notre objectif est de modéliser la manière dont parlent les locuteurs de différents dialectes : quels sont les modèles phonétiques qu’ils sont le plus susceptibles de montrer et pouvons-nous différencier et classer les échantillons inconnus à l’aide de ces modèles créés à partir du langage naturel ? Ce travail utilise des données vocales spontanées du dialecte de Faeto (le faetar), une langue en danger de disparition.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en