Whisper for L2 speech scoring Whisper pour l'analyse automatique de la prononciation en anglais des apprenants En Fr

Fiche du document

Date

2024

Discipline
Type de document
Périmètre
Langue
Identifiants
Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.1007/s10772-024-10141-5

Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess



Sujets proches Fr

anglais

Citer ce document

Nicolas Ballier et al., « Whisper pour l'analyse automatique de la prononciation en anglais des apprenants », HAL SHS (Sciences de l’Homme et de la Société), ID : 10.1007/s10772-024-10141-5


Métriques


Partage / Export

Résumé En Fr

In this paper, we examine whether confidence scores produced by the C++ reimplementation of Whisper can be used to score L2 learners of English and classify them. We test whether the language prediction and its probability can be used to classify French learners of English using a specifically collected dataset for read speech and a graded corpus, the ANGLISH corpus We show that probability scores associated with the Whisper subtokens can be used to classify learners into levels using the knn algorithm. We show the limitations of the language detection probability beyond an initial threshold where the native language L1 of the learner can actually be predicted by the speaker. We have also used the ISLE corpus to test the prediction of the levels of Italian and German learners of English. We show how language detection for Whisper's multilingual larger models can be used to detect less advanced learners' first language but cannot be used for learner level classification with advanced learners. Using a greedy alignment algorithm, we also discuss the confidence score assigned to Whisper output.

Dans cet article, nous examinons si les scores de confiance produits par la réimplémentation C++ de Whisper peuvent être utilisés pour évaluer les apprenants d'anglais L2 et si les scores produits permettre de retrouver les niveaux d'apprenants. Nous testons si la prédiction de la langue et sa probabilité peuvent être utilisées pour classer les apprenants français d'anglais en utilisant un ensemble de données spécifiquement collectées pour la lecture et un corpus associé à des niveaux de référence en anglais, le corpus ANGLISH. Nous montrons que les scores de probabilité associés aux sous-tokens de Whisper peuvent être utilisés pour classer les apprenants en niveaux à l'aide de l'algorithme knn. Nous montrons les limites de la probabilité de détection de la langue implémentée dans Whisper pour classer les apprenants en niveaux d'anglais, au-delà d'un seuil initial où la langue maternelle L1 de l'apprenant peut effectivement être prédite par Whisper. Nous avons également utilisé le corpus ISLE pour tester la prédiction des niveaux des apprenants italiens et allemands de l'anglais. Nous montrons comment la détection de la langue pour les grands modèles multilingues de Whisper peut être utilisée pour détecter la première langue des apprenants moins avancés, mais ne peut pas être utilisée pour la classification du niveau des apprenants avancés. Nous avons produit un algorithme d'alignement de type 'glouton' pour évaluer si la distance de Levenshtein aux réalisations attendues est corrélée au score de confiance attribué aux sous-tokens par Whisper.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines