Corpus oral pour les mesures de confiance pour la Traduction Automatique de la Parole

Fiche du document

Date

30 juin 2014

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Marwa Hadj Salah, « Corpus oral pour les mesures de confiance pour la Traduction Automatique de la Parole », Dépôt Universitaire de Mémoires Après Soutenance, ID : 10670/1.6bo3n5


Métriques


Partage / Export

Résumé En Fr

The automatic speech translation combines two related domains, i.e. the automatic speech recognition and Machine translation. In order to improve the output of a translation system; and, hence, minimize the error rate, it's necessary to use confidence measures which can efficiently evaluate the accuracy of the hypothesis. However, there has been no corpus with such measures, so far. Therefore, to fill in this gap, we have first added oral recordings to an existing corpus and later, experimented with the whole of our new data. In this paper, we describe among other things strategy we adopted to classify the obtained labels such G: (Good) or B: (Bad). We obtained good results with good words (65,49%) and encouraging ones with words rated as bad (34.51%).

La traduction automatique de la parole combine deux domaines connexes, à savoir la reconnaissance automatique de la parole et la traduction. En vue d'améliorer la sortie d'un système de traduction et réduire ainsi le taux d'erreur, il est évident qu'il faut faire appel à des mesures de confiance qui sont capables de donner une estimation sur l'exactitude de l'hypothèse. Toutefois, jusqu'à présent, il n'y a aucun corpus de systèmes susceptible de prédire les mesures de confiance pour la traduction automatique de la parole. Pour combler ce vide, nous avons d'une part, enrichi un corpus existant à l'aide d'enregistrements oraux et d'autre part, effectué des expérimentations avec l'ensemble de nos données. Dans le présent mémoire, nous avons suivi une méthode pour classer les étiquettes générées telles que B : (Bon) ou M : (Mauvais). Nous avons obtenu de bons résultats pour les mots considérés comme bons (65,49%) et encourageants pour les mots jugés mauvais (34,51%).

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en