Maîtriser les déluges de données hétérogènes

linguistique informatique linguistique de corpus analyse de données textuelles analyses quantitatives de données textuelles lexicométrie textométrie typologie des données textuelles traitement automatique de la langue naturelle informatique appliquée

Sujets proches En Es Fr

Lexico-statistique Statistiques textuelles Fréquence (linguistique) Lexicostatistique Mots, Fréquence des Lexicologie quantitative Lexicométrie Fréquence des mots Statistique textuelle Textométrie Fréquence lexicale Statistiques lexicales

Citer ce document

Serge Heiden et al., « Maîtriser les déluges de données hétérogènes », HAL-SHS : linguistique, ID : 10670/1.0sd0b0

Partage / Export

Résumé 0

Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pour l'acquisition des connaissances. L'obstacle actuel n'est plus la disponibilité de corpus, ni même leur taille, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Dans cet article, nous examinons l'hétérogénéité que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rédaction du journal. Les conséquences d'une telle hétérogénéité pour l'étiquetage et le parsage sont soulignées. Partant de ce constat, nous définissons la notion de "profilage de corpus" par le biais d'outils permettant d'évaluer l'homogénéité d'un corpus (sur-emploi du vocabulaire, de catégories morpho-syntaxiques, ou de patrons) et l'utilisation qui peut en être faite.

Maîtriser les déluges de données hétérogènes

Fiche du document

Mots-clés Fr

Sujets proches En Es Fr

Citer ce document

Métriques

Partage / Export

Résumé 0

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en