Point Break: Surfing Heterogeneous Data for Subtitle Segmentation

Computational Linguistics Fine-grained sentiment analysis Distributional Semantics Quantitative Linguistic Investigations Gender Bias Depression from Social Media Online Hate Speech Automatic Sarcasm Detection TrAVaSI AriEmozione AEREST COVID-19 Linguistic Ostracism in Social Networks Multilingual NLU E3C Project DistilBERT Twitter during Pandemic

Sujets proches En

Support systems, Social Networking, Social Networks, Social Social networking Social support systems Units Measurement, Units of Body surfing Surfboarding Surfboard riding Surfriding Surf riding Formal semantics Semasiology Semiology (Semantics) Papers Linguistics--Data processing Language and languages--Data processing Language data processing Natural language processing (Linguistics) Automatic language processing Linguistic science Science of language Sarcasm Bias Understanding Internet hate speech User-generated media Methods of analysis Analysis and chemistry Analytical methods Chemical analysis Analysis methods Analysis and examination Networks, Social

Citer ce document

Alina Karakanta et al., « Point Break: Surfing Heterogeneous Data for Subtitle Segmentation », Accademia University Press, ID : 10.4000/books.aaccademia.8620

Partage / Export

Résumé 0

Subtitles, in order to achieve their purpose of transmitting information, need to be easily readable. The segmentation of subtitles into phrases or linguistic units is key to their readability and comprehension. However, automatically segmenting a sentence into subtitles is a challenging task and data containing reliable human segmentation decisions are often scarce. In this paper, we leverage data with noisy segmentation from large subtitle corpora and combine them with smaller amounts of high-quality data in order to train models which perform automatic segmentation of a sentence into subtitles. We show that even a minimum amount of reliable data can lead to readable subtitles and that quality is more important than quantity for the task of subtitle segmentation.

Point Break: Surfing Heterogeneous Data for Subtitle Segmentation

Fiche du document

Mots-clés En Und

Sujets proches En

Citer ce document

Métriques

Partage / Export

Résumé 0

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en