Détection automatique de phénomènes intertextuels

Fiche du document

Date

15 janvier 2021

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

Genesis

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1167-5101

Ce document est lié à :
info:eu-repo/semantics/reference/issn/2268-1590

Organisation

OpenEdition

Licences

All rights reserved , info:eu-repo/semantics/openAccess

Résumé Fr En De Es Pt It

Il est désormais possible de détecter automatiquement, avec des techniques inspirées de la détection de plagiats, des fragments textuels évoquant, du fait de leurs ressemblances, des citations ou des réutilisations. Cependant, lorsque la taille des corpus est conséquente, le nombre de similitudes détectées est si grand qu’on s’y perd. De plus, des expressions figées ou des clichés enfouissent les reprises les plus intéressantes. De façon analogue, on peut repérer, sur les disques durs d’écrivains, des fichiers très semblables correspondant soit à des duplications, soit à des états différents d’un même écrit. Là encore, le nombre de fichiers semblables apparaît vertigineux. Pour surmonter ces difficultés, nous proposons de représenter les grandes masses de similitudes textuelles sur des graphes et de tirer parti des opérateurs mathématiques sur les graphes, en particulier de la détection de « communautés » ou d’arbres couvrant minimaux, pour les regrouper de manière significative.

With methods inspired by plagiarism detection techniques, we can now automatically detect textual fragments that resemble quotations or that appear to be other forms of borrowing. However, when the size of the corpus is large, the number of detectable similarities is so great that one gets lost. Fixed expressions or clichés bury the most interesting reuses. Similarly, we can find files on writers’ hard drives that are either duplicates or that are very different stages of the same text. Here again, the number of similar files appears staggering. To overcome these difficulties, we propose to represent large numbers of textual similarities on graphs while taking advantage of mathematical graph operators, in particular those that detect “communities” or minimal spanning trees, which can be then clustered in a meaningful way.

Es ist nun möglich, mit Techniken, die von der Plagiatserkennung inspiriert sind, automatisch Textfragmente zu erkennen, die aufgrund ihrer Ähnlichkeit Zitate oder Wiederverwendung von fremden Texten hervorrufen. Wenn der Korpus jedoch groß ist, ist die Zahl der entdeckten Ähnlichkeiten so groß, dass man den Faden verliert. Außerdem begraben feststehende Ausdrücke oder Klischees die interessantesten Wiederverwendungen. In ähnlicher Weise kann man auf den Festplatten von Schreibern sehr ähnliche Dateien finden, die entweder Duplikaten oder verschiedenen Zuständen der gleichen Schrift entsprechen. Auch hier ist die Anzahl ähnlicher Dateien schwindelerregend. Um diese Schwierigkeiten zu überwinden, schlagen wir vor, große Massen von textlichen Ähnlichkeiten auf Graphen darzustellen und mathematische Operatoren auf Graphen, insbesondere die Erkennung von „Gemeinschaften“ oder minimal bedeckenden Bäumen, zu nutzen, um sie auf signifikante Weise zu gruppieren.

En la actualidad es posible detectar automáticamente, con las técnicas inspiradas en la detección de plagios, fragmentos textuales que evocan, por sus semejanzas, citas o reutilizaciones. Sin embargo, cuando la extensión de los corpus es importante, la cantidad de similitudes detectadas es tan grande que desorienta. Además, las expresiones fijas y los clichés ocultan las recuperaciones más interesantes. De manera análoga, se pueden detectar, en los discos rígidos de los escritores, ficheros muy parecidos que corresponden ya sea a duplicaciones, ya sea a estadios diferentes de un mismo escrito. También en este caso, la cantidad de ficheros similares resulta vertiginoso. Para superar estas dificultades, lo que proponemos es representar las grandes masas de semejanzas a través de grafos y sacar partido de operaciones matemáticas aplicadas a los grafos, en particular, de la detección de “comunidades” o de arborescencias que vinculan rasgos mínimos, para reagruparlos de manera significativa.

É agora possível detetar automaticamente, com técnicas inspiradas na deteção de plágio, fragmentos textuais que evocam, pela sua semelhança, citações ou reutilizações. No entanto, quando o tamanho do corpus é considerável, o número de semelhanças detetadas é tão grande que nos perdemos. Além disso, frases feitas ou clichés escondem as reutilizações mais interessantes. Da mesma forma, pode-se encontrar, nos discos rígidos dos escritores, ficheiros muito semelhantes, que correspondem quer a duplicações, quer a diferentes estados da mesma escrita. Além disso, o número de ficheiros semelhantes é impressionante. Para ultrapassar estas dificuldades, propomos representar as grandes massas de similitudes textuais em gráficos e tirar partido dos operadores matemáticos em gráficos, em particular da deteção de “comunidades” ou árvores recobrindo formas mínimas, para as agrupar de forma que seja significativa.

Utilizzando le tecniche basate sul rilevamento dei plagi, è ormai possibile rintracciare automaticamente dei frammenti testuali che indicano, per la loro rassomiglianza, citazioni o riutilizzazioni. Tuttavia, nel caso di corpus d’importante entità, il numero delle similitudini rilevate è così grande che si rischia di perdersi. In più, le espressioni idiomatiche o i cliché seppelliscono le citazioni più interessanti. Allo stesso modo, si possono rintracciare negli hard disk degli scrittori, file molto simili, che corrispondono o a copie o a versioni diverse di uno stesso testo; ma anche qui, il numero dei file simili appare vertiginoso. Per superare queste difficoltà, proponiamo di rappresentare le grandi masse di similitudini testuali con dei grafi e di utilizzare degli operatori matematici sui grafi, in particolare il rilevamento di “comunità” o di “alberi ricoprenti minimi”, per raggrupparli in modo efficace.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en