Informações:

Publicações do PESC

Título
Detecção de Plágio de Paráfrase Utilizando as Características do Texto
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
23/9/2019
Resumo

Plágio é a adoção inapropriada de artefatos abstrato ou concreto tais como: textos, obras de arte, ideias ou intenções; sem fazer a devida referência ao seu autor original. Dentre as formas de cometer plágio, existe o plágio de paráfrase, o qual dá-se por meio de manipulações no texto do documento na tentativa de ofuscar a sua real origem. Para a identificação de plágio, é utilizado o framework Sistema de Detecção de Plágio Externo (SDPE), o qual contém a tarefa de análise detalhada, onde, dado um documento suspeito, deve identificar se há plágio ou não quando comparado com o conjunto de documentos fontes. O objetivo da pesquisa é atuar na tarefa de análise detalhada , a fim de, com as características léxica, sintática, semântica e estrutural do texto, auxiliar na identificação de plágio de paráfrase entre os documentos. Para isso, acredita-se que, quando o documento é representado por completo, levando em consideração a sua organização, as estruturas em árvores contribuem para identificação de ocorrência de plágio de paráfrase do tipo mais simples ao tipo mais complexo. Para essa tarefa, foi proposto utilizar o Rhetorical Structure Theory e o Part-of-Speech Tagging para representar as características do documento juntamente com o Recursive Autoencoder e o Dynamic Pooling detectar casos de plágio de paráfrase em documentos. Durante os experimentos, as abordagens propostas obtiveram entre 83% e 89% de acurácia no data set de plágio de paráfrase em documentos.

Abstract

Plagiarism is the improper adoption of abstract or concrete artifacts such as: texts, artwork, ideas or intentions without proper reference to their original author. The ways to commit plagiarism, there is paraphrase plagiarism, which occurs through manipulations in the document text trying to obscure its real source. For the identification of plagiarism, we use the External Plagiarism Detection System (EPDS) framework, which contains the detailed analysis task, where, given a suspicious document, it should identify whether or not plagiarism when compared to the set of document source. The objective of the research is to perform the detailed analysis task in order to, with the lexical, syntactic, semantic and structural characteristics of the text, assist in the identification of paraphrase plagiarism between documents. For this, it is believed that when the document is fully represented, taking into consideration its organization, tree structures contribute to the identification of paraphrase plagiarism from the simplest to the most complex type. For this task, it was proposed to use Rhetorical Structure Theory and Part-of-Speech Tagging to represent document characteristics along with Recursive Autoencoder and Dynamic Pooling to detect cases of paraphrase plagiarism in documents. During the experiments, the proposed approaches obtained between 83% and 89% accuracy in the paraphrase plagiarism data set.

Arquivo
Topo