Publicações do PESC Programação Genética de Árvores de Regras para Normalização de Textos

Autores

id		url
5895	Fabio Ferman	2721,299
5896	Geraldo Bonorino Xexéo (Orientador)	2721,299

Informações:

Publicações do PESC

2578

Título

Programação Genética de Árvores de Regras para Normalização de Textos

Número de registro

Data da defesa

26/1/2016

tituloi

Resumo

Erros de grafia consistem de adversidades que devem ser tratadas em diversos cenários, dentre os quais se destacam: a necessidade de uma escrita correta para documentos importantes no intuito de mostrar seriedade e clareza, possibilidade de uso de sistemas Text-to-Speech e para aplicação de técnicas de processamento de linguagem natural. Até algum tempo atrás esses erros podiam ser considerados falhas de digitação ou desconhecimento quanto à forma correta de escrita, porém atualmente estes podem ser cometidos de forma proposital, existentes em maior escala com o surgimento do internetês, muito presente nos microblogs e aplicativos de mensagens instantâneas. Dentre as técnicas de normalização de texto existentes destacam-se as baseadas em regras, que são muito precisas porém com baixa recuperação, e as que utilizam do aprendizado de máquina, que em geral apresentam maior recuperação e menor precisão. Esse trabalho visa a criação de uma técnica híbrida entre as abordagens para normalização de texto, tal que esta desfrute dos benefícios presentes em ambas as técnicas.

Abstract

Spelling deviations are adversities, which must be addressed in many scenarios, for example: the necessity of a well-written text in important documents in order to show seriousness and clarity, the possibility to use Text-to-Speech systems, and to apply natural language processing techniques. Until some time ago, these errors could be considered an unintentional consequence of cognitive or interface problems, but nowadays spelling deviations can be committed intentionally, increasing the diversity of types of deviations with the creation of the netspeak, found at microblogs and instant message applications. Among the normalization techniques there are the rule-based approaches, which usually favor precision over recall, and the machine learning approaches, which in general favor recall over precision. This work propose the development of a hybrid technique between both approaches for text normalization, in order to enjoy the best of each technique.

Arquivo

2578.pdf

url

Programação Genética de Árvores de Regras para Normalização de Textos

Autores

Informações:

Publicações do PESC

Menu principal