Autores

5895
2721,299
5896
2721,299

Informações:

Publicações do PESC

Título
Programação Genética de Árvores de Regras para Normalização de Textos
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
26/1/2016
Resumo
Erros de grafia consistem de adversidades que devem ser tratadas em diversos cenários, dentre os quais se destacam: a necessidade de uma escrita correta para documentos importantes no intuito de mostrar seriedade e clareza, possibilidade de uso de sistemas Text-to-Speech e para aplicação de técnicas de processamento de linguagem natural. Até algum tempo atrás esses erros podiam ser considerados falhas de digitação ou desconhecimento quanto à forma correta de escrita, porém atualmente estes podem ser cometidos de forma proposital, existentes em maior escala com o surgimento do internetês, muito presente nos microblogs e aplicativos de mensagens instantâneas. Dentre as técnicas de normalização de texto existentes destacam-se as baseadas em regras, que são muito precisas porém com baixa recuperação, e as que utilizam do aprendizado de máquina, que em geral apresentam maior recuperação e menor precisão. Esse trabalho visa a criação de uma técnica híbrida entre as abordagens para normalização de texto, tal que esta desfrute dos benefícios presentes em ambas as técnicas.
Abstract
Spelling deviations are adversities, which must be addressed in many scenarios, for example: the necessity of a well-written text in important documents in order to show seriousness and clarity, the possibility to use Text-to-Speech systems, and to apply natural language processing techniques. Until some time ago, these errors could be considered an unintentional consequence of cognitive or interface problems, but nowadays spelling deviations can be committed intentionally, increasing the diversity of types of deviations with the creation of the netspeak, found at microblogs and instant message applications. Among the normalization techniques there are the rule-based approaches, which usually favor precision over recall, and the machine learning approaches, which in general favor recall over precision. This work propose the development of a hybrid technique between both approaches for text normalization, in order to enjoy the best of each technique.
Arquivo
Topo