Informações:

Publicações do PESC

Título
Pré-processamento em Mineração de Dados: um Estudo Comparativo em Complementação
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
31/5/2007
Resumo

As aplicações atuais e a evolução tecnológica vêm promovendo a produção e o armazenamento de um grande volume de dados. Este cenário faz com que a existência de valores ausentes em registros das bases de dados inevitavelmente aumente. Estas lacunas prejudicam a análise dos dados, além de dificultar ou mesmo inviabilizar o processo de abstração de conhecimento a partir deles.

Desta forma, este trabalho tem por objetivo avaliar quais os efeitos da aplicação das tarefas de seleção de atributos e agrupamento de dados precedendo à complementação de dados ausentes em bases de dados. Também propusemos nesta tese a aplicação de comitês de complementação de dados para o processo de imputação. Esta abordagem busca modificar a clássica técnica de imputação múltipla, incorporando o conceito de meta-aprendizado normalmente encontrado em comitês de classificação.

Os resultados experimentais mostram significativa melhora da qualidade dos dados sugeridos quando são gerados pelas estratégias de imputação composta de pré-processamento, indicando que a imputação obtém melhores resultados quando restringe este processo aos registros mais relevantes do conjunto de dados.

Abstract

Nowadays applications and technological evolution have caused the production and storage of huge volumes of data. This scenario facilitated the increased occurrence of missing values in data sets. Missing data is harmful for statistical analysis, complicating or even not allowing the process of extracting knowledge from these non preprocessed data.

Hence, this work aims at analyzing the effects of the application of selection and clustering tasks before the imputation of missing values in data sets. We have also proposed the application of imputation committees to the imputation process. This approach attempts to modify the multiple imputation technique integrating the meta learning concept, normally encountered in classification committees.

Experimental results show that we achieve relevant quality improvement of imputed data when generated by these composed preprocessing strategies, pointing out that the whole process gains when it works with the most relevant part of the dataset.

Arquivo
Topo