Análise de uma metodologia para preenchimento de valores faltantes em dados de precipitação, para o estado do paraná
Resumo
A disponibilidade de dados meteorológicos para uma dada região segue como essencial para estudos climáticos, agrícolas, dentre outros. Porém, devido a problemas de medição nas estações meteorológicas, estes dados nem sempre estão disponíveis ao longo do tempo, criando muitos valores faltantes e falhos. Com a hipótese de que aplicar determinadas metodologias para a substituição de valores faltantes em regiões homogêneas espacialmente, para o estado do Paraná é melhor que utilizando toda a base de dados de forma heterogênea, avaliou-se uma metodologia para preenchimentos de valores faltantes para o estado do Paraná, a partir de dados decendiais de precipitação do modelo global ECMWF, para o ano de 2008. Foram criados dois grupos, sendo um considerando toda a base de dados e outro aplicando a técnica k-means para separação dos dados em clusters. Destes, foram omitidos 1% dos dados e foram substituídos aplicando as técnicas de kNN, Regressão e Redes Neurais utilizando o software Weka. Verificou-se que ao substituir os valores faltantes considerando toda base de dados e apenas os clusters não houve diferença significativa (com r² maior que 0,90), e assim não sendo necessário para o estado do Paraná a aplicação desta metodologia.
Palavras-chave: chuva; dados faltantes; cluster; mineração de dados.
Abstract
The availability of meteorological data for a given region is essential for climate studies, agriculture, etc. However, measurement problems in weather stations, these data are not always available over time, produce missing and flawed values. The hypothesis is that certain methodologies applied for the replacement of missing values in spatially homogeneous regions for the Parana state is better than using the full database in a heterogeneous manner. We evaluated a methodology for replace missing data values from dekadal