Agrupamento De Dados Utilizando Mahout E MapReduce
MAHOUT E MAPREDUCE
UNIVERSIDADE PRESBITERIANA MACKENZIE
PROGRAMA DE PÓS-GRADUAÇÃO EM ENG. ELÉTRICA E
C O M P UTAÇ ÃO
D I S C I P L I N A : T Ó P I C O S E M B I G D ATA
P R O F. : D R . L E A N D R O A U G U S T O
ALUNOS: ANTÔNIO EDUARDO
DANILO CUNHA
SUMÁRIO
•
•
•
•
Introdução
Conceitos
Aplicação
Conclusão
Universidade Presbiteriana Mackenzie
PPGEEC
Antônio Eduardo (aersouza@gmail.com)
Danilo (danilocunha85@gmail.com )
MOTIVAÇÃO
• Problema comum em Aprendizagem de Máquina
• Alta aplicabilidade
• Sistemas de Recomendação, Processamento de
Imagem, Análise de Sequência Genética, Análise de Textos
• Competições: Netflix e Kaggle
Universidade Presbiteriana Mackenzie
PPGEEC
Antônio Eduardo (aersouza@gmail.com)
Danilo (danilocunha85@gmail.com )
APACHE MAHOUT
• É uma biblioteca de algoritmos de aprendizagem de máquina
• É um projeto da Apache Software Foundation
• Software Livre (Licença Apache)
• Escalável para manipular grandes volumes de dados Universidade Presbiteriana Mackenzie
PPGEEC
Antônio Eduardo (aersouza@gmail.com)
Danilo (danilocunha85@gmail.com )
ONDE USAR O MAHOUT?
•
•
•
•
•
•
•
Matrizes e vetores
Estruturas esparsas e densas
Agrupamento
Cobertura
K-Means
Análise de densidade de funções
Filtragem colaborativa
QUEM UTILIZA O MAHOUT?
• Adobe Media Player usa o Mahout para gerar recomendações de vídeos para seus usuários
• Amazon’s Personalization Platform
• AOL recomendações de compras
• Foursquare sistema de recomendações de lugares • Mendeley sistema de recomendações de artigos científicos • Twitter modelagem de “interesses” de usuários
Universidade Presbiteriana Mackenzie
PPGEEC
Antônio Eduardo (aersouza@gmail.com)
Danilo (danilocunha85@gmail.com )
POR QUÊ UTILIZAR AGRUPAMENTO?
• Estrutura dos dados
• geração hipóteses, detecção de anomalias e outras características
• Classificação
• identificação do grau de similaridade do dados
• Compressão
• organização e sumarização dos dados por meio de grupos