Arquiteturas adequadas para manipulação e processamento de big data
Roger Sá da Silva
Ronan da Costa da Silva
Centro de Ciências Computacionais
Universidade Federal do Rio Grande - FURG
Rio Grande/RS, Brasil rogersadasilva@gmail.com Centro de Ciências Computacionais
Universidade Federal do Rio Grande - FURG
Rio Grande/RS, Brasil euronan10@hotmail.com Resumo — Sabe-se que atualmente o volume de dados a serem analisados e processados cresce em uma velocidade muito grande, sendo que tais dados ainda apresentam características específicas além do grande volume, como a falta de estrutura e a baixa densidade de informação útil. Isso caracteriza o termo atual big data. Tendo em mente esta definição, sabe-se que atualmente existe um cenário que apresenta muitos desafios e problemas em aplicações que processam e manipulam big data, causados em sua grande maioria pela capacidade limitada de armazenamento e principalmente pelo poder de processamento disponível ao se processar grandes quantidades de dados.
Assim, este artigo faz um levantamento de possíveis arquiteturas de computadores adequadas às aplicações que realizam o armazenamento, manipulação e processamento de big data que apresentam alguma melhoria de rendimento ou desempenho frente ao que se têm atualmente em arquiteturas de uso comum. São elencadas quatro arquiteturas, abordadas em alto nível, que apresentam ganhos e melhorias no desempenho de aplicações ou tarefas relativas ao processamento e manipulação de dados: framework Hadoop implementado em Grid Computing, aplicações de big data implementadas em Cloud Computing, particionamento de bancos de dados em hardware e, por fim, um estudo baseado na separação de tráfego.
Palavras-chave — big data; grid computing; cloud computing; hadoop; partitioning
I.
INTRODUÇÃO
Vivemos em um mundo cada vez mais interconectado que gera um imenso volume de informações diariamente: arquivos de logs de usuários em redes sociais,