Big data
--------------------------------------------------------------------
by Alexandre Santos ( santosa@gmail.com)
Responda rápido : Quando tempo você levaria para buscar uma informação num banco de dados de 100Tb ( 1 TERABYTE = 1000 GB ) ?
Supondo que você rode essa consulta em 1 processador (node) a uma velocidade média de 50Mb/s ( média dos métodos tradicionais ) você levaria algo entre 20-30 dias.
Se você tem o privilégio de rodar essa query num super-cluster de computadores ( 1000 nós ), sua resposta viria em 30-40min.
Se você precisa dessa resposta em segundos como o google, você precisaria criar um novo paradigma de armazenamento ou estarias perdido.
Para processar 20 Petabytes de informação por dia, a google criou um novo modelo de programação conhecido como Map/Reduce e o compartilhou com a comunidade em 2004 (5) dando origem ao projeto open-source Hadoop que embora seja a base da maioria das aplicações do BIG DATA, não é a única tecnologia disponível.
BIG DATA, segundo o IDC(1) é uma nova geração de tecnologias e arquiteturas projetadas para extrair de valor econômico de uma grande variedade e gigantesco volume de dados, em alta velocidade de captação, descoberta e / ou análise.
Antes dos fornecedores se auto-certificarem como BIG DATA, notem as três palavras incluidas na definição do IDC que definem uma solução real de
BIG DATA (3V) : Variedade ( Dados estruturados e não-estruturados ), Velocidade ( Alta e adequada à aplicação ) e Volume ( geralmente em centenas de Terabytes ou Petabytes = 1.000 Terabytes ).
No artigo entitulado: "The End of Theory" (2), Chris Anderson editor chefe darevista Wired nos convida a refletir sobre a revolução nessa nova forma de perceber o mundo; "A nova disponibilidade de enormes quantidades de dados, juntamente com as ferramentas estatísticas para "mastigar" estes números, oferece toda uma nova maneira de compreender o mundo. Correlação