Uso do Hadoop
1. Apache Hadoop, o que é? Apache Hadoop é uma plataforma de computação distribuída para processamento de grandes quantidades de dados. Desenvolvida em Java, permite que uma aplicação seja executada em clusters com mais de 1000 nós. Apache Hadoop é um projeto open-source e mantido pela Apache Software Foundation (ASF).
*Fontes:
http://wiki.apache.org/hadoop/FrontPage
2. Breve história O Hadoop foi desenvolvido por Doug Cutting e Mike Cafarella em 2005. O nome Hadoop vem de um elefante de brinquedo do filho de Cutting. Foi desenvolvido inicialmente para auxiliar o projeto do motor de buscas Nutch.
*Fontes:
http://en.wikipedia.org/wiki/Apache_Hadoop#History
3. Componentes O Apache Hadoop é composto por três componentes principais. São elas, armazenamento, processamento e gestão de recursos.
*Fontes:
http://hortonworks.com/hadoop/ 3.1 Processamento É baseado no paradigma de MapReduce que distribuí tarefas entre os nós dos clusters.
*Fonte:
http://wiki.apache.org/hadoop/MapReduce 3.2 Armazenamento
*Fonte:
http://wiki.apache.org/hadoop/HDFS?action=show&redirect=DFS 3.3 Gestão de Recursos
*Fonte:
http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html http://hortonworks.com/hadoop/yarn/ 4. Quem usa?
*Fonte:
http://en.wikipedia.org/wiki/Apache_Hadoop#Prominent_users 4.1 Principais usuários 4.1.1 Yahoo! Em Fevereiro de 2008, o Yahoo! anunciou o que seria a maior aplicação Hadoop do mundo. O Yahoo! Search Webmap que é uma aplicação que é executada com um cluster Linux com mais de 10000 nós e produz dados que são utilizados pela ferramenta de buscas.
*Fontes:
http://en.wikipedia.org/wiki/Apache_Hadoop#Prominent_users 4.1.2 Facebook Em 2010, o Facebook anuncio ter o maior cluster Hadoop com 21 PB de dados armazenados. Em 27 de julho de 2011, anunciaram que havia crescido para 30 PB.
Em 2012, o montante chegava a 100 PB. E a velocidade de crescimento da base de dados seria de cerca de meio