mapreduce
Apache Hadoop: conceitos teóricos e práticos, evolução e novas possibilidades
Alfredo Goldman, Fabio Kon, Francisco Pereira Junior,
Ivanilton Polato, Rosangela de Fátima Pereira
Abstract
Advancements on the Internet popularity over the last decade and the increase in volume and complexity of services available on the Web led to the generation of massive amounts of data. To process these data, both performance and availability are critical factors that need to be evaluated since conventional data management mechanisms may not provide adequate support. One existing solution is the Apache
Hadoop, a framework for storage and processing data at large-scale. Hadoop offers as main tools MapReduce, responsible for distributed processing, and the Hadoop
Distributed File System (HDFS), for storing large data sets in a distributed way. Apache
Hadoop has been considered an effective tool and is currently used by large corporations such as IBM, Oracle, Facebook, and Yahoo! among others. This course will introduce the main concepts of the Apache Hadoop framework, demonstrating its features, advantages, applications, components, and a study of new trends on this tool.
Resumo
O grande avanço na popularização da Internet na última década bem como o aumento na quantidade e complexidade dos serviços oferecidos na Web levou à geração de quantidades massivas de dados. Para o processamento desses dados, desempenho e disponibilidade são fatores críticos que precisam ser avaliados, pois mecanismos convencionais de gerenciamento de dados não oferecem o suporte adequado. Uma solução proposta é o Apache Hadoop, um arcabouço para o armazenamento e processamento de dados em larga escala. O Hadoop oferece como ferramentas principais o MapReduce, responsável pelo processamento distribuído, e o Hadoop
Distributed File System (HDFS), para armazenamento de grandes conjuntos de dados, também de forma distribuída. Embora recente, o Apache Hadoop tem sido