Resumo Artigo
E. Dede, Z. Fadika, J. Hartog, M. Govindaraju, L. Ramakrishnan, D. Gunter, R. Canon
I. Visão Global O objetivo do projeto MARISSA, MApReduce Implementation for Streaming Science Applications, proposto pelos autores é apresentar um framework alternativo para Apache Hadoop Streaming[1]: utilitário que permite que o usuário crie e execute trabalhos com qualquer executável ou script, para processamento de grandes conjunto de dados, utilizando o modelo de programação MapReduce.
II. Resumo Com a evolução dos sistemas de informação e, um aumento considerável de volume de dados, que precisam ser processados por esses sistemas, a Google Inc., desenvolveu um modelo de programação paralela para processar esses grandes volumes de dados em sistemas distribuídos chamado MapReduce[2]. Desde sua criação, o MapReduce vem ganhando espaço em várias disciplinas científicas como, por exemplo, em astrofísica, astronomia, bioinformática, sistema climático, etc. Os frameworks mais conhecidos são: Apache Hadoop[1] e Apache Hadoop Streaming. Ambos os frameworks tem limitações. O Apache Hadoop só oferece suporte nativo para aplicações Java e o seu sistema de arquivos, Hadoop File System (HDFS), não é compatível com Portable Operating System Interface (POSIX)[3][4]. Enquanto o Hadoop Streaming oferece suporte a aplicações compiladas em uma variedade de linguagens como C, C++, Python e Fortran. Porém, o Hadoop Streaming é menos eficiente em termos de desempenho e menos flexível quando comparado com o Apache Hadoop. O projeto MARISSA apresenta um framework alternativo para o Hadoop Streaming e o Apache Hadoop, que seja capaz de executar não só aplicações Java, mas qualquer executável binário. Ser mais eficiente em termos de desempenho. Os três principais pilares deste framework são: A) Gerenciamento de dados. B) Sincronização / Paralelização. C) Tolerância a falhas.
III. Contribuições As contribuições