Análise de Dados Baseada na Arquitetura de Cluster do Google
Universidade Federal do Ceará (UFC)
Caixa Postal 15.064 – 91.501-970 – Ceará – CE – Brazil crislanio.ufc@gmail.com,jeandro@ufc.br Resumo
Diante da grande demanda de buscas feitas por usuários da internet, o Google utiliza um extensivo uso de paralelização, tais consultas são feitas em diferentes processadores, dividindo o índice de busca, também permitindo que uma única consulta seja executada por múltiplos processadores. Para lidar com esta carga de trabalho, a arquitetura do Google é implementada com clusters de mais de 15.000 PCs simples com software tolerante a falhas. Essa arquitetura atinge performance superior por uma fração do custo de um sistema com menos servidores de alto padrão, porém mais caros.
Palavras-chave: Google. Cluster. Dados.
Abstract
Given the great demand of searches done by Internet users, Google uses an extensive use of parallelization, such queries are made on different processors, dividing the search index, also allowing a single query to be executed by multiple processors.To handle this workload, Google's architecture features clusters of more than 15,000 commodity class PCs with fault-tolerant software. This architecture achieves superior performance at a fraction of the cost of a system built from fewer, but more expensive, high-end servers.
Keywords : Google. Cluster. Data.
Este trabalho apresenta uma amostra geral da arquitetura utilizada pelo Google (clusters de Pc's simples), relacionando aspectos de custos, desempenho entre outros com o intuito de analisar os dados por meio de inferência, descrição dos dados.
Um dos pontos chaves do Google e fazer com que a inter-relação de dados de pesquisa seja feita de forma eficiente, os métodos de busca correspondam e atendam de forma eficiente os usuários. Diante desses aspectos o buscador perfeito seria, parafraseando Larry Page (presidente do site de busca