Olympus
Banco de Dados HIVE
Robson F. Oliveira
Marcelo Araujo
BI - 22
Sumário
1. Introdução ao Apache Hive. 2
2. Arquitetura Hive. 3
3. O que o Hive não é. 4
4. Unidades de Dados. 4
5. Tipos primitivos. 6
6. Tipos de complexos 7
7. Linguagem de definição de dados. 8
8. Linguagem de manipulação de dados. 8
9. Conclusão: 9
1. Introdução ao Apache Hive.
O Apache HiveTM é um software para analise de grandes conjuntos de dados armazenados no HDFS(Hadoop Distribuited File System) e arquivos compatíveis de sistemas Hadoop como o Amazon S3, que é um sistema de arquivos. O Hive facilita a consulta e gerenciamento de dados que residem em armazenamento distribuído.
Construído com base na plataforma Apache HadoopTM, fornece ferramentas para permitir a extração de dados fácil extrair / transformar / carga (ETL), possui mecanismos para impor uma estrutura sobre uma variedade de formatos de dados, acesso aos arquivos armazenados ou diretamente no Apache HDFSTM ou em outros sistemas de armazenamento de dados, tais como Apache HBaseTM, também possibilita a execução de consultas via MapReduce. O Hive define uma linguagem simples SQL-like para consultas, chamado QL, que permite os usuários familiarizados com SQL para consultar os dados, possibilitando a sumarização, consultas ad-hoc e análise de grandes volumes de dados. Ao mesmo tempo, esta linguagem também permite que os programadores que estão familiarizados com o MapReduce, tenham a capacidade de ligar os seus mapeadores e redutores personalizados para realizar uma análise mais sofisticada, que não pode ser suportado pelos recursos internos da língua. QL também pode ser estendido com funções escalares, agregações , e funções de tabela.
Os Componentes do Hive incluem HCatalog e WebHCat. HCatalog é um componente do Hive. É uma camada de gerenciamento de mesa e de armazenamento para Hadoop que permite aos usuários com