0

Modelagem de dados no Hive

Maycon Batestin
Maycon Batestin

Por Hive fornecer resumos de dados, nossas tarefas se tornam menos complexas. Ele permite consultas e análises ad-hoc de grandes conjuntos de dados armazenados no HDFS do Hadoop. Ele processa os dados estruturados e semiestruturados no sistema Hadoop. O Hive é rápido, escalonável e altamente extensível. O Hive se concentra principalmente nas pessoas, que se sentem confortáveis ao escrever consultas SQL. O Hive oferece uma interface semelhante a SQL para consultas, conhecida como HiveQL ou HQL. O HiveQL converte instintivamente consultas SQL em tarefas MapReduce.

O Hive geralmente é executado em nossa estação de trabalho e converte a consulta SQL em uma sequência de tarefas para serem executadas em um cluster Hadoop. O Apache Hive organiza os dados em tabelas. Dá uma estrutura aos dados, armazenados no HDFS. Os dados no Hive são categorizados em: TABLE, PARTITIONS, BUCKETS ou CLUSTERS.

 

A tabela Hive é logicamente composta pelos dados que estão sendo armazenados. Ao criar uma tabela Hive, os metadados sobre a tabela são armazenados no Hive Metastore. Os dados da tabela são armazenados como arquivos no HDFS. Algumas das operações realizadas nas tabelas Hive são: filter, project, join, union, etc..

No Hive, as tabelas são de dois tipos:

* Internal Table: Se a tabela interna for eliminada, os metadados (Tabela Hive) e os dados serão excluídos.

* External Table: Se a tabela externa for descartada, apenas os metadados (Tabela Hive) serão excluídos. Portanto, no HDFS, o diretório de back-end da tabela está disponível com seus arquivos de dados.

Já sobre PARTITIONS, o Apache Hive organiza uma tabela em partições sistemáticas e categoriza o mesmo tipo de dados em conjunto com base em uma coluna ou chave de partição. A Tabela Hive pode ter uma ou mais chaves de partição para determinar uma partição específica. Partições, tornam as consultas mais rápidas em partes dos dados.

E finalizando, sobre os buckets. As tabelas do Hive são categorizadas em partições. As partições são subcategorizadas em depósitos (clusters) com base na função hash de uma coluna da tabela. Ele fornece uma estrutura adicional aos dados, o que ajuda a executar uma consulta de maneira eficaz.


0
0

Comentários (0)

None

Brasil