0

Arquitetura do data lake

Guilherme Neto
Guilherme Neto

A arquitetura do data lake é simples porque os dados podem ser estruturados, semiestruturados ou não estruturados. Além disso, eles são coletados de várias fontes dentro da organização, enquanto o data warehouse os armazena em arquivos ou pastas. É possível hospedar o data lake on-premise ou na nuvem.

A arquitetura dos data lakes permite uma escalabilidade massiva que pode chegar aos exabytes. Isso é importante porque, ao criar um data lake, é comum que você não saiba com antecedência que volume de dados será armazenado. Esse tipo de escala não é oferecido por sistemas de armazenamento tradicionais.

Essa arquitetura é perfeita para cientistas capazes de extrair e explorar dados na empresa, além de fazer o compartilhamento e a referência cruzada deles (incluindo dados heterogêneos de diferentes campos) para fazer perguntas e descobrir novos insights. Os cientistas também podem utilizar a análise de big data e o machine learning para analisar dados em um data lake. 

Embora os dados não tenham um esquema fixo antes do armazenamento em um data lake, a governança deles ainda é importante para evitar o data swamp. É preciso marcá-los com metadados antes de colocá-los nesse tipo de repositório para garantir que sejam acessíveis depois.

0
0

Comentários (1)

1
Mauricio Gebrim

Mauricio Gebrim

06/10/2021 23:23

Por isso pyton está nas trends!


https://www.tiobe.com/tiobe-index/

Passei parte de minha vida trabalhando como comerciante e tambem agricultor

Brasil