0

O que é data lake?

Guilherme Neto
Guilherme Neto

O data lake é um tipo de repositório que armazena conjuntos grandes e variados de dados brutos em formato nativo. Com os data lakes, você tem uma visão não refinada dos dados. Essa estratégia de gerenciamento é cada vez mais usada por empresas que querem um grande repositório holístico para armazenar dados. 

Quando dizemos que os dados são brutos, é porque eles ainda não foram processados para uma finalidade específica. Os dados em um data lake são definidos só depois de serem consultados. Os cientistas de dados podem acessar os informações brutas quando necessário por meio de modelagem preditiva ou ferramentas analíticas mais avançadas.

Todos os dados são mantidos quando você usa um data lake: nada é removido ou filtrado antes do armazenamento. Os dados podem ser analisados em breve, no futuro ou nunca. Eles também podem ser usados várias vezes para diferentes finalidades, ao contrário de quando os dados são refinados para um fim específico e o reaproveitamento é mais difícil.

O termo "data lake" ("lago de dados", em português) foi criado por James Dixon, CTO da Pentaho. É apropriado descrever esse tipo de repositório como um lago porque ele armazena um conjunto de dados em seu estado natural, como um corpo d'água que não foi filtrado ou contido. Os dados fluem de diversas fontes para o data lake e são armazenados no formato original. 

Em um data lake, os dados são transformados apenas quando são necessários para análises, por meio da aplicação de esquemas. Esse processo é chamado de "esquema para leitura" porque os dados são mantidos em estado bruto até que estejam prontos para uso. 

Com os data lakes, os usuários acessam e exploram dados da forma que quiserem, sem precisar movê-los para outro sistema. Geralmente, a coleta de insights e a geração de relatórios a partir de um data lake é ad-hoc: os usuários não precisam extrair com frequência relatórios analíticos de outra plataforma ou tipo de repositório. No entanto, os usuários podem aplicar um esquema e automatizar a cópia de um relatório, se necessário. 

Os data lakes exigem governança e manutenção contínuas para que os dados possam ser usados e acessados. Sem esse controle, há o risco deles se tornarem lixo eletrônico – inacessíveis, pesados, caros e inúteis. Os data lakes que se tornam inacessíveis para os usuários são chamados de "data swamps" ("pântanos de dados", em português).

0
0

Comentários (0)

Passei parte de minha vida trabalhando como comerciante e tambem agricultor

Brasil