0

O que é Big Data?

Edson Gallo
Edson Gallo

Big Data refere-se a um grande volume de dados, que não podem ser armazenados e processados ​​usando a abordagem de computação tradicional em um determinado período de tempo.



Mas quão grandes esses dados precisam ser? Para ser denominado como Big Data?


Há muitos equívocos em torno da quantidade de dados que pode ser chamada de Big Data.


Normalmente, os dados que estão em gigabytes, terabytes, petabytes, exabytes ou qualquer coisa maior do que esse tamanho são considerados Big Data.

É aqui que surge o equívoco.

Mesmo uma pequena quantidade de dados pode ser chamada de Big Data, dependendo do contexto em que está sendo usado.

Para obter mais clareza sobre isso, deixe-me usar alguns exemplos e explicar para você.



Por exemplo, se tentarmos anexar um documento de 100 megabytes a um e-mail, não poderemos fazer isso. Como o sistema de e-mail não suportaria um anexo desse tamanho.

Portanto, esses 100 megabytes de anexo em relação ao e-mail podem ser chamados de Big Data.

Deixe-me dar outro exemplo e explicar para que você entenda melhor o termo Big Data.

Digamos que temos cerca de 10 terabytes de arquivos de imagem, sobre os quais é necessário fazer certo processamento.

Por exemplo, digamos que queremos redimensionar e aprimorar essas imagens em um determinado período. Se fizermos uso de um computador desktop para realizar esta tarefa. Não seríamos capazes de realizar essa tarefa dentro do prazo determinado. Pois os recursos de computação de um computador desktop não seriam suficientes para realizar esta tarefa. Você pode precisar de um servidor poderoso com recursos de computação de ponta para realizar essa tarefa no prazo.

Portanto, esses 10 terabytes de arquivos de imagem podem ser chamados de Big Data no que diz respeito ao processamento em um computador desktop.

Espero que agora esteja completamente claro para você o que queremos dizer com Big Data.



Como Big Data é classificado?


Big Data é classificado em 3 categorias diferentes.


  1. Dados Estruturados
  2. Dados Semiestruturados
  3. Dados Não Estruturados



Os dados estruturados referem-se aos dados que possuem uma estrutura adequada associada a eles. Por exemplo, os dados que estão presentes nos bancos de dados, nos arquivos CSV e nas planilhas do Excel podem ser chamados de Dados Estruturados.


Dados semiestruturados referem-se aos dados que não possuem uma estrutura adequada associada a eles. Por exemplo, os dados que estão presentes nos e-mails, nos arquivos de log e nos documentos do word podem ser chamados de dados semiestruturados.


Dados não estruturados referem-se aos dados que não possuem nenhuma estrutura associada a eles. Por exemplo, os arquivos de imagem, os arquivos de áudio e os arquivos de vídeo podem ser chamados de dados não estruturados.

É assim que Big Data é classificado em diferentes categorias.



Características do Big Data


Big Data é categorizado por 3 características importantes.


  1. Volume
  2. Velocidade
  3. Variedade



O volume se refere à quantidade de dados que está sendo gerada.


Velocidade se refere à velocidade na qual os dados são gerados.


Variedade se refere aos diferentes tipos de dados que são gerados.


Estas são as 3 características importantes do Big Data.



Abordagem tradicional de armazenamento e processamento de Big Data


Em uma abordagem tradicional, geralmente os dados que estão sendo gerados fora das organizações, como bancos ou bolsas de valores ou hospitais, são fornecidos como uma entrada para um sistema ETL (Extract, Transform and Load).


Um sistema ETL extrairia esses dados, transformaria esses dados (ou seja, iria converter esses dados no formato adequado) e, finalmente, carregaria esses dados no banco de dados.

Assim que esse processo for concluído, os usuários finais poderão realizar várias operações, como gerar relatórios e realizar análises por meio da consulta desses dados.

Mas, à medida que esses dados aumentam, torna-se uma tarefa desafiadora gerenciar e processar esses dados usando essa abordagem tradicional.

Esse é um dos motivos para não usar a abordagem tradicional de armazenamento e processamento de Big Data.



Agora, vamos tentar entender algumas das principais desvantagens associadas ao uso da abordagem tradicional para armazenamento e processamento de Big Data.


A primeira desvantagem é que é um sistema caro e requer muito investimento para implementação ou atualização do sistema, portanto, pequenas e médias empresas não teriam condições de pagar por isso.


A segunda desvantagem é a escalabilidade. À medida que os dados crescem, a expansão desse sistema seria uma tarefa desafiadora.

E a última desvantagem é que é demorado. Leva muito tempo para processar e extrair informações valiosas desses dados, pois são projetados e construídos com base em sistemas de computação legados.

Espero que isso deixe claro porque a abordagem tradicional ou os sistemas de computação legados não são usados ​​para armazenar e processar Big Data.



Desafios associados ao Big Data


Existem 2 desafios principais associados ao Big Data.


O primeiro desafio é: como armazenamos e gerenciamos um volume tão grande de dados de maneira eficiente?

E o segundo desafio é: como processamos e extraímos informações valiosas de um volume tão grande de dados em um determinado período de tempo?

Esses são os 2 principais desafios associados ao armazenamento e processamento de Big Data, que levaram à criação da estrutura Hadoop.



O embrulho


Fiz o meu melhor para explicar os conceitos que envolvem Big Data da maneira mais simples que posso.


Big Data e tecnologias relacionadas, como Hadoop, HBase e outras, vieram para ficar, contanto que os dados existam e continuem crescendo.

Investir tempo e dinheiro no aprendizado de Big Data seria a decisão certa, pois é muito promissor e tem uma perspectiva de carreira muito brilhante.


O artigo original foi escrito por Shahzan (https://medium.com/swlh/big-data-explained-38656c70d15d). Achei um ótimo resumo do que é Big Data e espero que possa ajudar quem está querendo trabalhar nesse ecossistema.


0
0

Comentários (0)

Tecnólogo em PD pela Universidade Presbiteriana Mackenzie, com Especialização em Gestão de Projetos pela USP.

Brasil