0

Mentoria: Por que o Python é uma das Linguagens de Programação Mais Relevantes do momento? - Com Jonnathans Pereira da Cognizant

#Azure #Python #Hadoop
Claudio Cuimar
Claudio Cuimar

Compartilho neste artigo alguns pontos que me chamaram a atenção nesta mentoria.

 

Python é uma linguagem de fácil aprendizado, simples, direta, multiplataformas, eficiente e tem várias bibliotecas. E segundo pesquisa do GitHub é a 3ª linguagem mais utilizada (2019) e em 2020 ela passou para o 2° lugar, ficando atrás apenas de JS (JavaScript).

 

Ela tem sido a linguagem adotada por grandes clientes da Cognizant que demandam serviços em Engenharia de Dados.

 

Principais bibliotecas que usam Python.

 

Utilizando Python para transformar dados em 
informaqöes estratégicas 
Python 
Bibliotecas mais conhecidas: 
Biblioteca Descrifäo 
Num 
Padas 
Todas de linear, imagens e de arrays 
Series e Dataframes 
MatpIotLib Vizualizasäo de dados 
Tensor Flow Machine Leaming • redes neurais (detectar padröes) e correlaqäo 
PyTorch 
Scrapy 
Machine Leaming • linguagem natural 
Web Crawling

 

 

NumPy é uma biblioteca voltada a machine learning , mas sua estrutura viabiliza a leitura de imagens, o confronto das mesmas. A imagem por si só é composta por RGB¹, sendo assim é possível atribuir valores aos quadrantes das imagens que estão sendo analisadas e portanto encontrar mais precisão. Isto é muito utilizado quando se trata do mundo de machine learning.

 

Pandas - muito usado em saneamento das informações quando elas retornam de um legado para que se possa persistir em outro. Ela pode não ser muito utilizada no mundo de engenharia e big data, pois há outra que se chama Koalas.

 

MatplotLib - não comentou nada.

 

Tensor Flow e PyTorch - são bibliotecas muito utilizadas por cientistas de dados.

 

Scrapy - nenhum comentário extra.

 

Empresas que usam Python para transformar dados em informações estratégicas: Dropbox, Netflix, Instagram, Uber, Reddit. Ou seja, elas analisam o comportamento do cliente, identificam em que grupo ele se enquadra no montante de clientes existentes e a partir deste entendimento é possível apresentar conteúdos mais precisos a cada um deles.

 

As bibliotecas mais maduras hoje no mercado usam Python, pois grandes players, como os citados acima, contribuem com uma grande massa de dados.

 

Abaixo exemplo de aplicação da biblioteca Numpy.

Utilizando Python para transformar dados em 
informações estratégicas 
Python - NumPy 
Cálculos matemáticos em arrays, modelos de machine learning e processamento de imagens. 
AI — toda forma de simular, por meio de algorítimos computacionais, a 
inteligência humana. 
ML — Algoritmo que aprende com os dados coletados. 
DL — Baseados em redes neurais artificiais semelhantes aos do cérebro 
humano para classificar informações.

 

 

A imagem abaixo mostra o mundo anterior e o atual no que se referente a dados:

O que o Mercado de Analytics Demanda? 
Tradicional 
de 
Ágil 
On Premise 
Cloud Computing

 

 

 

Ferramentas de ETL em cloud:

  • Microsoft Azure -> Azure Data Factory;
  • Google -> Google Data Flow; e,
  • Amazon -> AWS Glue.

 

Outras ferramentas para engenharia de dados com alta governança e performance.

  • Pentaho;
  • Informatica;
  • Airflow;
  • Talend;
  • IBM DataStage; e,
  • Oracle Data Integration.

 

Segundo Jonnathans Pereira é inevitável, em algum momento, que o engenheiro de dados terá que deixar de usar apenas ferramenta(s) e ir para o mundo da programação. Hoje um projeto tem início pensando-se na linguagem e no mundo de big data. Neste momento eu, Cláudio, faço um paralelo de quando fazia análises no módulo MM do SAP e o relatório não estava a contento, eu tinha que usar o Excel para fazer uma melhor análise de dados, isto me parece similar, apenas numa escala de big data.

 

Ele citou algumas linguagens para ETL: Python, Scala e Java, que são hoje as 3 mais usadas no mercado, mas também é possível encontrar em projetos: C, C++, R, Matlab, SAS, Julia etc.

 

Python juntamente com os frameworks Hadoop e Spark são usados para entregas em big data.

 

  • Hadoop: é um framework para desenvolvimento de aplicações distribuídas. Ele é hoje a principal plataforma usada no mundo big data, lembrando que as clouds como Azure, AWS e GCP também tem estruturas para big data.

 

  • Spark: é um framework para processamento de big data construído com foco em velocidade.

 

Hoje a junção mais utilizada em engenharia de dados é: Python + Spark.

 

Ele falou do skill que o Eng. De Dados precisa conhecer: arquitetura, governança, interagir com profissionais de negócios para entender e atender as suas necessidades, conhecimento multidisciplinar em relação às tecnologias, pois pode haver a necessidade de transpor um programa que está em outra linguagem para Python.

 

Perguntas e respostas:

Qual nível de conhecimento de Python para trabalhar com engenharia de dados?

Resposta: Deve-se partir do nível intermediário e utilizá-la no dia-a-dia, pois ao longo do tempo surgem recursos novos que o mantém aprimorado. Observação se a linguagem fosse Java provavelmente a curva de aprendizado seria maior.

 

Quanto o conhecimento de frameworks, como Flask a Django, é importante na carreira de engenharia de dados?

Resposta: Django é mais demandado pelo mundo da web, ele não é tão necessário e disse - rapidamente - que Flask contribui bastante.

 

Quais conhecimentos de Python e programação em geral você considera prioridade na área de engenharia de dados?

Resposta: Python é usado para baixo volumes de dados, mas para altos volumes é fundamental conhecer: Spark, saber como funciona um Hadoop. Ele voltou a reforçar que é fundamental para o Eng. De Dados conhecer bem: Python, Spark e Hadoop.

 

Pandas e Numpy são muito usados?

Resposta: Sim, são bibliotecas muito utilizadas para necessidades específicas. Ele complementou que Numpy é matemática pura.

 

Para quem já é dev e está migrando para área de dados, qual o caminho recomendado?

Resposta: A área de dados tem mundos que se complementam e você tem que analisar onde você se sente melhor e usar as linhagens que são demandadas.

 

Trabalho com ETL com Python e quero migrar para engenharia de dados, vale apena? Tem relação com as duas áreas?

Resposta: sim tem.

 

Ele recomendou o conhecimento de pelo menos uma da 3 clouds: GCP, Azure ou AWS.

Legal, pois eu estou trilhando AZ-900 (Azure) neste momento!

 

Dica de ouro no bootcamp: mente aberta quanto às ferramentas e tecnologias, pois você vai encontrar uma que você não conhece, seja autodidata e também peça ajuda quando necessário.

 

 

 

Nota:

¹ RGB é a abreviatura de um sistema de cores aditivas em que o Vermelho (Red), o Verde (Green) e o Azul (Blue) são combinados de várias formas de modo a reproduzir um largo espectro cromático. O propósito principal do sistema RGB é a reprodução de cores em dispositivos eletrônicos como monitores de TV e computador, retroprojetores, scanners e câmeras digitais, assim como na fotografia tradicional. Em contraposição, impressoras utilizam o modelo CMYK de cores subtrativas. De <https://www.bing.com/search?q=rgb&cvid=0a4ee1ebb66e4b28ba5a5c3648f85dad&aqs=edge..69i57j0l8.4480j0j1&pglt=931&FORM=ANNTA1&PC=ACTS>

  

 Termino com uma frase de Steve Jobs: “Todas as pessoas deveriam aprender a programar computadores, porque isso ensina a pensar!”.

 

0
0

Comentários (4)

0
Claudio Cuimar

Claudio Cuimar

12/10/2021 12:42

Grato pela informação Maurício.


Abç.

Cláudio

0
Mauricio Gebrim

Mauricio Gebrim

12/10/2021 01:54

Python ficou em primeiro lugar em 10/2021, segundo o ranking da Tiobe index. Superou até Java, C, JS...

0
Claudio Cuimar

Claudio Cuimar

11/10/2021 21:16

Grato Israel!


Fazer estas anotações é minha forma de estudar e que bom que compartilhando-as posso contribuir com outras pessoas.


Abç.

Cláudio

0
Israel Nascimento

Israel Nascimento

11/10/2021 21:10

Parabéns, seu artigo é muito instrutivo.

Azure Solutions Architect Em Preparação

Brasil