0

Como começar na ciência de dados

Vinicius Souza
Vinicius Souza

A ciência de dados é uma área em alta no mundo da tecnologia. Cientistas de dados usam ferramentas estatísticas para medir e prever eventos relevantes para a empresa onde atuam. Com o desenvolvimento da área, houve a consolidação de ferramentas de análise e manipulação de dados.

O pandas é uma biblioteca python que permite que exploremos dados brutos em busca de hipóteses e insights. Com ela podemos aplicar medidas de estatística descritiva, filtrar os dados de acordo com uma característica e até mesmo limpar e formatar a base de dados para uma melhor utilização por modelos de machine learning.

O seaborn também é uma biblioteca python, focada em visualização de dados. Com ela podemos criar gráficos de diferentes tipos, formatar o estilo e a paleta de cores e fazer apresentações incríveis.

A seguir, um passo a passo para você iniciar na análise de dados.

Importe e organize os dados 


Para começar, importe a biblioteca pandas. Por convenção, chamamos ela de pd.

import pandas as pd

Geralmente utilizamos arquivos csv para guardar as bases de dados. Então, para abrir uma base o comando é o seguinte.

pd.read_csv(‘nome-do-arquivo.csv’)

Também precisamos salvar o arquivo em uma variável, para ficar mais fácil de usar no código. Vamos utilizar os dados de acidentes aéreos disponibilizados pelo Cenipa como exemplo.

df = pd.read_csv("http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia_2010_2020.csv", sep=';')

#Note que usamos sep para dizer ao pandas que as colunas do dataframe são separadas por ponto e virgula

Vamos dar uma primeira olhada neste Dataframe. Usamos o comando head para ver as 5 primeiras linhas:

df.head()

Depois usamos o comando describe, que retorna as estatísticas descritivas, como média, mediana e desvio padrão.

df.describe()

Este dataframe precisa de uma limpeza, porque muitos dados estão ausentes (veja na coluna de latitude os asteriscos). Mas isso fica para outro artigo.

O que podemos verificar até agora é que de 2010 a 2020 houveram 5752 acidentes aéreos no Brasil. Também que o máximo de aeronaves envolvidas foram 3.

Usando gráficos para conhecer os dados


Agora vamos usar o seaborn para observar melhor os dados. Um gráfico muito útil é o countplot. Ele conta quantas vezes um resultado aparece no dataframe e retorna uma coluna com o valor. Vejamos a classificação das ocorrências.

sns.countplot(data=df, x='ocorrencia_classificacao')

 

Agora vamos ver se muitos aviões saíram da pista

sns.countplot(data=df, x='ocorrencia_saida_pista')

 

Pelo visto, acidentes graves e saídas de pista são menos comuns. Ainda bem!

Agora vamos ver em que estados mais ocorrem acidentes. O código abaixo mostra apenas os 5 primeiros da lista.

sns.countplot(data=df, x='ocorrencia_uf', order=df['ocorrencia_uf'].value_counts().index[:5])

 

Podemos ver também a distribuição de ocorrências ao longo do tempo, usando a coluna ‘ocorrencia_dia’. No gráfico a seguir verificamos os anos com mais acidentes aéreos.

sns.countplot(data=df, x=df['ocorrencia_dia'].dt.year)

Podemos ver que em 2012 e 2013 houve um pico de ocorrências, que diminuiu e está voltando a aumentar gradualmente.

Também podemos verificar em quais horas ocorrem mais acidentes. 

sns.countplot(data=df, x=df['ocorrencia_hora'].dt.hour)

E aqui preciso fazer um alerta importante. Olhando este gráfico, você pode achar que é melhor viajar de madrugada para não correr riscos. Esta conclusão é o que chamamos de correlação. Você associa dois dados independentes e tira uma conclusão. Mas na verdade você está apenas levantando uma hipótese. Para saber se é realmente mais seguro viajar de madrugada, é preciso levar em consideração outros fatores - o número de voos, por exemplo.

Próximos passos


Este texto é só uma pincelada. Se você quiser acessar o notebook com a análise exploratória e a limpeza que fiz nestes dados, clique AQUI

Se você se interessou por ciência de dados, existe muito material disponível para você estudar. A documentação do pandas e do seaborn é muito boa, mas também existem livros e cursos - alguns gratutos.

No repositório do Pizza de Dados você encontra mais material: 

https://github.com/PizzaDeDados/datascience-pizza

 

Este artigo é parte do Desafio 21 dias na DIO. Já estou no dia 6. Para saber mais, visite o repositório:

https://github.com/VagnerBellacosa/DIO_Bootcamps/blob/main/DesafioDIOArtigos.Md



0
0

Comentários (0)

None

Brasil