0

O case do Titanic (construído e explicado)

Leonardo Diniz
Leonardo Diniz

Boa a noite a todos.

Aproveitei a excelente aula de introdução à ciência de dados para reproduzir o case do Titanic no meu Github, com algumas features e explicações a mais.


O resultado final dos cálculos realizados em Python podem ser vistos na webpage: https://leoalmdiniz.github.io/caseTitanic/


E o código completo, reproduzido e com a adição de gráficos e tabelas pode ser obtido no meu GitHub, no repositório: https://github.com/LeoAlmDiniz/caseTitanic


No exercício que fizemos, são 891 passageiros, 70% deles foram escolhidos para treinar o algorítimo e 30% são usados como conjunto de validação (verificam em que medida a decisão do algorítimo treinada é correta). Foi possível concluir que, da maneira como treinamos o algorítimo na aula, ele teve um erro médio em 30% das decisões tomada no conjunto de validação (isto é, 70% de acerto). Na Figura 1, mostrei a "probabilidade de sobrevivência" enxergada pelas árvores para cada passageiro separada em dois gráficos: aqueles que realmente morrem (à esquerda) e aqueles que realmente sobrevivem (à direita). Perceba como as árvores realmente enxerga uma concentração maior de probabilidade de sobrevivência nos passageiros do gráfico à direita. O gráfico também separa por cor os passageiros que foram utilizados como conjunto de treino daqueles que foram utilizados como conjunto de teste. Outros gráficos e tabelas podem ser vistos no site.




Este problema trata do uso de um algorítimo de Machine Learning conhecido como RandomForest. O código constrói uma multitude de árvores de decisão, e como é o caso do exercício, para tarefas de decisão (Passageiro morreu ou não morreu?), o algorítimo seleciona a decisão escolhida pela maioria (>50% das árvores). O procedimento é feito através do treinamento da decisão das árvores baseado em um "training set", que usa dados dos passageiros para decidir se ele morre ou não, e compara essa decisão com a decisão real vista no training set. Através de uma regressão dos dados (backpropagation), a árvore finalmente seleciona um conjunto de decisões ótimas baseadas nos dados de entrada. Entre outros dados, a decisão é tomada com base na idade, sexo, e classe de embarque do passageiro.

0
0

Comentários (1)

0
O

Oberdan Rocha

18/06/2021 21:24

Boa explicação conjunta de todos os relatos.

PhD em Engenharia Química

Brasil