7 CD: Projetos
8 Introdução
8.1 Organização de um Script
Nas aulas passadas, vocês aprenderam as etapas de um projeto de ciência de dados:
Mas como nós organizamos essas etapas na prática? Normalmente nas seguintes seções:
- Introdução:
- Descrição do problema.
- Descrição dos dados (fontes, questões técnicas, etc.).
- Setup do código (importar módulos, definir funções, etc.).
- Importar e arrumar:
- Importar os dados [importar].
- Transformá-los em um dataframe, especificamente um dataframe tidy [arrumar].
- Lidar com NAs [arrumar].
- Pré-processamento dos daods:
- Analisar cada variável, seu tipo, valores NA/NaN, e mais:
- Variáveis categóricas – categorias, distribuição [visualizar]..
- Variáveis numéricas – range, distribuição [vis.].
- Corrigir problemas observados [transformar].
- Analisar cada variável, seu tipo, valores NA/NaN, e mais:
- Análise exploratória:
- Explorar a relação entre as variáveis, especialmente entre os x’s e os y’s.
- Y binário: distribuição condicional em cada x [vis.].
- Y contínuo: distribuição conjunta em cada x [vis.].
- Conseguir insights sobre o problema e transformar/criar variáveis para a modelagem [trans.].
- Modelagem:
- Dividir base em treino e teste, balancear os dados [trans.].
- Definir os modelos e aplicá-los. Variar os hiperparâmetros [modelar].
- Visualizar os resultados [vis.].
- Adquirir insights, transformar os dados de acordo, e remodelar [trans.] [modelar].
- Comunicar:
- Gerar uma visualização final com os pontos principais do processo e principais resultados [vis.].
- Comunicar os resultados [comunicar].
Note como a circularidade no organograma fica evidente.
Na aula de hoje, iremos juntar tudo que vocês aprenderam nas aulas passadas, aplicando os conhecimentos em um exemplo concreto, seguindo o workflow acima.
Essa é a aula mais importante para o trabalho final, então prestem extra atenção.
8.2 Big Picture
Como visto na aula passada, ao abordar um problema de ciência de dados, precisamos:
- Estudar a teoria por trás, “como pode ser o PGD?”
- Olhar agnosticamente para os dados, e repensar 1.
- Como escolher uma família de modelos: O que parece fazer mais sentido? O que se adapta melhor aos dados disponíveis? O que gera os ‘melhores’ resultados?
- Como escolher um hyperparâmetro? Da mesma forma que escolhemos a “família de modelos”
- Meter bronca no ciclo visualizar – transformar – modelar
- Semi-independente de tudo isso, fazer o data wrangle
8.3 Exemplo de Script
Este exemplo será um projeto completo, portanto está em um arquivo separado.