7  CD: Projetos

8 Introdução

8.1 Organização de um Script

Nas aulas passadas, vocês aprenderam as etapas de um projeto de ciência de dados:

Mas como nós organizamos essas etapas na prática? Normalmente nas seguintes seções:

  • Introdução:
    • Descrição do problema.
    • Descrição dos dados (fontes, questões técnicas, etc.).
    • Setup do código (importar módulos, definir funções, etc.).
  • Importar e arrumar:
    • Importar os dados [importar].
    • Transformá-los em um dataframe, especificamente um dataframe tidy [arrumar].
    • Lidar com NAs [arrumar].
  • Pré-processamento dos daods:
    • Analisar cada variável, seu tipo, valores NA/NaN, e mais:
      • Variáveis categóricas – categorias, distribuição [visualizar]..
      • Variáveis numéricas – range, distribuição [vis.].
    • Corrigir problemas observados [transformar].
  • Análise exploratória:
    • Explorar a relação entre as variáveis, especialmente entre os x’s e os y’s.
    • Y binário: distribuição condicional em cada x [vis.].
    • Y contínuo: distribuição conjunta em cada x [vis.].
    • Conseguir insights sobre o problema e transformar/criar variáveis para a modelagem [trans.].
  • Modelagem:
    • Dividir base em treino e teste, balancear os dados [trans.].
    • Definir os modelos e aplicá-los. Variar os hiperparâmetros [modelar].
    • Visualizar os resultados [vis.].
    • Adquirir insights, transformar os dados de acordo, e remodelar [trans.] [modelar].
  • Comunicar:
    • Gerar uma visualização final com os pontos principais do processo e principais resultados [vis.].
    • Comunicar os resultados [comunicar].

Note como a circularidade no organograma fica evidente.

Na aula de hoje, iremos juntar tudo que vocês aprenderam nas aulas passadas, aplicando os conhecimentos em um exemplo concreto, seguindo o workflow acima.

Essa é a aula mais importante para o trabalho final, então prestem extra atenção.

8.2 Big Picture

Como visto na aula passada, ao abordar um problema de ciência de dados, precisamos:

  1. Estudar a teoria por trás, “como pode ser o PGD?”
  2. Olhar agnosticamente para os dados, e repensar 1.
  3. Como escolher uma família de modelos: O que parece fazer mais sentido? O que se adapta melhor aos dados disponíveis? O que gera os ‘melhores’ resultados?
  4. Como escolher um hyperparâmetro? Da mesma forma que escolhemos a “família de modelos”
  5. Meter bronca no ciclo visualizar – transformar – modelar
  • Semi-independente de tudo isso, fazer o data wrangle

8.3 Exemplo de Script

Este exemplo será um projeto completo, portanto está em um arquivo separado.

Recapitulando

8.4 Extras