A MJV, empresa residente do Parque Tecnológico da UFRJ, vai realizar um curso virtual gratuito sobre ciência de dados, voltado exclusivamente para alunos da UFRJ e da Universidade Federal do Ceará (UFC). As inscrições vão até dia 10/01/23, e o curso começa dia 16/01/23.
A 1ª turma da Data Science School será 100% gratuita, com metodologia learn-by-doing e mentoria, além de direcionamentos para fixação de aprendizado, desenvolvimento de projeto e dicas para aplicar no seu dia a dia.
Podem participar do curso estudantes de Ciência da Computação, Matemática, Física e Engenharias, preferencialmente a partir do 3º período. As aulas contarão como horas complementares.
As inscrições podem ser feitas aqui.
O que é Data Science*?
Ciência de dados (em inglês: data science) é uma área interdisciplinar, que localiza-se em uma interface entre a estatística e a ciência da computação, que utiliza o método científico; processos, algoritmos e sistemas, para extrair conhecimento e tomar decisões a partir de dados dos diversos tipos, sendo eles ruidosos, nebulosos, estruturados ou não-estruturados. Sendo assim uma área voltada para o estudo e a análise organizada de dados científicos e mercadológicos, financeiros, sociais, geográficos, históricos, biológicos, psicológicos, dentre muitos outros. Visa, desse modo, a extração de conhecimento, detecção de padrões e/ou obtenção de insights para possíveis tomadas de decisão.
*Fonte: Wikipedia
Confira o conteúdo programático* do curso:
Data Science School by MJV
Instrutores/colaboradores e dedicação
- Samuel Morais da Silva – Instrutor: Phd pela UFC
- Felipe Augusto Guedes da Silva – Instrutor:
- Wagner Rodrigues de Sena – Colaborador:
Público-alvo, quantidade de alunos e pré-requisitos
- Alunos de Graduação e Pós-Graduação da UFRJ
- Cursos a Serem atingidos: Ciência da Computação, Matemática, Física e Engenharias. Todos os cursos a partir do 3º período (idealmente)
- Número Mínimo de Alunos: 20
- Conhecimentos básicos de programação (lógica de programação, linguagem Python e/ou R)
- Computador/Notebook com acesso a Internet
- Conta Google para acesso ao Gmail/Meet/Collaboratory/Documentos/Apresentação entre outros recursos.
Ementa
- Programação com Python no Google Collaboratory:
- Python/Colab
- Instalar/Importar Pacotes necessários para dados
- Conexão com Google Drive:
- Carregando arquivos
- Casos de uso e operações básicas (Numpy,For, while, listas X arrays, etc)
Banco de dados
- Conceitos de Bancos de Dados
- Noções de Banco de dados relacional.
- SQL.
Ferramentas de Visualização de Dados:
- Matplotlib
- Seaborn
- Plotly
Conceitos Básicos de Probabilidade e distribuições estatísticas:
- Distribuições
- Média
- Mediana
- Desvio Padrão
- Correlação, Covariância
- Teorema do limite central
Pré-processamento de dados:
- Lendo um Dataset
- Métricas de um Dataset (describe)
- Identificação de Variáveis
- Correlação entre Variáveis
- Limpeza de dados
- Detecção de outliers
- Imputação de valores faltantes
- Normalização de dados
- Transformação de dados
Introdução ao Machine Learning
- Tipos de modelos de aprendizado
- Principais Bibliotecas de ML
- Divisão dos Datasets em Treino, Teste e Validação + Vieses
- Cross-Validation
- Aprendizado Supervisionado – Regressão
- Regressão Linear
- Métricas de Verificação: R2/MAE/MSE/RMSE.
*Decision Tree
*Random Forest
- Aprendizado Supervisionado – Classificação
*KNN
- Regressão Logística
- Métricas de Verificação: Acurácia/Precisão/Recall/F1-Score/Matriz de Confusão/Curva ROC
- Decision Tree
- Random Forest
- Aprendizado Não-Supervisionado – Clusterização
- Kmeans
- Redução de Dimensão: PCA
- Hiper Parametrização
- Grid search
- Random search
Extra:
- Metodologias Ágeis em Projetos de Ciência de Dados;
- Versionamento de Código (Github, Gitlab);
- Ética+LGPD.
- Design Thinking.
- Computação em nuvem.
Projeto Prático
Aplicar os conhecimentos de ML aprendidos durante as aulas em problemas práticos, desde a leitura, interpretação e limpeza dos dados até a aplicação de um modelo de ML que se enquadre na proposta do projeto, realizando avaliações métricas para escolher o modelo que melhor resolve o problema, bem como encontrando os parâmetros ótimos para o mesmo.
- Projetos Realizados em Grupos, de acordo com a quantidade de alunos no momento do curso.
Metodologia de Avaliação
- Presença em 75% das Aulas Teóricas/Práticas.
- Participação de pelo menos 02 dias de Touchpoint.
- Entrega de Tarefas Programadas.
- Realização de Possíveis Avaliações.
- Apresentação do Projeto Final.