quarta-feira, 7 de agosto de 2019

Ciência de Dados - Pacote Inicial

Vamos começar uma nova trilha aqui no blog com o foco totalmente voltado para Ciência de Dados, bom se viveu em Marte nos últimos 4 anos provavelmente não deve ter ouvido nada sobre o que é Ciência de Dados, Big Data, Aprendizado de Máquina, Deep Learning, Internet das Coisas, Estatística Aplicada e Análise Aplicada. Caso contrário notou que esses temas abarrotam a média escrita, falada e solidificada (como diria Odorico Paraguassú).

Por Onde Começo?

Essa é a principal pergunta que todos me fazem, Neste caso mostrarei o ferramental básico para se usar o Aprendizado de Máquina (Machine Learning) com Python. Consideremos o Python 3.6 que é o mais utilizado então já vai de pré-requisito, porém existem outras bibliotecas para se intalar. Considere que o software principal é o Anaconda, que além de empacotar tudo de uma maneira muito funcional, ainda tem um painel de controle para instalações de outras bibliotecas: https://www.anaconda.com/download/.

Se desejar uma IDE (além do Jupyter que já vem com o Anaconda), atualmente usa-se muito o Visual Studio Code, recomendo: https://code.visualstudio.com/. Não sabe Python? Siga o tutorial básico desse site: https://www.tutorialspoint.com/python/index.htm.

Algumas bibliotecas podem ser adicionadas de acordo com a necessidade. Lembrando que é sempre preferível verificar se a biblioteca já não está disponível no Anaconda, para evitar maiores dores de cabeça. As básicas e já instaladas são:
Essas são as básicas e não é apenas necessário conhecê-las deve-se comê-las com farinha (ou açaí), temos mais três softwares para formar um bom conjunto:

Para quem pretende lidar com Redes Neurais e Deep Learning, existem quatro grandes frameworks: TensorFlow, Keras, PyTorch e Theano. Mas antes é bom ler um material introdutório sobre Redes Neurais. Na disciplina de Psicologia Conexionista e Psicobiologia do professor Antônio Carlos Roque: http://sisne.org/Disciplinas/PosGrad/PsicoConex/. Deseja entender como essas redes funcionam através uma explicação visual? Enão visite o "parquinho" do TensorFlow em: http://playground.tensorflow.org.

Depois de ler agora é hora de instalar o TensorFlow. A instalação é um pouco enjoada, então todo cuidado é pouco. Siga os seguintes passos:
  • Instalar o CUDA Toolkit, e cheque se as variáveis do sistema estão corretas (cheque mesmo, existe chances de não terem sido colocadas corretamente pela instalação)
  • Instalar os drivers do CUDA Toolkit
  • Instalar o cuDNN
  • Instalar o TensorFlow, versão CPU ou GPU (de preferência tenha só uma instalação)

É sempre recomendável seguir o passo-a-passo do próprio TensorFlow. Até o link do Stack Overflow dos erros mais comuns tem lá: https://www.tensorflow.org/install/. Ou use o Docker que é bem mais tranquilo. Veja mais em https://www.tensorflow.org/install/docker.

Instalou? Testou? Rodou? Agora não sabe pode onde começar? O próprio TensorFlow tem bons tutoriais para começar a lidar com ele. Recomendo dois tutoriais:

Quer mais tutoriais? Tem também: https://www.tensorflow.org/tutorials/. Nos tutoriais isso fica claro: aprenda a usar o TensorBoard, gerenciador e visualizador das redes neurais do TensorFlow. Até salvar o estado atual da rede para recarregar depois é possível: https://www.tensorflow.org/learn ou quer sentir alguns exemplos na prática? Visite o GitHub do Imanol Schlag em
http://ischlag.github.io e clone alguns projetos. Outras opções?


Achou uma base que deseja trabalhar? Quer sabe como o pessoal anda resolvendo um determinado problema? Então prepare-se para ler artigos, prepare-se para ler MUITOS ARTIGOS e que provavelmente estarão postados aqui: https://arxiv.org/.

Não gosta de ler é prefere vídeos? Vamos a eles, ficou com alguma dúvida em relação a como alguma rede funciona? Provável que o Siraj Raval já tenha explicado: https://www.youtube.com/channel/UCWN3xxRkmTPmbKwht9FuE5A. Quer alguma inspiração de que problema atacar? Deseja saber o que está sendo feito academicamente e comercialmente na atualidade da área? O canal do Deep Learning Brasil, produziu uma playlist com aulas do curso de Deep Learning, com listas de exercícios e até arquiteturas avançadas já implementadas: https://www.youtube.com/channel/UCWg0CObS-JnEtjW69eGh89A. Por fim, na UFG temos a matéria Redes Neurais Profundas, incluídas semestralmente na pós-graduação do Instituto de Informática, onde você pode acompanhar tanto presencialmente quanto remotamente, pois todas as aulas são gravadas. Acompanhe o cronograma da próxima turma pelo site: http://www.inf.ufg.br/mestrado/

Deseja mais alguns sites confiáveis para explicações sobre qualquer problema, O'Reilly Media (https://www.oreilly.com/) e o Medium (https://medium.com/). Não gostou dessa lista e quer um curso próprio para a área? Tem lista disso também:

Esse é apenas uma recomendação básica para ferramentas iniciais na área (existem muitas dessas listas por aí). Usando isso você poderá dar o pontapé inicial e começar a experimentar o que Ciência de Dados pode trazer de novidade.

Obrigado e até a próxima
Fernando Anselmo

Um comentário: