sábado, 31 de agosto de 2019

Ciência de Dados - Fatos e Verdades da Tecnologia

Nesses anos todos que estou na área de Informática ouço muitas opiniões pessoais, que não passam disso: "opiniões pessoais". Por exemplo: "A linguagem  Java não é usada para Data Science", só que a verdade é que pode-se dizer que a linguagem não é usada pelos profissionais de Data Science, mas é fortemente usada na construção das ferramentas de Data Science, tais como, Weka, Hadoop e Pentaho.

Outra opinião: "Python está subindo muito, logo, será a linguagem mais usada no mundo", verdade o Python já atingiu a 3ª Posição no Ranking do TIOBE porém a anos fica bringando para se manter nessa posição (que foi a mais alta que conseguiu atingir) nunca chegando nem perto das linguagens Java e C que lideram o ranking. Não se iluda, Python é uma linguagem de Script, não é compilada e sim interpretada e não possui capacidade nem corpo para ser performática, porém é muito fácil de aprender, por esse motivo é usada por Cientistas de Dados, que só precisam de uma linguagem para simular seus modelos.


Outra opinião: "Bancos não relacionais estão tomando a preferência do mercado", sim os bancos não relacionais estão se tornando bem populares porém não chegam nem perto dos grandes líderes como Oracle, MySQL, MS-SQL e Postgres. O mais bem colocado no ranking do DB-Engines é o MongoDB na 5ª Posicão.

Mais uma opinião: "O Cassandra, em breve, deve dominar o mercado", bem como disse anteriormente a preferência continua com os bancos relacionais e acredito que por muitos anos veremos algo híbrido surgir, o Apache Cassandra é um excelente banco, livre e já possui uma excelente maturidade, mas para que isso aconteça terá de vencer bancos como MongoDB, Postgres ou Oracle e mostrar para que veio.

Continuando com outra opinião: "Ferramentas de Análise de Dados deveriam ser feitas somente no Excel", se estamos falando realmente de "Análise de Dados" isso envolve o processamento de muitas informações e não uma simples amostra. Além disso, não se engane, o Excel (ou o Calc - do LibreOffice) são excelentes ferramentas mas de longe conseguem se manter com grandes cargas de dados, inclusive uma boa alternativa a ambos é o Open Refine que possui filtros para limpeza dos dados.

Por favor, não interprete que estou recriminando essas pessoas ou suas opiniões, como disse no começo são "opiniões pessoais" e acredito que cada um tem direito a sua. Porém, devemos sempre saber discernir o que é verdadeiro ou não atrás dessas opiniões.

Obrigado e até a próxima
Fernando Anselmo

0 comentários:

Postar um comentário