Luís Ferreira
Data Scientist @ Centro de Computação Gráfica

Entrevista

Luís Ferreira é Data Scientist no Centro de Computação Gráfica e será o tutor do Bootcamp de Python na EDIT. Porto

As empresas só conseguirão criar valor para si próprias quando capacitadas de profissionais especialistas em análise de dados, capazes de contribuir para o processo contínuo de conversão de dados brutos em valor.


Conta-nos um pouco sobre o teu percurso académico e profissional, e o que te levou a enveredar por esta área e profissão?

Em termos académicos, o meu percurso está ligado à Universidade do Minho (UM), nomeadamente ao Departamento de Sistemas de Informação. Depois de ter terminado a licenciatura e mestrado nesta área, estou neste momento a frequentar o Doutoramento em Tecnologias e Sistemas de Informação, numprojeto com grande foco nas áreas de Data Science e Machine Learning.

No âmbito profissional, trabalho como Data Scientist no Centro de Computação Gráfica (CCG), um centro de investigação que se localiza dentro do campus de Azurém da UM. Neste trabalho tenho a possibilidade de interligar conhecimento de investigação e aplicá-lo nos projetos que temos no CCG, maioritariamente servindo estes de elo entre a academia e a indústria.

Adicionalmente, sou docente convidado da UM, onde ensino linguagens de programação como R e Python.

A escolha para me dedicar a esta área foi surgindo naturalmente ao longo do curso quando comecei a perceber todas as potencialidades da área de Data Science, bem como pelo facto de incluir inúmeras oportunidades de investigação, algo que considero importante.


Como é o teu dia a dia de trabalho? Tens algum tipo de rotina?

 

O dia de trabalho vai depender em grande parte do estado do projeto (ou projetos) em que me encontro a trabalhar. Se este se encontrar numa fase mais inicial, estarei mais focado em tentar perceber os desafios do projeto, a estudar abordagens possíveis para o solucionar e procurar soluções tecnológicas que já tenham sido usadas em problemas semelhantes. Numa fase mais intermédia, estarei a dar uma grande importância à análise dos dados, a garantir que estes se encontram tratados de forma a poderem ser utilizados da melhor forma nos modelos preditivos. Caso o projeto se encontre numa fase final, estarei dedicado a documentar o desenvolvimento do projeto e a garantir que os resultados (tipicamente modelos preditivos) serão entregues ao cliente no formato adequado. O trabalho nos projetos é também interligado com atividades internas dentro da equipa de Data Science, que poderão incluir o estudo de novas tecnologias ou conceitos relacionados com Data Science, a exposição de resultados aos membros de equipa ou a simples partilha de conhecimento.


Quais são os maiores desafios para um Data Scientist?

Esta talvez seja a resposta mais fácil de todas, até por estar logo no nome do cargo: o grande desafio está nos dados. Por vezes, o maior desafio está no acesso aos dados, sobretudo em casos onde é difícil obter registos históricos relacionados com um determinado problema de negócio ou estes se comprovem insuficientes. Noutros casos, embora haja um volume considerável, a qualidade dos mesmos deixa a desejar, por não possuir informação analítica útil.

O segundo grande desafio, na minha ótica, está ligado ao conhecimento do negócio. Sendo um cientista de dados uma pessoa intimamente ligada aos dados, será também necessário possuir conhecimento da área de negócio onde os vai aplicar, pois muitas vezes a informação a extrair ou a processar vai depender do conhecimento concreto dos processos de uma determinada indústria ou atividade.


Porque devem as empresas, na tua ótica, apostar em profissionais
especializados em análise de dados? Qual a importância desta área hoje em dia, e no futuro?

Já desde há vários anos se tem dito que os dados são o novo petróleo. Esta ideia implica que, tal como o petróleo, os dados em bruto não têm valor per se.

Pelo contrário, esse valor só existirá quando os dados em bruto são tratados e processados de forma adequada e num timing apropriado, tal como a transformação do petróleo bruto em combustível. Por esta mesma razão, as empresas só conseguirão criar valor para si próprias quando capacitadas de profissionais especialistas em análise de dados, capazes de contribuir para esse processo contínuo de conversão de dados brutos em valor.

Se fizermos uma tentativa de adivinhação do futuro, será fácil de chegar à conclusão que cada vez mais teremos acesso a dados históricos de variadíssimas formas e que a tendência é para esta digitalização da informação continuar a aumentar. Por isso mesmo, se a análise de dados é importante hoje em dia, no futuro sê-lo-á ainda mais.


Para serem bem sucedidos e conseguirem destacar-se no mercado,
que skills e know-how devem ter estes profissionais, na tua opinião?

Certamente cada profissional de Data Science terá uma opinião distinta, mas julgo que há algumas skills que podem ser destacadas como indispensáveis para trabalhar nesta área, como: matemática e estatística, linguagens de programação, análise de dados, conhecimento teórico e prático de modelos preditivos (ex: regressão linear) e visualização de dados. Embora seja uma área técnica, acredito também que há certas soft-skills muito importantes para profissionais da área, tais como: a capacidade para comunicar ideias e

resultados, criatividade, capacidade de aprendizagem e pensamento crítico.


Consideras o Python a ferramenta mais utilizada na área de Data Science? Qual é a tua opinião em relação a este software?

Muitos estudos recentes têm apontado a linguagem Python como uma das mais utilizadas (e muitas vezes, a mais utilizada) na área das Tecnologias de Informação, sobretudo quando se lida com dados. Pessoalmente acho que essa escolha pode ser justificada com vários fatores. Em primeiro lugar, considero o Python uma linguagem relativamente fácil de aprender e de usar, quando comparada com outras linguagens onde a curva de aprendizagem é mais complexa. Segundo, por ser uma linguagem expressiva, significa que por norma requer menos linhas de código, o que pode facilitar a legibilidade e compreensão do mesmo. Em terceiro lugar, por ser uma linguagem open-source e disponível nos principais sistemas operativos (Windows, Linux, Unix).

Por último, é uma linguagem com uma comunidade muito ativa, o que faz com que haja um número quase infinito de bibliotecas feitas por outros utilizadores disponível para serem usadas por qualquer um.


Qual a importância da utilização do software de Python no dia-a-dia de um Data Scientist?

Sendo o Python, como já foi referido anteriormente, uma das linguagens de programação mais usadas na área de Data Science, uma grande parte dos profissionais da área usam-na permanentemente no seu dia-a-dia. Seja para analisar dados, transformá-los, visualizá-los ou gerar modelos preditivos, são inúmeras as bibliotecas disponíveis em Python para executar estas tarefas intimamente ligadas com o trabalho de um Data Scientist.


Que conselhos darias a quem tivesse como objetivo entrar neste
mercado, atualmente?

Embora eu acredite que não há uma receita que se possa aplicar a todos os casos, consigo destacar algumas etapas que podem ser importantes para quem tenha como objetivo entrar no mercado de Data Science. Se eu estivesse a iniciar-me em Data Science, começaria por tentar perceber bem qual é o objetivo desta área e o que é que a distingue de outras semelhantes na área dos dados. Posteriormente, tentaria familiarizar-me com uma linguagem de programação ligada à área (ex: Python ou R), por exemplo, participando no novo Bootcamp Python da EDIT. Depois, tentaria desenvolver as skills de análise, manipulação e visualização de dados. De seguida, começar a explorar conceitos relacionados com a área de Machine Learning, sobretudo ligados aos modelos preditivos. Perceber todas estas facetas da área de Data Science já seria uma boa porta de entrar para este mercado, embora se requeira aos profissionais da área a capacidade para continuar a aprender e a praticar.


Serás tutor do novo curso intensivo de Bootcamp Python na EDIT. Porto. Quais são as expectativas? De que forma planeias lecionar as tuas aulas?

As expectativas dificilmente podiam ser mais altas, pois, embora eu já tenha alguma experiência a lecionar programação, inclusive a linguagem Python, a minha experiência é sempre em unidades curriculares onde não há tempo suficiente para sair da análise superficial da linguagem de programação, algo que será possível no Bootcamp Python da EDIT. Será possível olhar para vários aspetos desta linguagem de programação, começando pela sintaxe mais básica e depois explorando os seus diversos componentes, como estruturas de decisão e de dados, funções, ficheiros e as boas práticas de programação.

Em relação às aulas do Bootcamp, estas serão estruturadas para serem o mais interativas possível, onde o esperado é que os alunos consigam aprender ao interagir com a própria linguagem, num misto entre exposição de conceitos através de código, resolução de atividades práticas e de um projeto no final do Bootcamp para consolidar todos os conceitos aprendidos.



Partilhar:

    Fale conosco

    Interesses

      Subscrever Newsletter

      Interesses