Vista como a profissão mais sexy do século XXI, a ciência de dados (data science) emergiu como uma das profissões mais procuradas nos últimos anos – atingindo uma popularidade exacerbada normalmente associada apenas a celebridades. Empresas por todo o mundo oferecem salários lucrativos, prestígio e o privilégio de terem influência para atraírem talento analítico. Por detrás de toda a fama, está uma crescente importância dos dados digitais que estão a alterar atualmente a forma como vivemos e trabalhamos.
Não é surpresa que cada vez mais entusiastas queiram desbravar esta nova área. Mas antes de se aventurarem na ciência e análise de dados de olhos fechados, os aspirantes devem primeiro informar-se sobre os caminhos disponíveis. Os candidatos interessados são encorajados a começar o seu caminho identificando os requisitos e pontos de entrada, aprendendo mais sobre como os diversos subcampos de dados diferem entre si e como o seus CVs devem ser polidos antes de responderem a anúncios de emprego.
Seguindo esta linha de pensamento, levanta-se sempre naturalmente uma questão: O que distingue exatamente o título de Cientista de dados (Data scientist) e de Analista de dados (Data analyst)? Afinal de contas, ambas as profissões parecem estar ligadas à extração de valor de negócio a partir de dados. O leitor esclarecido já saberá, provavelmente, que a partilha de semelhanças não significa implicitamente permutabilidade. Uma pode complementar a outra, uma vez que ambas trabalham em uníssono para a obtenção de um objetivo comum. Muitos fenómenos na natureza partilham semelhanças em algumas áreas e diferem totalmente noutras.
O objetivo deste artigo é encontrar uma resposta à questão da diferença. Não apenas na perspetiva teórica, mas também a partir da lente de Mohamed Warsame, um especialista experiente e instrutor de Dados que tem visto como as equipas de dados trabalham no mundo real.
A função de Data analyst típica é centrada em consultoria como é possível observar no exemplo do anúncio da Indeed.
Os principais requisitos, na sua maioria, são:
O último ponto ilustra porque os relatórios de rotina com ferramentas de visualização como a Tableau são tão cruciais como as tabelas dinâmicas. A modelação de dados, por outro lado, está frequentemente limitada à aprendizagem básica supervisionada ou ao seu equivalente estatístico: a análise de regressão.
Da minha experiência, posso também afirmar que os profissionais inexperientes esquecem, por vezes, que o fornecimento de recomendações é, invariavelmente, o mais importante. Podem perder-se em chavões e técnicas modernas distantes do contexto empresarial. É por isso de extrema importância que um Data analyst aprenda a retirar conhecimentos que possam ser utilizados e apresentados tanto num formato visualmente convincente como assimilável. Um Data analyst é um relator de investigação experiente em tecnologia que torna acessível o conhecimento.
Num outro exemplo semelhante para a função típica de Data scientist da Indeed, exploraremos algumas das diferenças-chave. Logo a que mais salta à vista é o tamanho das seções “competências obrigatórias” e responsabilidades da função. Sem dúvida, muito mais é exigido do Data scientist mediano do que do Data analyst, o que explica, em parte, porque o primeiro tem um salário melhor do que o segundo. Mas existirá alguma verdade por detrás da popularidade exacerbada ou a ciência de dados é meramente um mito moderno?
Para ser justo, espera-se, por essa razão, que os Data scientist sejam mais do que feiticeiros analíticos (têm de ter, por isso, competências mais analíticas!). É susposto estes profissionais serem construtores que utilizam programação avançada para criar canais que prevêem e recomendam em ambientes de produção com quase precisão exata, graças aos modelos preditivos. Comparado ao Data analyst, que é como um relator de investigação, um Data scientist é mais orientado para o desenvolvimento do produto do que para consultoria. Todavia, também é requerido a um Data scientist que forneça consultoria comercial orientada para os dados.
Alguns defendem que o título foi criado para demonstrar que a função é uma confluência de três áreas: conhecimento matemático e estatístico, ciência computacional e competências especializadas. E a seguinte citação é considerada a que melhor as sintetiza: “Um Data scientist é aquele que é melhor na estatística do que qualquer engenheiro de software e melhor em engenharia de software que qualquer estatístico”.
Grandes volumes de dados significam não só desafios maiores como também expetativas mais elevadas. Pois ao contrário dos Data analyst, a quem seriam dadas, em média, folhas de cálculo com 500 mil linhas e 50 colunas para trabalhar no primeiro dia, os Data scientist irão provavelmente receber as chaves para terabytes de dados com dezenas de milhares de colunas. Todos esperariam então que reunissem magicamente todas as pérolas de conhecimento e sabedoria a partir destes volumes de dados. Deixados com os seus aparelhos, espera-se que digiram, transformem, explorem e modelem enormes volumes de dados confusos e desestruturados. Tal como alguns escritores espirituosos dos media afirmaram: “Data scientist é um título que quase invoca capacidades místicas de uma pessoa que reúne facilmente conhecimento de lagos profundos de dados e que tem poderes sobrenaturais para os dados como um Houdini do século XXI”.
A ciência de dados é bem mais intensiva em programação. Embora um Data scientist e um Data analyst obtenham dados com o mesmo objetivo comum, as suas abordagens e ferramentas diferem substancialmente:
Nela, digerem, processam e modelam volumes de dados cuja magnitude é frequentemente referida como Mega Dados. Sob esta perspetiva, é fácil perceber porque a função de ciência de dados possui listas absurdamente longas de requisitos tecnológicos. As novas contratações em empresas de maior dimensão herdam, inevitavelmente, pilhas de guiões de legado por vezes não documentados e algoritmos personalizados que precisam de substituir ou manter. Tendo isto presente, não é surpresa que sejam imperativas competências de programação avançada, sendo uma mais-valia na maioria das funções no início de carreira de um Data analyst.
Os Data analyst estão mais ligados às partes interessadas na empresa. Pois como descobrimos na nossa longa exposição das diferenças existentes, as funções de Data analyst são, na realidade, menos intensivas em termos de computação, o que revela um ponto ainda mais subtil. O observador mais atento do mundo tecnológico sabe que a complexidade técnica quase sempre carrega consigo barreiras. Elas criam vazios entre as partes interessadas que tomam as decisões e os cientistas e engenheiros que executam. Esse é, por sua vez, o espaço que os gestores de produto preenchem para suprir a lacuna na comunicação. E uma vez que o trabalho da ciência de dados está geralmente rodeada de uma neblina de mistério, os empregados comuns de uma empresa tendem a preferir pedir ajuda aos analistas.
É um fenómeno que reparo frequentemente no mundo empresarial: um Data scientist tende a estar mais isolado. Um Data analyst, por outro lado, tende a estar mais envolvido e dedicado a outras unidades de negócio, ajudando prontamente em situações como:
Podemos assim constatar que a função de um Data analyst é mais a de um consultor que gosta de marcar a diferença no micro contexto.
Agora que identificámos as principais diferenças entre ambos os profissionais, vamos olhar para as suas semelhanças!
Ao referir os poucos aspetos que partilham e delineando onde divergem, conseguimos perceber melhor ambas as funções. Um blogger de ciência de dados do stack-exchange, registado como Stephan Kolassa , tentou demarcar visualmente as diferenças ao utilizar um Diagrama Venn (Entrada 2403).
Deste diagrama pode ser retirada uma infinidade de pontos que merecem atenção. Entre outros e o mais óbvio, o de que os papéis de Data scientist e de Data analyst estão intimamente relacionados, ocupando quadrantes adjacentes a ambos. O que significa, na prática, que devem sempre trabalhar nas mesmas unidades de negócio. Excepto quando o Data analyst está ligado a equipas de projeto específicas enquanto parte de grupos em frameworks em desenvolvimento.
Estabelecidos agora os papéis deste profissionais, apercebemo-nos, por fim, que ambos utilizam os dados ao serviço de objetivos comerciais e ambos necessitam de experiência em estatística tradicional.
Há também este quadrante da comunicação que tanto o Data scientist como o Data analyst partilham mutuamente: transmitir conhecimento útil aos líderes empresariais através de histórias de dados (contando uma história ao interpretar os dados) ou criando ferramentas intuitivas que contribuem para a tomada de decisão “orientada pelos dados”.
Esta é a principal razão porque vemos serem exigidas competências de comunicação verbais e visuais na maioria dos anúncios de emprego para ambas as funções.
No seguinte gráfico, utilizamos um script de Python para carregar dados de procura do Google a partir de uma fonte disponível gratuitamente.
Constatamos que ambos as funções partilham outro ponto em comum. As profissões relacionadas tem assistido a uma tendência de popularidade semelhante nos últimos anos, bastante intensa na realidade.
Já agora, se alguma vez te perguntaste, os dados das tendências do Google provém de amostras imparciais de questões individuais colocadas no motor de pesquisa – agrupadas e categorizadas de forma anónima e por área geográfica de forma a medir o interesse do público em determinados tópicos. Uma melhoria importante destes dados foi apresentada em 2016, tornando disponível em tempo real a opinião em todas as categorias. Acontece que tenho anos de experiência a alavancar esses dados.
Tendo em consideração todos os aspetos, explorámos como as profissões de Data scientist e de Data analyst partilham semelhanças e diferenças. Concluímos como diferem na intensidade de programação, nos volumes de dados utilizados na modelação, na sofisticação em termos de automação e nas bases educativas requeridas ao analisar exemplos de anúncios de trabalho. Claro, antecipámos diferenças. Mas surpreendentemente, constatámos também como ambas as profissões relacionadas podem ser tão semelhantes. Na sua essência, ambas procuram recolher conhecimento a partir de conjuntos de dados.
Sejas tu apenas um curioso, estejas a começar ou sejas já um experiente na matéria, podes inscreveres-te no nosso curso de Análise de Dados para te equipares com o que precisas para o mundo competitivo dos dados tabulares, visualizações extravagantes e previsões à prova de bala.