• Siga as nossas redes sociais

Blog

Quatro erros de ciência de dados e como evitá-los

Ciência de dados pode ser difícil – nós entendemos. É por isso que investimos tanto em torná-lo acessível a todos com produtos como RapidMiner Studio e RapidMiner Go . Se você é novo na ciência de dados, pode sentir que todo mundo é um especialista, faz tudo perfeitamente na primeira tentativa e que você nunca os alcançará.

Mas acredite em nós, não é esse o caso.

Todos os cientistas de dados cometeram erros em suas carreiras que puderam aprender e aplicar em seus novos projetos, construindo sua especialização com o tempo.

Quatro erros de ciência de dados e como evitá-los

Para ajudá-lo, entrevistamos alguns dos principais pensadores do RapidMiner, perguntando sobre erros memoráveis ​​de ciência de dados que cometeram e o que aprenderam com a experiência. Dessa forma, você pode aprender com os erros deles, sem ter que cometê-los.

1. Não comparando seu modelo com uma linha de base simples

Ingo Mierswa, fundador

Você pode ter um tipo favorito de modelo. Talvez seja algo complicado como uma rede neural convolucional. Não me entenda mal, isso não é um problema em si! Mas se algo complicado, demorado e trabalhoso é o seu modelo preferido, você deve considerar se está escolhendo esse tipo de modelo com muita frequência. É só porque você gosta? Existe um tipo de modelo mais simples e fácil de construir que pode funcionar tão bem?

Já fui culpado de fazer algo assim mais de uma vez, pular para algo complicado e gastar muito tempo ajustando parâmetros e retreinando o modelo, apenas para descobrir mais tarde que um modelo de regressão simples teve um desempenho quase tão bom.

Lição: nem sempre pule para a coisa grande e legal – às vezes, o básico é tudo que você precisa para levar um projeto adiante de forma rápida e eficaz.

2. Ter múltiplas observações para o mesmo item

Martin Schmitz, chefe de serviços de ciência de dados

Lembro-me de um erro muito bem. Fizemos uma análise de churn de contratos de manutenção para equipamentos de construção. A aprovação inicial no treinamento do modelo foi muito ruim para prever a rotatividade, e não consegui descobrir por quê. Levei várias horas olhando os dados para perceber o problema.

Muitos contratos de manutenção são, é claro, renovados, o que significa que uma empresa pode estar no conjunto de dados várias vezes com valores diferentes: 2015-renovado, 2016-renovado, 2017-renovado, 2018-renovado, 2019-cancelado. Isso cria um problema semelhante ao que abordei em uma postagem de blog recente sobre dados em lote .

Essencialmente, você está confundindo o modelo porque ele assume que todas as suas observações são independentes, mas não são. Nesse caso, você está tentando fazer previsões para uma empresa, mas tem informações conflitantes sobre essa empresa nos dados. Além disso, você está aumentando o número de casos Renovados em cinco vezes, o que obviamente distorce os dados para a previsão de Renovados em vez de Renovados.

A lição: certifique-se de que todos os seus pontos de dados sejam independentes uns dos outros se você estiver vendo uma grande superpredição para uma classe em seu modelo treinado. Se você tiver esse tipo de problema, há algumas opções para resolvê-lo, sobre as quais você pode ler na postagem de dados em lote mencionada anteriormente .

3. Não ter uma compreensão clara do caso de negócios 

Yuanyuan Huang, cientista de dados

Certa vez, estávamos tentando prever a rotatividade de uma empresa de telefonia celular pré-paga. Obtivemos resultados realmente sólidos e fomos capazes de prever quando as pessoas iriam mudar.

Infelizmente, descobrimos que a grande maioria das pessoas que prevíamos que mudariam eram turistas que compravam cartões SIM temporários para usar apenas durante as férias. Talvez seja uma visão interessante saber por que o churn é tão alto, mas não precisávamos de um modelo para nos dizer isso

Além disso, não há etapas acionáveis ​​que possamos tomar para reduzir o churn nesses casos, portanto, não traz nenhum benefício para a empresa. Um bom exemplo de uma solução de ciência de dados “boa tentativa, mas não útil”  .

A lição:  certifique-se sempre de que está resolvendo um problema de negócios, não apenas um problema de ciência de dados. É possível fazer excelente  ciência de dados,  mas descobrir um insight que não é nada útil para os negócios, e o trabalho de um cientista de dados é agregar valor aos negócios na forma de retorno sobre o investimento. Certifique-se de investir em modelos que irão melhorar os resultados financeiros.

4. Não compreender totalmente seus dados

David Arnu, cientista-chefe de dados

Certa vez, trabalhei em um projeto com um conjunto de dados muito grande e obscuro. Parecia que seria um modelo desafiador de treinar, mas depois do treinamento, as previsões eram muito boas. Muito bom. Exatamente bom.

Demorou um pouco, mas acabei percebendo que o despejo de dados original para obter os dados de treinamento foi executado duas vezes – a segunda metade do conjunto de dados era apenas uma duplicata da primeira metade. Isso significava que o mesmo ponto de dados às vezes acabava nos conjuntos de treinamento e teste após a  divisão para validação , dando ao modelo a resposta certa para um monte de casos.

A lição:  certifique-se de entender de onde vêm seus dados e o que há neles, antes mesmo de pensar em começar a treinar modelos.

Conclusão

Aí está – quatro erros de ciência de dados facilmente evitáveis ​​que até os melhores e mais brilhantes cometeram. Felizmente, com esse conhecimento em mãos, você evitará esses erros em seu próprio trabalho.

Compartilhe