• Siga as nossas redes sociais

Blog

Ciência de dados para todos! (AutoML)

Olá pessoal, tudo bem? Espero que a resposta de todos vocês seja sim, mesmo passando por um momento crítico devido a pandemia do COVID-19.

Apenas como apresentação, para quem ainda não conhece as minhas iniciativas de evangelização da ciência de dados no mercado brasileiro, até mesmo reforçando o slogan de “Ciência de Dados para Todos!”, gostaria de informar que à partir de agora estarei utilizando este canal para compartilhar informações sobre “Data Science”, e algumas possibilidades da sua aplicação em nosso dia a dia, focando sempre em transformar o complexo no simples.

Não foi fornecido texto alternativo para esta imagem

Talvez nesse momento você esteja se questionando, ou melhor dizendo, porque ele está fazendo isso? Qual será o objetivo deste trabalho? Ou ainda mais, qual será a minha vantagem em empenhar um tempo para ler todo este artigo publicado no LinkedIn?

Para responder estas perguntas, e claro, direcionar a explicação do propósito e objetivo desta iniciativa, após conversa com um aluno do MBA – Big Data (Data Science) em uma das maiores instituições de ensino do Brasil na última semana, percebi que tenho uma determinada obrigação em compartilhar todo conteúdo que for possível e de alguma forma. Não apenas por fazer parte do mundo acadêmico e ser professor de matérias direcionadas ao assunto, ou então, responsável pela distribuição no Brasil de uma das maiores soluções de Data Science mapeadas pelo Gartner, mas sim, pela preocupação e desejo em ajudar as pessoas a transformar dados em conhecimento, utilizando as melhores práticas dentro do cenário atual.

Resumindo todos os pontos apresentados acima, vou tentar explicar sempre de maneira simples e prática, se possível, como poderemos aplicar um conjunto de técnicas em nossos dados para a extração de valor, sendo este um dos principais pontos da ciência de dados.

Auto Machine Learning para qualquer pessoa!

go.rapidminer.com

Neste primeiro artigo compartilho com vocês as principais funcionalidades de uma solução de AutoML de uma das principais plataformas de ciência de dados no mundo, chamada de RapidMiner GO.

Esta solução tem como objetivo principal tornar a ciência de dados mais acessível para usuários de negócio e analistas, sem ao menos necessitar de uma instalação na máquina/ambiente de trabalho.

Um dos pontos mais importantes destacados na última conferência da RapidMiner (Fevereiro/2020), que com certeza será uma evolução e que já está acontecendo com diversas plataformas, foi a preocupação em tornar mais simples todo o processo de aprendizagem e estudo dos dados. Em diversos momentos os engenheiros e, principalmente o fundador da solução (Ingo Mierswa) destacou que para conseguirmos um melhor resultado o entendimento do negócio é importantíssimo, o que nós todos já sabemos, mas que a execução poderá iniciar com o usuário que efetivamente conhece do negócio.

Para tentar resumir, embora goste muito de detalhar alguns pontos visando a melhor compreensão dos usuários e leitores, estou colocando um passo a passo simples de utilização do produto na plataforma web, que pode ser acessada por todos pelo seguinte link: https://go.rapidminer.com/.

Não foi fornecido texto alternativo para esta imagem

Depois de finalizado o cadastro na plataforma, você poderá ter acesso ao mesmo ambiente apresentado na imagem acima. Reparem que na parte superior fica claro o objetivo da ferramenta, que é ajudar você a criar modelos preditivos a partir dos seus dados de maneira rápida e simples. Clique na opção “Build a new predictive model” para construir o seu primeiro modelo.

Não foi fornecido texto alternativo para esta imagem

Para começarmos qualquer trabalho será necessários carregar os dados desejados, sendo permitido neste momento um arquivo da sua máquina local, ou serviços como Dropbox ou OneDrive.

Não foi fornecido texto alternativo para esta imagem

Após finalizar o upload para a solução RapidMiner GO, automaticamente a tela será alterada apresentando um resumo da base carregada. Nesta base de dados temos 3000 linhas com 19 colunas, onde o usuário de negócio quer encontrar e analisar um determinado padrão para evitar a evasão de clientes (churn), pois dentre as colunas temos informações como: telefone, tamanho da conta, chamadas diárias e etc.

Como estaremos montando um modelo de evasão de clientes, na parte superior é preciso definir qual coluna será o fruto/resultado da predição.

Não foi fornecido texto alternativo para esta imagem

Excelente! A partir deste momento já começamos a direcionar no que precisamos colocar foco, destacando que dos valores encontrados na coluna “Churn” o mais importante neste modelos será o “yes”, assim ajudando a desenvolver um modelo que prevê quais dos clientes tem maior probabilidade de levar seus negócios para outra empresa.

Não foi fornecido texto alternativo para esta imagem

Na etapa 3 do AutoML, será necessária a definição de todos os campos que possuem correlação e que será utilizado para a criação do modelo. Claro, que de forma muito automática, a solução já apresenta algumas sugestões, até mesmo desmarcando na lista apresentada acima os que não apresentam padrão de repetição, baixa ou muito alta correlação, ou então muitos valores faltando.

Não foi fornecido texto alternativo para esta imagem

Analisando a tabela acima, precisaremos agora definir quais modelos queremos aplicar aos dados para a identificação de padrão. De maneira muito simples para compreensão de todos, modelos são várias maneiras/algoritmos utilizados para criar um aprendizado a partir dos dados. Quais você usa depende das circunstâncias, tipos de dados e o que você deseja realmente alcançar, mas a solução também permite que você analise para decidir com base nos resultados.

Não foi fornecido texto alternativo para esta imagem

À medida que são executados os modelos, automaticamente será calculada a força preditiva de cada um dos algoritmos. De um modo geral, quanto maior o resultado da acurácia melhor. Mas aviso que, além da métrica de acurácia, você também deve considerar: erro de classificação (menor é melhor), precisão (maior é melhor), área sob a curva (mais próximo de 1 é melhor) e tempo de construção do modelo.

Na barra do lado esquerdo poderemos navegar dentro do produto para entender e analisar o resultado final. Na imagem abaixo acessamos a parte de simulação, onde o usuário final poderá fazer perguntas (entradas) para saber se o resultado final (saída) está de acordo, ou melhor, faz sentido dentro do negócio.

Não foi fornecido texto alternativo para esta imagem

As medidas como acurácia, classificação do erro, precisão e etc, podem ser analisadas de uma maneira muito mais agradável dentro do item de análise dos modelos. Este item também está na parte esquerda do painel com os resultados.

Selecionando o modelo na lista de execução acima, ou então no menu lateral, você será direcionado para a página com o resumo de cada modelo. Na imagem abaixo estamos analisando o modelo Naive Bayes com 90.21% de acurácia.

Não foi fornecido texto alternativo para esta imagem

De maneira muito simples, o usuário sem necessidade de conhecimento técnico, consegue facilmente publicar um modelo dentro da plataforma RapidMiner, liberando uma URL e documentação para consumir os dados através deste ambiente.

Não foi fornecido texto alternativo para esta imagem
Não foi fornecido texto alternativo para esta imagem

Parabéns! Se você seguiu este passo a passo já pode falar que desenvolveu um modelo e colocou em produção, tendo como objetivo prever a evasão de clientes de acordo com um determinado comportamento do negócio.

Não poderia deixar de finalizar este post com uma pausa para o SENSACIONAL. Para aqueles que me conhecem sabem que uso essa palavra para destacar o que realmente é diferente, e neste caso posso garantir a todos vocês que é realmente um ponto fora da curva.

Para testar a solução apresentada acima acesse: https://go.rapidminer.com

EXTRA – Apresentação RapidMiner GO (Wisdom 2020)

Para você que foi guerreiro(a) e chegou até aqui, no final deste artigo depois de todo este conteúdo (kkkk), gostaria de compartilhar com vocês apresentação oficial em Boston – Fevereiro/2020.https://www.linkedin.com/embeds/publishingEmbed.html?articleId=7264149079946617200

Precisando de qualquer ajuda e/ou maiores informações estou à disposição. Até mais.

Compartilhe