De análise descritiva a análise preditiva

Neste artigo introdutório ao tema análise preditiva, vou procurar esclarecer alguns conceitos relacionados com este assunto, que é atualmente muito debatido no contexto da inteligência artificial e creio até mal-entendido. Como se extrai capacidade preditiva dos dados, transformando-os em conhecimento, e que valor se pode obter com esse conhecimento na gestão das empresas?

O que é o machine learning ou a aprendizagem automática?

Numa definição informal, machine learning (ou aprendizagem automática em português) é um conjunto de técnicas de programação e de análise de dados que permitem que as máquinas aprendam sem ser explicitamente programadas.

O meu despertador pode ser programado para me acordar todos os dias às 7h00 da manhã através de um conjunto de regras relativamente simples, do tipo “if, then, else” que se baseiam em horários, sons e em teclas ou outro hardware para o ligar e desligar. Este tipo de algoritmo de programação é o mais utilizado em praticamente todo o software que utilizamos a título pessoal ou profissional.

No entanto, se eu quiser que o meu despertador decida qual o melhor horário para me acordar todos os dias em função dos meus hábitos, rotinas, compromissos pessoais ou profissionais, do trânsito ou do meu estado de saúde, então não vou escrever um algoritmo com base em regras do tipo “if, then, else”, mas antes recolher um conjunto de dados que procurem caracterizar os tais hábitos, compromissos e estado de saúde. Ou até dados que aparentemente pareçam não ter qualquer relação com a hora a que decido sair da cama.

Assim, sem explicitamente ter de ser eu a definir esse horário, vou atirar um grande conjunto de dados históricos para um algoritmo e vou “treiná-lo” até que este descubra qual o melhor horário para me acordar. Terei de lhe dizer o que entendo por “melhor” horário para que o algoritmo encontre a solução que pretendo.

É exatamente esta mesma lógica de programação que as empresas estão a adotar para resolver questões como as que seguem:

Identificar padrões de consumo

Por exemplo, uma rede de cabeleireiros utiliza há muitos anos um cartão de fidelização (entretanto substituído por uma aplicação para telemóvel), cujo único propósito foi durante muito tempo a simples atribuição de um desconto a cada 10 cortes de cabelo. No dia de aniversário do cliente, também enviavam uma mensagem de parabéns.

Estou certo de que conhecerá muitos outros negócios locais com este tipo de promoções. No entanto, o que esta empresa descobriu recentemente é que dispõe de um vasto conjunto de dados passivamente armazenados em bases de dados, que lhe permitem conhecer melhor os seus clientes.

Através de técnicas de extração de conhecimento dos dados (ECD), podem saber por exemplo quando consomem com mais frequência ou quando demonstram sinais de abandono, assim como que determinados produtos tendem a vender-se melhor em conjunto do que isoladamente.

Este conhecimento descoberto nos dados permite à empresa agir no sentido de promover a venda cruzada de conjuntos de produtos vendidos com frequência que foram vendidos separadamente ou procurar antecipar os momentos em que o cliente se prepara para abandonar a empresa. No limite, podem ajustar a sua oferta aos desejos e necessidades dos consumidores.

Prever a procura

Através de dados históricos, as empresas podem identificar se existe não só uma tendência de aumento ou diminuição da procura dos seus produtos acompanhada de altos e baixos sazonais, como também avaliar como os seus clientes reagem a promoções, campanhas ou alterações nos preços.

A previsão da procura pode ser feita com precisão e coloca a empresa numa posição vantajosa na medida em que facilita o planeamento, a logística e as políticas de determinação de preços. É exatamente isto que fazem as companhias aéreas e os hotéis, setores em que a previsão da procura é uma vantagem competitiva.

Do reconhecimento de imagens à extração de conhecimento

Ler imagens, retirar desse texto apenas as palavras e obter significado dessas palavras é o último dos exemplos que vou referir. Os algoritmos capazes de fazer este tipo de previsão são diferentes na medida em que têm de lidar com uma origem de dados não estruturada. Os documentos podem não ter todos a mesma forma, estar rasurados ou redigidos em idiomas diferentes.

Por outro lado, a posição do texto que nos interessa analisar poderá não ser estática, o que dificulta um pouco a sua utilização.

Há muitas aplicações práticas para a utilização deste tipo de ferramentas, desde a classificação de documentos contabilísticos à leitura e estruturação de informação em contratos, existe aqui um potencial significativo em termos de produtividade e eficiência na gestão documental.

De repente, apercebemo-nos da abundância de dados!

Até aqui, o cartão de fidelização, os preços do ano passado (nossos e da nossa concorrência), e a pilha de documentos em pastas não pareciam ter qualquer utilidade. O mesmo se pode dizer dos emails que guardamos em arquivo há dez anos, as estatísticas de visitas ao nosso website, os posts na nossa página no Facebook ou o número de vezes que desbloqueamos o telemóvel hoje – tudo tem valor ou potencial para gerar valor!

Tudo isto é muito interessante e esta é uma fase em que estamos a ver a análise preditiva e o machine learning mudarem muita coisa nas nossas vidas e nas empresas. Não será mais uma moda do momento nem vai desaparecer tão cedo.

No entanto, este conjunto de técnicas assenta em experimentação, o que dificulta bastante a sua aplicação. Alguns algoritmos são muito complexos tornando difícil a sua interpretação e parametrização. Por vezes, é necessário fazer-se um número significativo de tentativas e testar vários algoritmos diferentes com parâmetros diferentes até se acertar no resultado pretendido.

Por outro lado, a grande abundância de dados não significa que os mesmos estejam a todo o momento limpos, estruturados e prontos a analisar. Há todo um trabalho de pré-processamento e transformação que consome muito tempo e energia (e que na verdade não tem muita piada).

Estamos assim numa posição dúbia que nos coloca perante uma oportunidade, mas fortemente condicionada pela falta de competências e talento:

“In my experience, the problem is not lack of resources, but is lack of skills. A company that has data but no one to analyze it is in a poor position to take advantage of that data. If there is no existing expertise internally, it is hard to make intelligent choices about what skills are needed and how to find and hire people with those skills. Hiring good people has always been a critical issue for competitive advantage. But since the widespread availability of data is comparatively recent, this problem is particularly acute.” Hal Varian (economista chefe da Google), Junho 2018