Customer analytics: conhecer e prever o comportamento do consumidor

Para aquelas empresas que desenvolvem a sua estratégia em torno do cliente e da sua satisfação, há três modelos de machine learning de aplicação relativamente fácil e de grande impacto: clustering, como forma de conhecer o comportamento do consumidor, regras de associação, que descobrem que produtos se vendem melhor em conjunto do que separadamente e churn, que prevê que clientes têm maior propensão a deixar de o ser.

Clustering: criar segmentos de mercado em função do comportamento dos clientes

Clustering é um modelo de machine learning não supervisionado que agrupa um conjunto de clientes (ou outras entidades) de acordo com determinadas características comuns. Dizemos que é um modelo não supervisionado porque não existe um label nos dados, isto é, não existe uma identificação de uma variável que se está a tentar prever. Portanto, não se trata de um modelo preditivo, porque não estamos a tentar prever alguma coisa, mas de um modelo de extração de conhecimento a partir dos dados.

Organizar uma lista de clientes de acordo com as características comuns destes em segmentos, fornece uma visão clara do tipo de estratégias de marketing a seguir. Não é viável definir uma estratégia de marketing individualizada para cada cliente, como também não é viável tratar todos os clientes da mesma forma, como se fossem todos iguais.

É por isso que, em 2021, é doloroso descobrir que ainda existem campanhas de marketing direto desenvolvidas por email ou SMS que tentam “varrer” todo um rebanho de clientes com uma oferta indiferenciada.

É possível fazer melhor. Não só porque os algoritmos estão disponíveis, como os dados que permitem o seu desenvolvimento também. Estão disponíveis a baixo custo ou a custo nenhum.

Por exemplo, um retalhista de livros pode agrupar os seus clientes em função de variáveis como a frequência de compra, o tipo de livros preferido, a sensibilidade a descontos, o meio de compra preferido, faixa etária, etc. Estes dados são facilmente obtidos a partir de sistemas transacionais, como o software utilizado na faturação ou na gestão de relacionamento com o cliente (CRM).

Os algoritmos de desenvolvimento de modelos de clustering que poderia aplicar seriam talvez o K-Means, o Partitioning Around Medoids (PAM) e o DBSCAN. Seguem formulações matemáticas diferentes e devem ser aplicados em situações diferentes, consoante o tipo de dados, mas o resultado final seria idêntico: a cada instância (cliente) atribui-se um cluster. Cada cluster deve ser o mais homogéneo entre si e o mais afastado possível dos restantes clusters.

Assim, esta empresa poderia descobrir que os seus clientes se agrupam em três clusters:

Os mais sensíveis a preços e a descontos. Preferem compras online de livros policiais e de autoajuda (com predominância para os relacionados com a alimentação saudável);
Os tradicionais. Fãs de grandes autores portugueses, que se deslocam às lojas físicas e não reagem assim tanto a descontos. Tendem a ser mais velhos e fiéis;
Os jovens. Compram sobretudo livros escolares e outro material escolar.

Não sabemos à partida qual o resultado do modelo de clustering, apenas os dados nos dirão como se comportam os clientes e como construir uma narrativa e uma campanha de marketing em torno de cada cluster.

Regras de associação

Este modelo também não é supervisionado e ainda não estamos a tentar prever o resultado uma determinada variável. Mas, desta vez, analisando os dados transacionais, vamos abrir cada cabaz de compras e tentar descobrir se existem conjuntos de produtos frequentes, isto é, produtos que se vendem bem em conjunto, tal como o queijo e o fiambre.

Os algoritmos disponíveis desenvolver este tipo de análise poderiam ser por exemplo o FP-Growth e o Apriori.

Em ambos o princípio é o mesmo: vamos começar por calcular a frequência de cada produto no total de transações e retirar aqueles que consideramos frequentes, ou seja, que estão presentes em pelo menos x% das transações, um Hiper parâmetro do modelo. Depois, analisando todo o espectro de combinações de produtos possíveis deste subconjunto, vamos procurar encontrar uma medida de interesse baseada em suporte e confiança.

O resultado final será uma lista com regras, que pode ser ordenada de forma decrescente em torno da sua força. Da mais forte para a mais fraca, quais as combinações de produtos mais frequentes? E quais são os produtos antecedentes e consequentes? Os antecedentes são os que originam a compra dos consequentes.

O nosso retalhista de livros poderia descobrir que os livros escolares se vendem muito bem em conjunto com outros produtos não relacionados com a sua categoria, como por exemplo acessórios de moda. Ou que os leitores de livros de autoajuda também compram jornais diários.

A descoberta destes padrões de compra leva-nos a colocar novas questões sobre os dados, sendo que a mais provável de todas será: quem são os clientes que compraram o produto antecedente, mas não compraram o consequente? E em função desta, muitas outras, mais exploratórias, como:

Como organizar a disposição das lojas físicas e online de modo a promover o cross selling?
A que clientes deveríamos dirigir um desconto ou outra oferta promocional de um produto consequente?

Churn: que clientes têm mais propensão a abandonar a empresa?

Os modelos de Churn são modelos de classificação binária, isto é, cujo resultado pode ser 0 ou 1 consoante o modelo preveja a permanência ou o abandono do cliente. Alguns algoritmos devolvem também uma probabilidade entre 0 e 1, cabendo ao analista decidir acima de que valor se considera o abandono (1).

Antes de colocar este modelo em prática é necessário definir-se Churn. Esta definição pode ser diferente de empresa para empresa e alguns setores contam mais com a fidelidade dos seus clientes, se a natureza do consumo for de carácter recorrente, mais do que outros cujo consumo seja discricionário. Por isso uma empresa de telecomunicações poderá considerar que o seu cliente “churnou” se não vende há mais de um mês e uma grande superfície poderá considerar clientes como “churnados” se estes não compram há mais de três ou seis meses.

Se para o negócio a noção de clientes habituais faz sentido, em princípio, um modelo de Churn também.

Os algoritmos que podem ser aplicados para resolver este tipo de problemas serão por exemplo a regressão logística as máquinas de vetores de suporte ou árvores de decisão, entre muitos outros. Estes são algoritmos supervisionados, pelo que nos dados históricos deve existir uma label com a indicação, para cada cliente, se ocorreu ou não Churn.

As variáveis deste modelo devem possuir capacidade preditiva, isto é, devem ter alguma relação com o que se pretende prever. Por exemplo, podemos começar um modelo procurando saber para cada cliente qual a sua antiguidade, se existe ou não uma relação com ele estabelecida contratualmente, quantas reclamações apresentou no último ano, o volume de compras anuais, etc.

Se for possível identificar a importância de cada variável no resultado final, tanto melhor. Com essa informação e com um modelo eficaz, a empresa pode antecipar o abandono dos seus clientes e dessa forma agir antes que isso aconteça.