Power BI and R: living together

Participei recentemente num evento organizado pela Porto.Data como orador para mostrar como é possível integrar alguns modelos preditivos desenvolvidos com a linguagem R no Power BI. O feedback que recebi dos participantes no final foi muito entusiástico e creio que todos se aperceberam do grande potencial na combinação de uma ferramenta amigável de visualização de dados, como o Power BI, e uma poderosa ferramenta de análise de dados avançada, como a R (ainda que esta seja menos amigável).

Aqui ficam as principais conclusões deste meetup. Mais uma vez, obrigado a todos pelo feedback.

Power BI e R: uma combinação explosiva

O Power BI já deve dispensar apresentações. Em 2020 é líder mundial em tecnologias de Business Intelligence. É uma ferramenta gratuita, amigável e fácil de utilizar da Microsoft, que recolhe dados provenientes de diversas fontes e os transforma em visualizações interativas e que funcionam num computador, browser ou dispositivos móveis.

A adoção do Power BI em todo o tipo de organizações, sejam empresas ou sem fins lucrativos, tem sido explosiva. Por um lado, porque existe um benefício óbvio na automação de processos de reporting, e, por outro, porque é possível manter os dados sempre atualizados.

Em relação à linguagem R, também existem muitas vantagens na sua adoção. Destaco as que me parecem mais interessantes:

É uma linguagem “open-source”, com uma enorme comunidade de contribuidores, o que significa que é gratuita e está em constante evolução.
Dispõe de algoritmos de machine learning muito interessantes para desenvolver praticamente todo o tipo de modelos analíticos descritivos e preditivos.
É muito versátil em termos de construção de visualizações, permitindo o desenvolvimento personalizado de gráficos e diversos elementos visuais.
Permite o desenvolvimento de apps que funcionam num browser.
E finalmente, corre no Power BI!

Portanto, juntando estas duas peças, é possível:

Construir modelos de análise preditiva,
Realizar diversas operações de transformação de dados mais rapidamente e / ou que seriam impossíveis de realizar de outro modo,
Desenvolver visualizações em R e utilizá-las no Power BI.

Como colocar em prática a integração da linguagem R com o Power BI?

Em primeiro lugar, são necessários dados. Na minha apresentação utilizei dados reais fornecidos pela Olist, uma empresa brasileira de e-commerce. Esta empresa funciona como um market place – de um lado, vendedores de diversos tipos de produtos de grande consumo e de outro, consumidores finais.

Aqui está um resumo do modelo de dados, no Power BI Desktop:

Começamos a explorar estes dados usando algumas visualizações do Power BI. Nestas, é possível observar o crescimento expressivo ao longo do tempo desta plataforma nos anos 2017 e 2018 a vários níveis: número de utilizadores, número de produtos e valor transacionado.

Esta empresa regista precisamente outras variáveis interessantes, como os tempos de entrega e de atraso (face à data prevista de entrega), assim como o nível de satisfação do cliente, medido através de inquéritos de satisfação.

Como podemos ver na imagem seguinte, os clientes estão distribuídos por todo o Brasil e a maioria das transações refere-se a produtos de grande consumo, como artigos de beleza, relógios, etc.

Ativar o R e o R Studio

Antes de podermos utilizar a linguagem R no Power BI Desktop, é necessário instalá-la no nosso computador. Para tal, podemos simplesmente fazer download da mesma a partir do link: https://cran.r-project.org/

Vale a pena navegar neste site e explorar o seu conteúdo (e no design que recorda os tempos em que ligávamos o modem à tomada do telefone para aceder à Internet) e descobrir a documentação do R, manuais e packages que ampliam a sua capacidade base.

Como o editor da linguagem R fornecido com a instalação é muito básico, vamos usar o R Studio, um mais avançado e amigável. Também é gratuito e pode ser descarregado a partir do link: https://rstudio.com/

Se tudo correr bem, instalámos o R e o R Studio e agora teremos de os ativar no Power BI Desktop, a partir das opções de configuração:

Visualizações R no Power BI

Com este ambiente, podemos acrescentar visualizações do R ao Power BI. O processo consiste em selecionar essa visualização no painel e acrescentar os campos com os dados à área de valores:

No próprio Power BI Desktop é possível abrir um editor incorporado onde introduzimos o código R. No entanto, esta prática não é a mais adequada, na minha opinião. Primeiro, porque o editor está a correr o R e o R Studio nos bastidores que, se usados diretamente funcionam de forma mais rápida. Por outro lado, em caso de erro, é mais fácil fazer o “debugging” diretamente no R Studio do que no Power BI Desktop.

Por isso, sugiro que corram todo o código no R Studio e só depois de validado o código, o copiem e colem no Power BI:

Para fazer alguns gráficos interessantes, vamos precisar de correr o seguinte código, que pode ser dividido em três partes:

Carregamento de alguns packages
Transformação de dados
Criação de gráficos

################## Carregamento de packages
library(tidyverse)
library(lubridate)
library(ggthemes)
library(gridExtra)
library(tidytext)
library(tidyr)

################## Importação de dados
setwd("C:/Meetup/dados")
dataset <- read_csv("olist_public_dataset_v2.csv")

str(dataset)
summary(dataset)

################# Transformaçao de dados 
# selecionar apenas as encomendas válidas
# acrescentar algumas colunas novas
dataset_aprov <- dataset %>% 
 filter(order_status == 'approved' | 
 order_status == 'delivered' |
 order_status == 'invoiced' |
 order_status == 'shipped') %>% 
 mutate(data_compra = date(order_purchase_timestamp),
 data_hora_compra = ymd_hms(order_purchase_timestamp),
 hora_compra = hour(order_purchase_timestamp),
 dia_semana = wday(order_purchase_timestamp),
 nome_dia_semana = factor(weekdays(order_purchase_timestamp), 
 levels =c("domingo","segunda-feira", "terça-feira", "quarta-feira", "quinta-feira", "sexta-feira", "sábado")),
 ano_compra = factor(year(data_compra)))

str(dataset_aprov)

# resumo por ano
resumo_por_ano <- dataset_aprov %>% 
 group_by(ano_compra) %>% 
 summarise(valor_produto = sum(order_products_value),
 valor_frete = sum(order_freight_value),
 num_produtos = sum(order_items_qty))

# resumo por dia da semana e hora
resumo_por_dia <- dataset_aprov %>% 
 group_by(hora_compra,
 nome_dia_semana) %>% 
 summarise(numero_encomendas = n())

################## Criação de gráficos
# gráficos colunas
ggplot(resumo_por_ano, aes(x = ano_compra, y = valor_produto))+
 geom_col()+
 ggtitle("Valor do produto por ano")+
 xlab("Ano")+
 ylab("Valor produto")+
 theme_economist()

# boxlots
ggplot(dataset_aprov, aes(x= ano_compra, y = order_items_qty))+
 geom_boxplot()+
 ggtitle("Valor do produto por ano")+
 xlab("Ano")+
 ylab("Valor produto")+
 theme_economist()

ggplot(dataset_aprov, aes(x= ano_compra, y = order_products_value))+
 geom_boxplot()+
 ggtitle("Valor do produto por ano")+
 xlab("Ano")+
 ylab("Valor produto")+
 scale_y_log10()+
 theme_clean()

ggplot(dataset_aprov, aes(x= ano_compra, y = order_freight_value))+
 geom_boxplot()+
 ggtitle("Valor do frete por ano")+
 xlab("Ano")+
 ylab("Valor produto")+
 scale_y_log10()+
 theme_economist()

# histogramas
ggplot(dataset_aprov, aes(x = order_items_qty))+
 geom_histogram(binwidth = 1)+
 ggtitle("Número de produtos por encomenda")+
 xlab("Quantidade de produtos")+
 ylab("Contagem")

plot1 <- ggplot(dataset_aprov, aes(x = order_products_value))+
 geom_histogram(color ="white", position = "identity")+
 ggtitle("Valor de produto por encomenda")+
 xlab("Valor de produto")+
 ylab("Contagem")+
 theme_economist()

plot2 <- ggplot(dataset_aprov, aes(x = log10(order_products_value)))+
 geom_histogram(color ="white", position = "identity")+
 ggtitle("Valor de produto por encomenda (log)")+
 xlab("Valor de produto (log)")+
 ylab("Contagem")+
 theme_economist()

grid.arrange(plot1, plot2, ncol=2)

ggplot(dataset_aprov %>% filter(ano_compra !=2016), 
 aes(x = log10(order_products_value),
 color = ano_compra))+
 geom_histogram( position = "identity")+
 ggtitle("Valor de produto por encomenda (log)")+
 xlab("Valor de produto (log)")+
 ylab("Contagem")+
 scale_color_manual(values=c("#999999", "#E69F00", "#56B4E9"))+
 scale_fill_manual(values=c("#999999", "#E69F00", "#56B4E9"))+
 theme_economist()+
 theme(legend.position="right")+
 labs(color ="Ano")

# Heatmap
ggplot(resumo_por_dia, aes(hora_compra, nome_dia_semana))+
 geom_tile(aes(fill = numero_encomendas), colour = "white") +
 scale_fill_gradient(low = "white", high = "steelblue")+
 ylab("Dia da semana")+
 xlab("Hora de compra")+
 ggtitle("Heatmap número de encomendas por dia da semana e hora")+
 labs(fill ="Nº enc.") +
 scale_x_discrete()+
 theme(legend.position="right")+
 theme_clean()

Como resultado deste código, no Power BI obtemos uma nova página com as seguintes visualizações:

O primeiro é um simples gráfico de colunas, que também poderia ser obtido com o gráfico do Power BI. No entanto, os restantes gráficos são personalizados no R e não se obteriam no Power BI:

O heatmap resume o número de encomendas por dia da semana e hora de compra
Os boxplots mostram-nos dados estatísticos sobre o valor transacionado por ano, incluindo quartis, mediana e outliers
Por fim, os histogramas com o valor transacionado por encomenda podem ser apresentados em conjunto num só e um deles adotar uma escala logarítmica para facilitar a análise.

Modelo de clustering no Power BI

Na primeira página deste relatório vimos que a empresa teve mais de 50 mil clientes em 2018. Mas como se caracterizam? Para responder a esta questão, podemos recorrer de um algoritmo de clustering.

O clustering é um modelo que agrupa objetos (neste caso, clientes) de acordo com características comuns. É relativamente fácil agrupar os clientes de acordo com a sua localização geográfica, idade, género ou outra dimensão de que disponhamos no modelo de dados. Mas é bastante mais complexo fazer esse agrupamento com base em comportamentos de compra, como por exemplo, quantos produtos comprou, qual a pontuação média que atribuiu, se costuma ou não deixar comentários quando realiza uma compra, etc.

No código abaixo demonstro como resolver este problema com o package “cluster” do R:

############################################################
# Clustering de clientes
############################################################

# importar tabela clientes
customers <- read_csv("/olist_customers_dataset.csv")

# acrescentar unique id do cliente
customers_id <- customers %>% 
 select(customer_id, customer_unique_id)

# join com a tabela transacional e customer unique id
dataset_customer<- inner_join(customers_id, dataset_aprov, by = "customer_id")

dataset_customer <- dataset_customer %>% 
 mutate(
 atraso_entrega_mins = difftime(order_delivered_customer_date, order_estimated_delivery_date, 
 units = "mins"),
 tempo_entrega_mins = difftime(order_delivered_customer_date, order_aproved_at, 
 units = "mins")) %>% 
 distinct(customer_unique_id, .keep_all = T)

# resumo por cliente
resumo_por_cliente <- dataset_customer %>% 
 filter(order_status == 'delivered') %>% 
 group_by(customer_unique_id) %>% 
 summarise(
 valor_produto = sum(order_products_value),
 num_produtos = sum(order_items_qty),
 pontuacao_media = mean(review_score)) %>% 
 inner_join(select(dataset_customer, atraso_entrega_mins, tempo_entrega_mins, customer_unique_id), 
 resumo_por_cliente, by = "customer_unique_id")

resumo_por_cliente$atraso_entrega_mins<- as.numeric(resumo_por_cliente$atraso_entrega_mins)
resumo_por_cliente$tempo_entrega_mins<- as.numeric(resumo_por_cliente$tempo_entrega_mins)

# Eliminar NA's
library(DMwR)
resumo_por_cliente <- na.omit(resumo_por_cliente)

# Normalizar features
resumo_por_cliente_z <- as_tibble(scale(resumo_por_cliente[,-1]))
summary(resumo_por_cliente_z)

# avaliar quantos clusters são necessários
# retirar amostra aleatória de 25%
# demorado - devolveu 4 clusters
resumo_por_cliente_z_sample <- sample_frac(resumo_por_cliente_z, 0.25)
# fviz_nbclust(resumo_por_cliente_z_sample, kmeans, method = "wss")

############# Power BI ##############
# criar clusters
library(cluster)
clusters <- clara(resumo_por_cliente_z, 4, samples = 50, pamLike = T)
clusters$medoids

# acrescentar dimensão cluster 
resumo_por_cliente$cluster <- as.factor(clusters$clustering)
clusters$clusinfo # dimensão, dissimilaridade e isolamento

O resultado deste código é que agora cada um dos clientes desta empresa tem um cluster associado. O algoritmo identificou 4 clusters como o número ideal de clusters, mas funcionaria com qualquer outro número pelo que seria ótimo se nesta fase obtivéssemos o input por parte dos gestores desta empresa.

Usando a interatividade das visualizações do Power BI é muito fácil caracterizar estes clusters. Veja-se por exemplo como se diferenciam a nível da pontuação média e como esta parece estar relacionada com os tempos e atrasos na entrega. Será que o número de produtos e respetivo valor estão relacionados? E como se relacionam todas estas variáveis com os Estados e as categorias de produto que compram?

Esta análise enriqueceu substancialmente o modelo de dados e fornece uma ferramenta de marketing:

Em futuros artigos, mostrarei como continuou o resto da apresentação onde expliquei como fazer um modelo preditivo com R e Power BI para a pontuação dos clientes e como analisar o texto com os comentários.

Obrigado!