ARTIGOS

Utilizando Estatística para Decidir qual Cerveja Beber - Parte 2

Sou maior de idade, pago meus impostos e contribuo para o PIB. Portanto, nada me impede de ocasionalmente beber uma ou outra cerveja em meus momentos de lazer. Embora eu tenha as minhas preferências pessoais neste assunto, estive pensando qual seria a opinião geral do brasileiro a respeito das cervejas disponíveis no mercado. De acordo com o G1, cada brasileiro consumiu, em média, 60,7 litros de suco de cevada em 2017, o que serve como indicativo do quanto o povo daqui curte uma ampola (ou talvez mais) deste diurético.

Pensando em analisar quantitativamente a opinião do brasileiro sobre as cervejas que consome, eu mostrei em meu post anterior como fiz para obter informações a respeito de

  • Avaliação Geral
  • Aroma
  • Aparência
  • Sabor
  • Sensação
  • Conjunto

das 1000 cervejas com mais avaliações no Brejas.

As Melhores Cervejas e Estilos

Podemos começar a análise com as 10 cervejas com avaliação geral mais alta:

# cervejas melhor avaliadas

dados %>% 
  select(Nome, Geral, Votos) %>%
  arrange(desc(Geral))

# A tibble: 1,000 x 3
   Nome                                     Geral Votos
                                        
 1 Westvleteren Abt 12                       4.70   106  
 2 Westvleteren Extra 8                      4.60    47
 3 Ola Dubh Special Reserve 40               4.60    33
 4 Founders KBS (Kentucky Breakfast Stout)   4.60    37
 5 Trappistes Rochefort 10                   4.50   213  
 6 Biertruppe Vintage Nº 1                   4.50    29
 7 Thomas Hardy's Ale                        4.50    41
 8 Gouden Carolus Cuvée van de Keizer Blauw  4.40    77
 9 St. Bernardus Abt 12                      4.40   140  
10 Founders Backwoods Bastard                4.40    32
# ... with 990 more rows

Ao que tudo indica, a cerveja Westvleteren Abt 12 é a melhor cerveja avaliada pelos usuários do Brejas. Com 106 votos, o que é quantidade razoável de avaliações, ela ficou com nota 4.7, de um máximo de 5. Nada mal.

Mas este tipo de informação é fácil de obter. O próprio Brejas nos informa isto. Podemos fazer coisas mais interessantes com este conjunto de dados. Por exemplo, qual será o estilo com maiores média e mediana entre os seus rótulos?

dados %>% 
  select(Estilo, Nome, Geral) %>%
  group_by(Estilo) %>%
  summarise(Media=mean(Geral, na.rm=T), Mediana=median(Geral, na.rm=T)) %>%
  arrange(desc(Media))
# A tibble: 86 x 3
Estilo                             Media Mediana
                                 
1  Belgian Quadrupel / ABT          4.22    4.10
2  Bière de Champagne / Bière Brut  4.17    4.20
3  Belgian Dark Strong Ale          4.05    4.05
4  Wood Aged Beer                   4.05    4.20
5  Imperial / Strong Porter         4.03    4.00
6  Russian Imperial Stout           4.03    4.10
7  Belgian Specialty Ale            3.92    3.95
8  Black IPA                        3.91    3.90
9  Imperial / Double IPA            3.91    4.00
10 Oatmeal Stout                    3.90    3.90
# ... with 76 more rows

Note que, no total, 86 estilos de cerveja foram considerados. À primeira vista, o estilo preferido pelos usuários do site é o Belgian Quadrupel / ABT. Entretanto, olhar apenas a média ou a mediana de uma amostra não indica muita coisa. Veja o que acontece quando plotamos os boxplots das avaliações dos estilos de cerveja com as dez maiores médias, ordenados pela mediana:

Estilos de Cerveja

Perceba que não há nenhuma sugestão de diferença significante entre os grupos. Embora a média da Bière de Champagne / Bière Brut seja 4.17 e da Oatmeal Stout seja 3.90 (quase 7% a mais), não é possível perceber diferença significativa entre estes estilos de bebida. Até poderíamos testar se existe diferença de fato, mas seria perda de tempo.

Relações entre as Características das Cervejas

Outra análise que podemos fazer é verificar as correlações entre as variáveis utilizadas para avaliar as cervejas:

Correlações entre as Variáveis Consideradas

Perceba como Aroma e Sabor estão fortemente correlacionados (0,94), mesma magnitude da correlação entre Sabor e Conjunto. Aroma e Conjunto ficam um pouco atrás, com 0,91.

Aparência e Sensação, apesar de também possuírem alta correlação (0,71), são as duas variáveis menos correlacionadas. Talvez este seja um indicativo de que a Sensação que as cervejas geram em quem as bebe não corresponde à Aparência delas?

Semelhanças entre os Estilos

Uma última análise que podemos fazer é o agrupamento de estilos. Como será que a avaliação dos brasileiros separa os 85 estilos de cerveja analisado aqui? Quais estilos será que estão mais próximos uns dos outros? Note que não estou procurando a similaridade dos estilos entre si, da forma que uma American Pale Ale e uma Blonde Ale são parecidas. Aqui eu agrupei os resultados de acordo com as informações que eu citei anteriormente (a saber, Aroma, Aparência, Sabor, Sensação e Conjunto).

Agrupamento dos Estilos de Cerveja

Este resultado pode ser interpretado como um sistema de recomendação. Se a pessoa gosta do estilo Saison/Farmhouse, é provável que também vá gostar do estilo Rauchbier, pois estes estilos aparecem bem próximos no diagrama acima (procure estes nomes no meio do gráfico, um pouco à esquerda). Por outro lado, uma Rauchbier é bem diferente de uma Lite American Lager (procure no extremo esquerdo do gráfico), pois estão em ramos bem diferentes do diagrama.

Conclusão

Portanto, esta é a análise que realizei a respeito da opinião dos brasileiros sobre cerveja. Não é uma análise completa e exaustiva sobre o assunto. Sequer é representativa da população brasileira, pois apenas a opinião dos cadastrados no site Brejas foi levada em consideração. Ainda assim, creio que ele possa servir como baliza para quem já sabe qual o seu estilo preferido de cerveja e deseja se aventurar experimentando algo diferente, porém similar ao que gosta.

A função de scrap ainda não está perfeita. Existem algumas inconsistências na maneira com que o Brejas exibe os resultados das cervejas e que meu código não conseguiu pegar. Assim, alguns dados estão faltantes. Isto não chega a prejudicar a análise realizada, embora, é claro, dados completos sejam sempre melhores. Assim, fica a sugestão para quem quiser analisar meu código e ver como ele pode ser melhorado.

Como sempre, os códigos usados para obter os dados e para a análise realizada estão no meu github. Utilize este repositório para se inspirar e fazer as suas próprias análises.

Este post foi inspirado por um trabalho realizado pela Kaylin Walker.

Dê um like na fanpage do blog e fique sabendo das próximas atualizações.