ARTIGOS

Correlações e Gráficos de Dispersão

Um dos pontos que mais reforço em minhas aulas é visualização de dados. A tag visualização aqui no site não me deixa mentir. Um dos exemplos que mais gosto sobre este assunto está presente do pacote datasauRus do R. Este pacote traz 13 conjuntos de dados bivariados que possuem uma característica muito marcante: as correlações entre as variáveis \(x\) e \(y\) destes conjuntos de dados são muito parecidas entre si.

library(datasauRus)
library(tidyverse)
theme_set(theme_bw())

datasaurus_dozen %>%
  group_by(dataset) %>%
  summarise(correlacao=cor(x, y))
## # A tibble: 13 x 2
##    dataset    correlacao
##    <chr>           <dbl>
##  1 away          -0.0641
##  2 bullseye      -0.0686
##  3 circle        -0.0683
##  4 dino          -0.0645
##  5 dots          -0.0603
##  6 h_lines       -0.0617
##  7 high_lines    -0.0685
##  8 slant_down    -0.0690
##  9 slant_up      -0.0686
## 10 star          -0.0630
## 11 v_lines       -0.0694
## 12 wide_lines    -0.0666
## 13 x_shape       -0.0656

Perceba que ao calcularmos a correlação entre as colunas x e y deste conjunto de dados, agrupadas de acordo com o dataset, obtemos 13 correlações. Perceba que todas elas são muito parecidas entre si. São valores negativos, mas muito pequenos. Isto é um indicativo de que as colunas x e y são pouco correlacionadas. Ou seja, elas devem ter o seguinte aspecto quanto colocadas em um gráfico de dispersão:

O interessante é que este comportamento visusal não ocorre com este conjunto de dados. Veja o resultado que obtemos ao criar os gráficos de dispersão entre as variáveis x e y para cada dataset:

ggplot(datasaurus_dozen, aes(x=x, y=y)) +
  geom_point() +
  facet_wrap(~ dataset, nrow=4)

As mais variadas figuras surgem, de linhas quase paralelas até um dinossauro, passando por estrela, a letra X e muito mais. Todos estes arranjos são bem diferentes do que a imagem que somos levados a imaginar através do resultado das estimativas das correlações.

Portanto, só calcular a correlação entre duas variáveis não significa muita coisa. É imprescindível construir gráficos, de modo que possamos ter uma verdadeira noção a respeito daquilo com o que estamos trabalhando.

Dê um like na fanpage do blog e fique sabendo das próximas atualizações.

Compartilhe!