Distribuições

Distribuições simples

Para cada variável, entidades (ou observações) podem assumir uma grande diversidade de valores. Podemos codificar esses valores e visualizá-los ao longo do eixo, observando a simetria da distribuição, a sua densidade ou a existência de valores extremos. Porque os pontos habitualmente não são identificados, o gráfico pode ser muito compacto:

Distribution of data points along the x-axis
Distribution of data points along the x-axis.

Com muitos pontos, a sua sobreposição é inevitável. Há várias ténicas a que podemos recorrer para minimizar isso, como o “jittering” (tremura?) ,na qual adicionamos uma pequena variação aleatória e sem significado ao eixo oposto:

Distribution of data points along the x-axis, with jittering
Distribution of data points along the x-axis. Jittering reduces overlapping data.

Aqui foi usada uma linha vertical em vez de um círculo, e os objetos são semi-transparentes. É também indicada a localização da mediana.

Chart displaying distribution of data points using vertical dashes
Displaying distribution of data points using vertical dashes. The top marks the median.

O mesmo gráfico com muitos mais pontos:

Chart displaying distribution of data points using vertical dashes
Same chart, many more data points.

Podemos separar a distribuição por categorias ao longo do eixo vertical, ou codificá-las no mesmo ponto usando outras variáveis visuais, como a cor ou o tamanho.

Resumir a distribuição por secções do eixo vertical

Habitualmente não precisamos deste nível de detalhe. Precisamos de alguns ponteiros (visuais ou quantitativos) que resumam a forma da distribuição sem perder muita informação. O ponteiro mais radical é uma medida de tendência central, como a média ou a mediana. No gráfico acima, há 4260 pontos, com uma média de 18.6. Agora temos um valor de referência, mas que nada nos diz sobre a forma da distribuição: é compacta? É simétrica? Se adicionarmos o desvio-padrão (4.6), já podemos dizer que um valor entre 14 e 23 é muito plausível. Quanto mais ponteiros usarmos, mais detalhada é a imagem. O oibjetivo é encontrar o mínimo de ponteiros que resumam as características da distribuição reduzindo a perda de informação.

Uma outra diferente abordagem é pegar no eixo e parti-lo em secções (“classes”), contando o número de pontos em cada classe. Esse é o princípio dos histogramas.

Three histograms with different bins
Defining bins can alter the way the data is interpreted.

Como pode ver, uma resolução mais elevada (mais secções, mais curtas), criam um histograma mais detalhado, mas esse detalhe pode ser desnecessário para a tarefa atual. Se definir classes maiores, tem o problema oposto: alguma informação útil pode ser perdida no interior de cada classe. Definir classes é a procura de um equilíbrio entre a forma da distribuição, a natureza dos dados e o contexto e tarefa.

Resumir a distribuição contando os pontos primeiro

Em vez de aplicar cortes pré-definidos e contar os pontos em cada secção, podemos fazer o percurso inverso: ordenar os dados e criar grupos com igual número de pontos e ver onde são os pontos de corte. Se fizermos um corte a meio temos a mediana, se dividirmos em quatro temos os quartis. Ou criamos pontos de corte específicos que façam sentido para a tarefa.

Como vê abaixo, 50% dos casos estão entre 15 e 21. Podemos dizer que este é o tempo de viagem normal. À volta deste intervalo podemos criar outras secções com um determinado significado e que nos ajudem a avaliar a simetria da distribuição. Todos os pontos fora destas secção são considerados valores extremos.

Distribution along the x-axis with statistical cut-offs
Adding cut-off points to the distribution along the x-axis.

Em muitos casos (não todos) isto é suficiente para descrever a distribuição com uma perda aceitável de informação. Esta é a forma como é criado o gráfico de caixa-e-bigodes.

Box plot with outliers
The box plot can help reduce noise and clarify the data.

A chaixa-e-bigodes remove os pontos, substituindo-os por pontos de corte. Os pontos extremos são mantidos porque se assume que são relevantes.

Conclusão

As distribuições são com frequência muito complexas para serem resumidas com rigor usando indicadores estatísticos comuns. A sua visualização dá-nos uma melhor perceção da sua forma e ajuda a validar os indicadores estatísticos escolhidos: a mediana é muitas vezes melhor que a média quando lidamos com distribuições assimétricas, mas isso é mais fácil de comprovar usando um gráfico (o Quarteto de Anscomb explora de que forma gráficos e medidas estatísticas se complementam).

Os gráficos mais populares para resumir uma distribuição são os histogramas e o gráficos de caixa-e-bigodes. Os histogramas são mais intuitivos, mas as classes devem ser definidas com cuidado. Podemos evitar esse passo subjetivo usando a caixa-e-bigodes, a qual tem uma fórmula padronizada para definir outliers. No entanto, certas distribuições têm formas que podem dar resultados enganadores, como quando temos uma distribuição bipolar à volta da mediana.

Já agora: se não tem muitos pontos tiras de pontos podem ser usadas em vez de gráficos de barras. Veja a secção Ordem.

Tutorials