×
Loading ...

Como determinar o tipo de distribuição de probabilidade para seus dados

Atualizado em 21 fevereiro, 2017

Uma vez que você já reuniu dados no seu sistema ou processo, o próximo passo é determinar qual tipo de distribuição de probabilidade o conjunto possui. Os tipos de distribuição de probabilidade são: uniforme discreta, Bernoulli, binomial, binomial negativa, Poisson, geométrica, uniforme contínua, normal (curva gaussiana ou curva sino), exponencial, gama e beta. Conseguir eliminar algumas dessas possibilidades torna o trabalho de determinar o menor valor de R-quadrado muito mais rápido.

Instruções

Descubra qual modelo melhor descreve seu conjunto de dados (Photos.com/AbleStock.com/Getty Images)

    Metodologia

  1. Trace o gráfico dos dados para uma representação visual do tipo de dados.

    Loading...
  2. Um dos primeiros passos para determinar qual tipo de distribuição se tem – e, portanto, o tipo de equação usado para modelar os dados – é eliminar as distribuições que são inadequadas.

    • Se houver picos no conjunto de dados, não pode ser uma distribuição uniforme discreta. • Se os dados tiverem mais do que um pico, descarte Poisson ou binomial. • Se houver uma curva única, nenhum pico secundário e um declive suave em cada lado, pode ser Poisson ou gama. Mas não pode ser uma distribuição uniforme discreta. • Se os dados estiverem distribuídos igualmente, sem viés para um dos lados, é seguro descartar uma distribuição gama ou Weibull. • Se a função tiver uma distribuição por igual ou um pico no meio, não e uma distribuição geométrica ou exponencial. • Se a ocorrência de um fator flutuar com a variável ambiental, provavelmente não é uma distribuição de Poisson.

  3. Depois de eliminar algumas hipóteses da lista, faça uma análise do R-quadrado de cada tipo possível de distribuição de probabilidade que restou. Aquele com o maior valor de R-quadrado é, provavelmente, o mais correto.

  4. Elimine um ponto aberrante dos dados. Então recalcule R-quadrado. Se a mesma distribuição de probabilidade emergir como a melhor aproximação, então, existe um alto grau de confiança em que esta é a melhor distribuição para usar com o conjunto de dados.

Loading...

Dicas

  • Se os dados mostrarem múltiplos picos e uma alta dispersão, é possível que dois processos separados estejam ocorrendo simultaneamente ou que o produto da amostra está misturado. Colete os dados novamente e reanalise.

Aviso

  • Valide as equações geradas contra dados posteriores para confirmar se o modelo ainda é preciso para o conjunto de dados. É possível que fatores ambientais e variações no processo tornem inadequados os modelos e equações correntes.

O que você precisa

  • Software gráfico
  • Métodos para calcular o valor de R-quadrado (melhor ajuste)
Loading ...
Loading ...