Conteúdos
Conceito de Distribuição amostral
Ddistribuição de amostragem de uma estatística é a distribuição dos valores que a estatística assume para todas as possíveis amostras, da mesma dimensão, da população, portanto, a maior parte das vezes não se consegue obter a distribuição de amostragem exacta, mas tem-se uma distribuição aproximada, considerando um número suficientemente grande de amostras da mesma dimensão e calculando para cada uma delas, uma estimativa do parâmetro em estudo.
Quando é seleccionada uma amostra a partir de uma população de interesse não existe total certeza de que esta seja representativa, só se sabe que esta foi colectada sob critérios de aleatoriedade. Porém, se outras amostras são colectadas da mesma população não existe a garantia de que as médias calculadas com estas amostras sejam todas iguais à primeira, contudo, qualquer que seja a amostra, o objectivo é usá-la para fazer inferência sobre os parâmetros da população, na prática só é colectada uma amostra, por isso, antes de obter a média o seu valor é uma variável aleatória. Sendo assim, uma distribuição amostral é definida como a distribuição de probabilidades de uma estatística.
Dimensão que se deve considerar para a amostra
Para se obter uma amostra que permita calcular estimativas suficientemente precisas dos parâmetros a estudar, a sua dimensão depende muito da variabilidade da população subjacente. No entanto, existem técnicas que permitem obter valores mínimos para as dimensões das amostras a recolher e que garantem estimativas com uma determinada precisão exigida à partida. Uma vez garantida essa precisão, a opção por escolher uma amostra de maior dimensão, é uma questão a ponderar entre os custos envolvidos e o ganho com o acréscimo de precisão, contudo, se o processo de amostragem originar uma amostra enviesada, aumentar a dimensão não resolve nada, antes pelo contrário.
Estimação do valor médio utilizando amostras aleatórias simples
Quando se pretende estimar um parâmetro, uma vez definido o esquema de amostragem, considera-se uma estatística conveniente, isto é, uma função adequada das observações, função esta que para cada amostra observada dará uma estimativa do parâmetro que se pretende estimar, portanto, se o parâmetro a estimar é o valor médio ou média populacional, então é natural considerar como estimador a função média, que para cada amostra observada dará uma estimativa do parâmetro. É através da distribuição de amostragem que introduzimos a probabilidade num procedimento estatístico, em que a partir das propriedades estudadas na amostra, procuramos tirar conclusões para a população.
Distribuição t de Student
A média de uma amostra tem uma distribuição similar, mas não igual à Normal quando a variância original é desconhecida: a distribuição t de Student, que depende de um parâmetro adicional chamado grau de liberdade. Valores de probabilidades acumuladas para esta distribuição são encontrados em tabelas nos apêncides, isto é a distribuição será usada sempre que for necessário fazer inferência sobre médias quando as variâncias das populações forem desconhecidas.
Distribuição de amostragem exacta
O processo de obtenção da distribuição de amostragem da Média, e o estudo das suas propriedades como estimador do valor médio de uma População finita, considera-se uma população de dimensão suficientemente pequena, para que o problema possa ser tratado dentro dos limites do razoável.
Distribuição de amostragem aproximada
Quando a população é finita, e a amostragem se faz sem reposição, existem algumas condições necessárias e suficientes para que se possa considerar a distribuição da média aproximada pela distribuição Normal, portanto, a distribuição de amostragem da média pode ser aproximada pela distribuição Normal com valor médio μ e variância σ2 n (N-n N-1). A aproximação verifica-se para amostras de dimensão suficientemente grande, independentemente da forma da distribuição da População.
Distribuição de amostragem aproximada da média, como estimador do valor médio de uma População finita, mas de dimensão suficientemente grande
Em termos práticos costuma-se considerar que se tem uma população de dimensão infinita quando n≤N/20. Nestas condições o factor (N-n) / (N-1) que aparece na expressão da variância da Média toma um valor aproximadamente igual a 1, pelo que temos o seguinte resultado, conhecido como Teorema Limite Central (TLC), de que o resultado anterior é uma versão para Populações finitas: a distribuição de amostragem da média pode ser aproximada pela distribuição Normal com valor médio μ e variância σ2 n. A aproximação verifica-se para amostras de dimensão suficientemente grande, independentemente da forma da distribuição da População subjacente às amostras.
Distribuição de amostragem da média, em amostragem com reposição
A distribuição de amostragem da Média, faz-se amostragem com reposição, de uma População com dimensão N e comparar com o que se obtém em amostragem sem reposição, portanto, cada elemento da População tem uma probabilidade constante e igual a 1/N de ser seleccionado para pertencer à amostra, já que quando um elemento é seleccionado, uma vez a informação recolhida, ele é novamente reposto na População. A Média será uma variável cujo valor médio é o valor médio μ da População (ou da distribuição uniforme) e cuja variância é σ2/n, onde σ2 é a variância da População (ou da distribuição uniforme subjacente). A amostragem sem reposição é mais eficiente do que a amostragem com reposição Comparando o resultado , para a variância da Média, com o resultado apresentado quando se faz amostragem sem reposição, nomeadamente (), conclui-se que a amostragem sem reposição é mais eficiente, quando se pretende estimar o valor médio da População, uma vez que produz um estimador com uma variância mais pequena, isto é, que apresenta menor variabilidade.
A forma da distribuição de amostragem da Média em populações infinitas ou amostragem com reposição
Realizar uma amostragem com reposição, ou que a população a estudar, X, é infinita, situação em que a selecção de um elemento para a amostra, pode ser considerada independente da selecção dos outros elementos. Assim, consideremos a amostra aleatória (, , …, Xn) onde as variáveis aleatórias,, ,…, Xn são independentes e identicamente distribuídas a X.
Valor médio e desvio padrão da média
Dada uma população X de valor médio μ e desvio padrão σ, então, tendo em consideração as propriedades do valor médio e da variância, pode-se mostrar facilmente que E( X ) = μ e Var ( X ) = . A variância do estimador decresce com a dimensão da amostra, o que permite concluir que, à medida que aumentamos a dimensão da amostra a variabilidade do estimador, em torno do parâmetro, diminui. No entanto, o estimador é consistente, contudo, estas propriedades de não enviesamento e de consistência fazem com que a média seja um bom estimador do valor médio.
Distribuição da média, para populações não normais. Teorema Limite Central
A distribuição da população X já não é Normal, a distribuição de amostragem da média dependerá da distribuição de X, não sendo em geral conhecida. No entanto, um dos teoremas fundamentais das probabilidades, dá-nos uma indicação do comportamento da distribuição da média de um número suficientemente grande de variáveis aleatórias independentes e identicamente distribuídas: Teorema limite central; se X1, X2, …, Xn são variáveis aleatórias independentes e identicamente distribuídas a uma variável aleatória X com valor médio µ e variância σ2, finita, então a distribuição da soma Sn = X1+ X2+ …+ Xn, ou da média X = tende a aproximar-se da distribuição Normal. O teorema limite central dá-nos uma justificação teórica para a grande utilização da distribuição Normal, como modelo de fenómenos aleatórios. Quantidades tais como alturas e pesos de uma população relativamente homogénea, podem ser consideradas como somas de um grande número de causas genéticas e efeitos devido ao meio ambiente, mais ou menos independentes entre si, cada um contribuindo com uma pequena quantidade para a soma.
Distribuição de amostragem da proporção
Tradução dos resultados que foram obtidos para o estudo da estimação do parâmetro proporção de elementos da População que satisfazem determinada propriedade ou verificam determinada característica.
Distribuição de amostragem da proporção para populações finitas
Uma proporção é uma média de 0’s e 1’s em que atribuímos o valor 1 a um elemento da população que verifique a característica em estudo e o valor 0 a um elemento que não verifique essa característica. Assim, a proporção p não é mais do que o valor médio desta população cujos elementos são 0’s e 1’s, pelo que o estudo feito para a estimação do valor médio será facilmente adaptado para a estimação da proporção.
Distribuição de amostragem da proporção para populações infinitas ou com reposição
No caso, em que a população é infinita ou a amostragem se faz com reposição, as n variáveis aleatórias X1, X2, … Xn (n provas) que consistem em seleccionar outros tantos elementos da população e verificar se sim ou não têm a característica em estudo (sucesso ou insucesso), que existe na população com uma proporção p, são variáveis de Bernoulli. Assim, a v.a. X que representa o nº de sucessos nas n provas tem distribuição Binomial de parâmetros n e p, Bin (n,p).
Bibliografia
MARTINS, Maria Eugénia Graça. “Análise de Dados: Introdução às Técnicas de Amostragem”. Lisboa: 2009, 166 p.
VELARDE, Luís Guillermo Coca. “Noções de Bioestatística”. São Paulo: 2011, 99 p.
BOLFARINE, Heleno & BUSSAB, Wilton O. “Elementos de Amostragem”. São Paulo: 2004, 269 p.
POCINHO, Margarida. “Amostra e Tipos de Amostragens”. São Paulo: 2009, 39 p.