Title | Sebenta Estatística II |
---|---|
Author | viviane rauffus |
Course | Estatística II |
Institution | Instituto Universitário de Lisboa |
Pages | 40 |
File Size | 2 MB |
File Type | |
Total Downloads | 463 |
Total Views | 957 |
Resumo Estatística II – 2º ano, 2º semestre Viviane RauffusTópicos Estimação de parâmetros : estimação pontual e por intervalos Testes de hipóteses: formulação , erros Testes de hipóteses paramétricos : o teste t para uma média o teste t para duas médias – amostras independentes o teste t para ...
EAD II - 2020 1
Resumo Estatística II – 2º ano, 2º semestre Viviane Rauffus
Tópicos
Estimação de parâmetros: estimação pontual e por intervalos Testes de hipóteses: formulação, erros Testes de hipóteses paramétricos: o teste t para uma média o teste t para duas médias – amostras independentes o teste t para duas médias – amostras emparelhadas Testes de hipóteses não-paramétricos: o Teste de ajustamento – Kolmogorov-Smirnov, Shapiro Wilk, Quiquadrado o Teste de Mann-Whitney o Teste de Wilcoxon o Teste de Kruskal-Wallis o Teste de independência do Qui-Quadrado
Análise em Componentes Principais
Revisões _________________________________________________________ Classificação de Variáveis
nº inteiros
nº decimais
EAD II - 2020 2
Estatística Descritiva – consiste na apresentação, análise e interpretação de um conjunto de dados, através da criação de instrumentos adequados, tais como: o Tabelas para condensar os dados – distribuição de frequências o Representação gráfica o Medidas de estatística descritiva: cálculo de valores numéricos que caracterizam os dados de uma forma global
Distribuição de frequências Frequência absoluta - Fi - corresponde ao nº de vezes que um determinado valor se repete na amostra ou população – resumo de info. total de cada categoria Frequência relativa - fi - corresponde ao número de vezes que o valor da variável ocorre relativamente ao total da amostra (n) ou total da população (N) – dá o peso face ao total/relativo ao total: mas, são proporções, não usar só números totais percentagens Frequência acumuladas absolutas – cum Fi ou relativas – cum fi - representam o nº de dados com valor inferior ou igual à observação em causa – para ajudar a interpretar mais rapidamente – ex. onde estão 75% das respostas?
Recomendações:
Retirar percentagem acumulada em var. nominais Quando não existem falhas de resposta, apenas deixar uma coluna com % Percentagem normal e percentagens valda, deixar para vermos as não-respostas e para interpretarmos como deve ser
Tabelas de Frequências - v. qualitativa nominal
EAD II - 2020 3
- v. qualitativa ordinal (escala tipo likert) SPSS: Analyse – Tables – Custom Tables Tabela de indicadores descritivos – v. quantitativas Médias descritivas da idade dos jovens SPSS: Analyse – Descript. stat. – Descript.
Gráfico circular
Gráfico de barras
EAD II - 2020 4
Medidas Descritivas Univariadas Medidas de Localização – Localizam os valores da variável no eixo dos nºs reais
Medidas de tendência central (identificam o centro de uma distribuição) Média – X´ Determinada de forma aritmética traduz o alor que todos os elementos teriam, se fossem iguais. - v. quantitativas Moda – Mo Traduz o valor/categoria que divide o conjunto dos dados em duas partes, reflete o valor máximo/mínimo de 50% dos dados. - pressupõe ordem, aplicada a v. quantitativas ou v. qualitativas ordinais Mediana – Me Traduz o valor ou categoria mais frequente - qualquer tipo de variáveis
Medidas de tendência não central (traduzem informação sobre partes dos dados, diferentes do centro)
Quartis (Qi , i=1,2,3,4) Q1 – acumulada 25% Q2 = Me Q3 – acumulada 75%
Decis (Di , i=1,2,…,10) – dividem informação em 10 partes iguais Percentis (Pi , i=1,2,…,100)
Estudo da simetria da distribuição ´ = Mo = Me Distribuição é simétrica se X
EAD II - 2020 5
Coeficiente de assimetria (Skweness) Coeficiente tem como referência a simetria normal. A distribuição será: Simétrica – se coeficiente = 0 Assimétrica positiva - se coeficiente > 0 Assimétrica negativa - se coeficiente < 0
Medidas de Dispersão Absoluta Intervalo de variação: R = máx(Xi) – mín(Xi) Intervalo interquartis: IQ = Q3 - Q1 Variância (amostra): s2
Desvio padrão (amostra): s = Relativa
√s2
Coeficiente de variação (%): Cv =
S × 100 ´X
Medidas de Associação e Correlação Medidas de Associação Avaliam intensidade de associação entre duas variáveis.
Phi - nominal vs. nominal V de Cramer – nominal vs. nominal/ordinal
Medida vaira para ambos de 0-1. 1 reflete associação mais forte. Tabela SPSS: Analyse - Descriptive Stat. – Crosstabs…
Eta – nominal vs. quantitativas Medida vaira de 0-1. 1 reflete associação mais forte. Tabela SPSS: Analyse – Compare means – Means…
Medidas de Correlação Avaliam intensidade e direção da relação entre duas variáveis (-1 1)
Ró (Rho) de Spearman – ordinal vs. ordinal/quantitativa Versão não paramétrica do coeficiente de correlação de Pearson, baseada em ordenações. Tabela SPSS: Analyse – Descr.Stat. – Crosstabs… ou Analyse – Correlate – Bivariate
6 EAD II - 2020
R de Pearson – quantitativa vs. quantitativa Para analisar a relação entre duas variáveis quantitativas. Só deve ser utilizada quando detetarmos que relação existente entre duas variáveis é linear. Tabela SPSS: Analyse – Descript. Stat. – Descriptives... ou Analyse – Correlate – Bivariate
Estatística descritiva – Recolha, apresentação, análise e interpretação de dados numéricos através da criação de instrumentos adequados: quadros, gráficos e indicadores numéricos Estatística Indutiva – Ramo da estatística que permite aplicar a investigação e obter generalizações aplicáveis a casos que não tenham sido observados. Reúne um conjunto de técnicas que permitem estimar ou testar indicadores sobre o conjunto total de casos (para além dos observadores).
População ou Universo
Conjunto de elementos com uma ou mais características em comum (pessoas, empresas, produtos, famílias, etc.). Finita, infinita ou considerada como tal População alvo/População a inquirir
Amostragem
Estudo, com detalhe considerável, de um grupo de indivíduos/objetos retirados da população que se pretende conhecer.
Amostra
Subconjunto da população alvo/a inquirir.
Unidade Amostral
Elemento disponível para ser selecionado em qualquer fase do processo amostral.
População Indicadores: Parâmetros
Características de uma população num dado momento. São valores fixos e geralmente são desconhecidos. e.g. percentagem de indivíduos com o ensino superior em Portugal
EAD II - 2020 7
Amostra Indicadores: Estatísticas
Características de uma amostra. Valores conhecidos para cada amostra em análise. e.g. Percentagem de indivíduos com o ensino superior. Parâmetros
Estatísticas
Métodos de Amostragem ___________________________________________
Apresentar a estimação de parâmetros Distinguir a estimação pontual da estimação por intervalos Conhecer as propriedades dos estimadores
Método de amostragem probabilística/aleatória - Todos os elementos do universo têm uma probabilidade conhecida e diferente de zero de vir a fazer parte da amostra; cada amostra de dimensão n tem a mesma probabilidade de ser escolhida. Método de amostragem não probabilística/amostragem dirigida - Quando não se conhece a probabilidade que os elementos do universo têm de vir a fazer parte da amostra ou quando a probabilidade de alguns fazerem parte da amostra ser nula Vantagens
Permite que se estime o grau de incerteza ou grau de erro com que se infere para a população. Apenas neste tipo de amostras o nível de confiança associado às estimativas pode ser medido e controlado, bem como a variação máxima admissível que se está disposto a incorrer nessas estimativas Evita enviesamentos provocados por uma escolha dirigida dos respondentes, uma vez que o processo de seleção é casual a partir de uma listagem de todos os indivíduos;
Dificuldades
EAD II - 2020 8
Nem sempre é possível listar todos os elementos do universo de trabalho. Depois de definidos os respondentes, não poderá haver substituições, pelo que os não-respondentes constituem uma importante fonte de enviesamento que deve ser minimizada.
Estatística Indutiva 1
Estimação
Determinação do valor de um parâmetro (), com base num conjunto de observações (dados).
2
Pontual – propor um valor para um parâmetro Por intervalos – propor um intervalo de valores que deverá conter o valor do parâmetro, com um determinado grau de certeza
Ensaio de hipóteses
Permite validação ou não afirmação sobre os parâmetros de uma população.
Estimação Pontual Objetivo: usar toda a informação disponível a partir da amostra para propor um valor que é o melhor que se pode adiantar para um certo parâmetro do universo. Existem para isso dois procedimentos:
Um estimador que pareça “bom” por gozar de propriedades “desejáveis” num estimador Construir um estimador que assegure que ele goza das propriedades “desejáveis”
Conceitos Estimador ( ^ ❑ ) – estatística utilizada para estimar um determinado parâmetro e.g. estimar a idade média de uma população: a fórmula da média serve de estimador para a média populacional Média Amostral
Média Populacional
Estimativa ( ^ ❑ *) – Resultado do estimador quando aplicado a um conjunto de dados concretos.
EAD II - 2020 9
e.g. Dados sobre a idade dos indivíduos na amostra
Propriedades dos estimadores Quais as propriedades desejáveis que os estimadores devem possuir? Amostras pequenas (aplicado a grandes também)
Suficiência: Um estimador ^ ❑ diz-se ser suficiente se utiliza a informação disponível na amostra. Não enviesamento: Um estimador ^ ❑ diz-se não enviesado ou centrado para se E[ ^ ❑ ]= i.e. se fossem calculadas as estimativas obtidas em todas as amostras possíveis e determinada a média dos resultados, seria igual ao valor do parâmetro. e.g. de parâmetros Média Amostral média populacional
E[ X´ ] = µ
Variância Amostral
S2 =
∑ (X i − X´ )2 n
E[S2] =
n−1 2 ∙σ n
Variância amostral corrigida (melhor para amostras mais pequenas)
S2 =
∑ (X i − X´ )2 n−1
E[S2] =
σ2
^ diz-se eficiente se dentro dos não Eficiência: Um estimador ❑ enviesamentos tiver variância mínima. i.e. quando é aplicado a diferentes amostras, não deve produzir estimativas muito “afastadas”.
Para se avaliar a eficiência relativa, compara-se a variância de 2 estimadores. ~ e.g. se ^ ❑e ❑ (dois estimadores centrados)
EAD II - 2020 10
~ Var [ ^ ❑ ] ≤ Var [ ❑ ], Então
^ ❑ é mais eficiente.
Amostras grandes
Não enviesamento assintótico: Um estimador centrado assintoticamente para
^ ❑ diz-se não enviesado ou
^ ] =¿ E[ ❑ lim ¿ n→∞
^ seja consistente, isto é, a Consistência: Pretende-se que um estimador ❑ precisão do estimador deverá aumentar com o aumento da dimensão da amostra, no limite a precisão será total e o valor do estimador coincide com o verdadeiro valor do parâmetro. Eficiência assintótica: Um estimador ^ ❑ é assintoticamente mais eficiente se entre os estimadores consistentes em média quadrática, tiver uma distribuição assintótica com variância mínima. Um estimador centrado/eficiente assintoticamente, para grandes amostras, pode não ser centrado/eficiente para pequenas amostras.
Estimação por Intervalos ___________________________________________
EAD II - 2020 11
Na estimação por intervalos, em vez de se indicar um determinado valor estimado para certo parâmetro da população, constrói-se um intervalo de confiança que, com certo grau de certeza, previamente fixado, o contenha.
Método da variável fulcral
A escolha da estatística adequada para estimar o parâmetro deve conter o próprio parâmetro na sua expressão Não deve conter quaisquer outros parâmetros desconhecidos A sua distribuição não depende do parâmetro a estimar
Construção de Intervalo de Confiança É necessário: 1. 2. 3. 4.
Definir estimador (média, proporção) Conhecer distribuição amostral do estimador Estabelecer nível de confiança Conhecer dimensão da amostra (pequena, grande)
Nível de confiança
Os valores habituais de
λ são 0,9 0,95 0,99
Nível de confiança – nível de confiança determina a probabilidade de o valor do parâmetro estabelecido estar presente dentro de uma amostra (nível de significância reflete probabilidade de parâmetro não estar na amostra). i.e. se o mesmo estudo for feito com 100 amostras diferentes, e λ = 0,9, 10 amostras não conterão, provavelmente, o valor do parâmetro (µ) estabelecido.
e.g. estimar uma média de uma característica
12 EAD II - 2020
Passos 1. Definir o estimador a utilizar. Neste caso X´ 2. Estabelecer nível de confiança: λ = 0,9/0,95/0,99 3. Conhecer dimensão da amostra; n pequena : n≤ 30 grande :n>30 4. Conhece a distribuição amostral do estimador Quando não se conhece algum dos parâmetros da distribuição (para além do que se pretende estimar), é vulgar realizar uma estimação pontual, p.ex.: Desconheço o desvio padrão da população, utilizamos o desvio padrão amostral corrigido ou não em função da dimensão da amostra (se for amostra pequena, faz diferença, usamos o DP corrigido. Se for amostra grande, não há problema usar o normal). e.g. Pretende estimar-se a média de idade dos estudantes na população de estudantes de 1º ano, no ISCTE-IUL. Como calcular intervalo? SPSS: Tabela descritiva de amostra Analyse – Descriptive stat. – Descriptives… Intervalo de confiança Analyse – Descritive stat. – Explore – Estatistics: descriptives, 95% - continue – Display: Both – ok Output: “Mean” – estimativa pontual e erro padrão da média (SE) “Lower e Upper Bound” – valores de intervalo de confiança
Calcular manualmente Intervalo geral
1 t(n - 1) tabela t de Studente com n = ? e F = λ+ 2 α +t e -t ×
S'
√n
Subtrair/adicionar valores de
X´
]I0,95 [*µ = ] ; [
Amplitude do intervalo: x2 – x1 (limite de intervalo 2 – lim. inter. 1) Erro máximo admissível: Amplitude/2
EAD II - 2020 13
Determinação da Dimensão de Amostra Dimensão “ótima” depende de:
Tipo de informação desejada Erro máximo admissível ( 0), rejeita-se a hipótese nula. Existe diferença significativa entre as médias de satisfação atribuídas, verificando-se uma menor satisfação com as atitudes académicas do que com a família. Verifica-se que os estudantes apresentam um nível de satisfação menor com as atividades académicas do que com a vida familiar (t(276) = 4,422, p 50) Shapiro-Wilk – amostras pequenas (n ≤ 50)
e.g. estudantes iscte distribuição normal? H0 : a idade tem uma distribuição normal na pop. de alunos no ISCTE, 1º ano H1 : a idade não tem uma distribuição normal na pop. de alunos no ISCTE Como n > 50 Kolmogorov-Smirnov SPSS: Analyse – Descriptive Stat. – Explore – dependent list: idade – plots – Boxplots: none, Normality plots: - Continue – ok Resultados:
Gráficos ajudam a perceber se valores seguem distribuição normal.
Valor do teste: 0,284 Graus de Liberdade (df) = 280 (= n) Decisão: como a significância associada ao valor do teste (p = 0,0009 é inferior ao nível de significância ( α = 0,05), rejeita-se a hipótese nula, ou seja, a idade não tem distribuição normal na população de alunos. Para referência no texto: Kolmogorov-Smirnov(280) = 0,284, p < 0,001.
Caso se rejeite a H0 o pressuposto não se verifica. Podemos ver se distribuição da idade é aproximadamente normal. Se for aproximadamente normal, a falha do pressuposto não provoca alterações relevantes na decisão to teste t a uma média. Aplicamos teorema do limite central
Teorema do Limite Central
EAD II - 2020 26
Condição: deve existir amostra grande (n >30). Seja x1,x2, xn, uma amostra aleatória de dimensão n, com E[X] = µ e Var [X] = Sn = Xa+X2+Xn…
σ2 e
Então Sn converge em distribuição para uma distribuição normal de média nµ e desvio padrão σ√ n , ou seja para valores grandes de n, Logo, pelo teorema do limite central, se X for uma variável aleatória com média µ e variância σ finita , então a média amostral para amostras grandes seguirá uma distribuição aproximadamente normal com média e variância, ´X−μ ´ N (0,1) σ √n ´
- Distribuição aproximadamente normal
SPSS: Tabela descritiva – Skewness
Avaliar simetria da distribuição (Skewness) Skewness 1). H0 rejeitada, por significância ser inferior a 0.05. No conjunto de 279 alunos que responderam a esta questão encontram-se uma maioria de raparigas (65,9%). Verifica-se que a população de estudantes não se encontra igualmente distribuída por género, existindo mais raparigas do que rapazes (X2(1) = 28,391; p < 0,001).
Teste de independente do Qui-Quadrado O teste de independência do qui-quadrado tem como objetivo testar a independência de duas variáveis qualitativas, ou seja, testa a ausência de relação entre duas variáveis. H0 : A variável X1 é independente da variável X2. H1 : A variável X1 não é independente da variável X2. Ou H0 : Não existe relação entre as variáveis X1 e X2. H1 : Existe relação entre as variáveis X1 e X2.
EAD II - 2020 33
Condições de aplicação
Não mais 20% das classes com eij inferior a 5 Todas as classes com eij superior ou igual a 1
Para contornar o problema é possível determinar a probabilidade exata ou por monte carlo. e.g. será que existe alguma relação entre área de curso e género? Objetivo: Testar se existe alguma relação entre a área do curso e o género. Avaliar se existe relação entre duas variáveis qualitativas. Variáveis
Área do curso: v. qualitativa nominal Sexo do inquirido -v. qualitativa nominal dicotómica
Teste: teste de independência do Qui-Quadrado H0 : A área de curso é independente do género. H1 : A área de curso não é independente do género Ou H0 : A área de curso não está relacionada com o género. H1 : A área de curso está relacionada com o género.
Decisão: Rejeita-se a hipótese nula, com um nível de significância de 0,05, verifica-se que existe relação entre a área de curso e o género, ou seja, rapazes e raparigas têm preferências diferentes na área de curso (X2(2) = 27,657; p < 0,001). V de Cramer indica
EAD II - 2020 34
a existência de relação de fraca intensidade entre as variáveis (V de Cramer = 0,315 > 0,2). No conjunto de 279 alunos existem diferentes preferências em relação à área de curso. Verifica-se que a maioria das raparigas frequenta um curso na área das ciências sociais, enquanto apenas 26% dos rapazes frequenta formação nesta área. A área da engenharia e arquitetura é a menos frequentada pelas raparigas (9%) e a segunda mais frequentada pelos rapazes (31%). As preferências pelos cursos das ciências empresariais são semelhantes entre rapazes e raparigas (X2(2) = 27,657; p < 0,001).
Análise de Componentes Principais __________________________________
Conhecer os objetivos de uma ACP Avaliar os requisitos para a aplicação de uma ACP Analisar as variáveis a utilizar na realização de uma ACP Determinar os valores de variância, % de variância e Variância acumulada.
Analise de Componentes Principais – ACP Método multivariado de análise fator...