Sebenta Estatística II PDF

Title	Sebenta Estatística II
Author	viviane rauffus
Course	Estatística II
Institution	Instituto Universitário de Lisboa
Pages	40
File Size	2 MB
File Type	PDF
Total Downloads	463
Total Views	957

Preview

CLICK TO PREVIEW PDF

Summary

Resumo Estatística II – 2º ano, 2º semestre Viviane RauffusTópicos Estimação de parâmetros : estimação pontual e por intervalos  Testes de hipóteses: formulação , erros  Testes de hipóteses paramétricos : o teste t para uma média o teste t para duas médias – amostras independentes o teste t para ...

Description

EAD II - 2020 1

Resumo Estatística II – 2º ano, 2º semestre Viviane Rauffus

Tópicos

  



Estimação de parâmetros: estimação pontual e por intervalos Testes de hipóteses: formulação, erros Testes de hipóteses paramétricos: o teste t para uma média o teste t para duas médias – amostras independentes o teste t para duas médias – amostras emparelhadas Testes de hipóteses não-paramétricos: o Teste de ajustamento – Kolmogorov-Smirnov, Shapiro Wilk, Quiquadrado o Teste de Mann-Whitney o Teste de Wilcoxon o Teste de Kruskal-Wallis o Teste de independência do Qui-Quadrado



Análise em Componentes Principais

Revisões _________________________________________________________ Classificação de Variáveis

nº inteiros

nº decimais

EAD II - 2020 2

Estatística Descritiva – consiste na apresentação, análise e interpretação de um conjunto de dados, através da criação de instrumentos adequados, tais como: o Tabelas para condensar os dados – distribuição de frequências o Representação gráfica o Medidas de estatística descritiva: cálculo de valores numéricos que caracterizam os dados de uma forma global

Distribuição de frequências Frequência absoluta - Fi - corresponde ao nº de vezes que um determinado valor se repete na amostra ou população – resumo de info. total de cada categoria  Frequência relativa - fi - corresponde ao número de vezes que o valor da variável ocorre relativamente ao total da amostra (n) ou total da população (N) – dá o peso face ao total/relativo ao total: mas, são proporções, não usar só números totais  percentagens  Frequência acumuladas absolutas – cum Fi ou relativas – cum fi - representam o nº de dados com valor inferior ou igual à observação em causa – para ajudar a interpretar mais rapidamente – ex. onde estão 75% das respostas? 

Recomendações:   

Retirar percentagem acumulada em var. nominais Quando não existem falhas de resposta, apenas deixar uma coluna com % Percentagem normal e percentagens valda, deixar para vermos as não-respostas e para interpretarmos como deve ser

Tabelas de Frequências - v. qualitativa nominal

EAD II - 2020 3

- v. qualitativa ordinal (escala tipo likert)  SPSS: Analyse – Tables – Custom Tables Tabela de indicadores descritivos – v. quantitativas Médias descritivas da idade dos jovens  SPSS: Analyse – Descript. stat. – Descript.

Gráfico circular

Gráfico de barras

EAD II - 2020 4

Medidas Descritivas Univariadas Medidas de Localização – Localizam os valores da variável no eixo dos nºs reais 

Medidas de tendência central (identificam o centro de uma distribuição)  Média – X´ Determinada de forma aritmética traduz o alor que todos os elementos teriam, se fossem iguais. - v. quantitativas  Moda – Mo Traduz o valor/categoria que divide o conjunto dos dados em duas partes, reflete o valor máximo/mínimo de 50% dos dados. - pressupõe ordem, aplicada a v. quantitativas ou v. qualitativas ordinais  Mediana – Me Traduz o valor ou categoria mais frequente - qualquer tipo de variáveis



Medidas de tendência não central (traduzem informação sobre partes dos dados, diferentes do centro) 

Quartis (Qi , i=1,2,3,4) Q1 – acumulada 25% Q2 = Me Q3 – acumulada 75%

  

Decis (Di , i=1,2,…,10) – dividem informação em 10 partes iguais Percentis (Pi , i=1,2,…,100)

Estudo da simetria da distribuição ´ = Mo = Me Distribuição é simétrica se X

EAD II - 2020 5





Coeficiente de assimetria (Skweness) Coeficiente tem como referência a simetria normal. A distribuição será:  Simétrica – se coeficiente = 0  Assimétrica positiva - se coeficiente > 0  Assimétrica negativa - se coeficiente < 0

Medidas de Dispersão  Absoluta Intervalo de variação: R = máx(Xi) – mín(Xi) Intervalo interquartis: IQ = Q3 - Q1 Variância (amostra): s2 

Desvio padrão (amostra): s = Relativa

√s2

Coeficiente de variação (%): Cv =

S × 100 ´X

Medidas de Associação e Correlação Medidas de Associação Avaliam intensidade de associação entre duas variáveis.  

Phi - nominal vs. nominal V de Cramer – nominal vs. nominal/ordinal

Medida vaira para ambos de 0-1. 1 reflete associação mais forte. Tabela  SPSS: Analyse - Descriptive Stat. – Crosstabs… 

Eta – nominal vs. quantitativas Medida vaira de 0-1. 1 reflete associação mais forte. Tabela  SPSS: Analyse – Compare means – Means…

Medidas de Correlação Avaliam intensidade e direção da relação entre duas variáveis (-1  1) 

Ró (Rho) de Spearman – ordinal vs. ordinal/quantitativa Versão não paramétrica do coeficiente de correlação de Pearson, baseada em ordenações. Tabela  SPSS: Analyse – Descr.Stat. – Crosstabs… ou Analyse – Correlate – Bivariate

6 EAD II - 2020



R de Pearson – quantitativa vs. quantitativa Para analisar a relação entre duas variáveis quantitativas. Só deve ser utilizada quando detetarmos que relação existente entre duas variáveis é linear. Tabela  SPSS: Analyse – Descript. Stat. – Descriptives... ou Analyse – Correlate – Bivariate

Estatística descritiva – Recolha, apresentação, análise e interpretação de dados numéricos através da criação de instrumentos adequados: quadros, gráficos e indicadores numéricos Estatística Indutiva – Ramo da estatística que permite aplicar a investigação e obter generalizações aplicáveis a casos que não tenham sido observados. Reúne um conjunto de técnicas que permitem estimar ou testar indicadores sobre o conjunto total de casos (para além dos observadores).

População ou Universo   

Conjunto de elementos com uma ou mais características em comum (pessoas, empresas, produtos, famílias, etc.). Finita, infinita ou considerada como tal População alvo/População a inquirir

Amostragem 

Estudo, com detalhe considerável, de um grupo de indivíduos/objetos retirados da população que se pretende conhecer.

Amostra 

Subconjunto da população alvo/a inquirir.

Unidade Amostral 

Elemento disponível para ser selecionado em qualquer fase do processo amostral.

População Indicadores: Parâmetros 

Características de uma população num dado momento. São valores fixos e geralmente são desconhecidos. e.g. percentagem de indivíduos com o ensino superior em Portugal

EAD II - 2020 7

Amostra Indicadores: Estatísticas 

Características de uma amostra. Valores conhecidos para cada amostra em análise. e.g. Percentagem de indivíduos com o ensino superior. Parâmetros

Estatísticas

Métodos de Amostragem ___________________________________________   

Apresentar a estimação de parâmetros Distinguir a estimação pontual da estimação por intervalos Conhecer as propriedades dos estimadores

Método de amostragem probabilística/aleatória - Todos os elementos do universo têm uma probabilidade conhecida e diferente de zero de vir a fazer parte da amostra; cada amostra de dimensão n tem a mesma probabilidade de ser escolhida. Método de amostragem não probabilística/amostragem dirigida - Quando não se conhece a probabilidade que os elementos do universo têm de vir a fazer parte da amostra ou quando a probabilidade de alguns fazerem parte da amostra ser nula Vantagens 



Permite que se estime o grau de incerteza ou grau de erro com que se infere para a população. Apenas neste tipo de amostras o nível de confiança associado às estimativas pode ser medido e controlado, bem como a variação máxima admissível que se está disposto a incorrer nessas estimativas Evita enviesamentos provocados por uma escolha dirigida dos respondentes, uma vez que o processo de seleção é casual a partir de uma listagem de todos os indivíduos;

Dificuldades

EAD II - 2020 8

 

Nem sempre é possível listar todos os elementos do universo de trabalho. Depois de definidos os respondentes, não poderá haver substituições, pelo que os não-respondentes constituem uma importante fonte de enviesamento que deve ser minimizada.

Estatística Indutiva 1

Estimação

Determinação do valor de um parâmetro (), com base num conjunto de observações (dados).  

2

Pontual – propor um valor para um parâmetro Por intervalos – propor um intervalo de valores que deverá conter o valor do parâmetro, com um determinado grau de certeza

Ensaio de hipóteses

Permite validação ou não afirmação sobre os parâmetros de uma população.

Estimação Pontual Objetivo: usar toda a informação disponível a partir da amostra para propor um valor que é o melhor que se pode adiantar para um certo parâmetro do universo. Existem para isso dois procedimentos:  

Um estimador que pareça “bom” por gozar de propriedades “desejáveis” num estimador Construir um estimador que assegure que ele goza das propriedades “desejáveis”

Conceitos Estimador ( ^ ❑ ) – estatística utilizada para estimar um determinado parâmetro e.g. estimar a idade média de uma população: a fórmula da média serve de estimador para a média populacional Média Amostral

Média Populacional

Estimativa ( ^ ❑ *) – Resultado do estimador quando aplicado a um conjunto de dados concretos.

EAD II - 2020 9

e.g. Dados sobre a idade dos indivíduos na amostra

Propriedades dos estimadores Quais as propriedades desejáveis que os estimadores devem possuir? Amostras pequenas (aplicado a grandes também)  

Suficiência: Um estimador ^ ❑ diz-se ser suficiente se utiliza a informação disponível na amostra. Não enviesamento: Um estimador ^ ❑ diz-se não enviesado ou centrado para  se E[ ^ ❑ ]= i.e. se fossem calculadas as estimativas obtidas em todas as amostras possíveis e determinada a média dos resultados, seria igual ao valor do parâmetro. e.g. de parâmetros Média Amostral  média populacional

E[ X´ ] = µ



Variância Amostral

S2 =

∑ (X i − X´ )2 n

E[S2] =

n−1 2 ∙σ n

Variância amostral corrigida (melhor para amostras mais pequenas)

S2 =



∑ (X i − X´ )2 n−1

E[S2] =

σ2

^ diz-se eficiente se dentro dos não Eficiência: Um estimador ❑ enviesamentos tiver variância mínima. i.e. quando é aplicado a diferentes amostras, não deve produzir estimativas muito “afastadas”.

Para se avaliar a eficiência relativa, compara-se a variância de 2 estimadores. ~ e.g. se ^ ❑e ❑ (dois estimadores centrados)

EAD II - 2020 10

~ Var [ ^ ❑ ] ≤ Var [ ❑ ], Então

^ ❑ é mais eficiente.

Amostras grandes 

Não enviesamento assintótico: Um estimador centrado assintoticamente para

^ ❑ diz-se não enviesado ou

^ ] =¿ E[ ❑ lim ¿ n→∞





^ seja consistente, isto é, a Consistência: Pretende-se que um estimador ❑ precisão do estimador deverá aumentar com o aumento da dimensão da amostra, no limite a precisão será total e o valor do estimador coincide com o verdadeiro valor do parâmetro. Eficiência assintótica: Um estimador ^ ❑ é assintoticamente mais eficiente se entre os estimadores consistentes em média quadrática, tiver uma distribuição assintótica com variância mínima.  Um estimador centrado/eficiente assintoticamente, para grandes amostras, pode não ser centrado/eficiente para pequenas amostras.

Estimação por Intervalos ___________________________________________

EAD II - 2020 11

Na estimação por intervalos, em vez de se indicar um determinado valor estimado para certo parâmetro da população, constrói-se um intervalo de confiança que, com certo grau de certeza, previamente fixado, o contenha.

Método da variável fulcral   

A escolha da estatística adequada para estimar o parâmetro deve conter o próprio parâmetro na sua expressão Não deve conter quaisquer outros parâmetros desconhecidos A sua distribuição não depende do parâmetro a estimar

Construção de Intervalo de Confiança É necessário: 1. 2. 3. 4.

Definir estimador (média, proporção) Conhecer distribuição amostral do estimador Estabelecer nível de confiança Conhecer dimensão da amostra (pequena, grande)

Nível de confiança

Os valores habituais de

λ são 0,9 0,95 0,99

Nível de confiança – nível de confiança determina a probabilidade de o valor do parâmetro estabelecido estar presente dentro de uma amostra (nível de significância reflete probabilidade de parâmetro não estar na amostra). i.e. se o mesmo estudo for feito com 100 amostras diferentes, e λ = 0,9, 10 amostras não conterão, provavelmente, o valor do parâmetro (µ) estabelecido.

e.g. estimar uma média de uma característica

12 EAD II - 2020

Passos 1. Definir o estimador a utilizar. Neste caso  X´ 2. Estabelecer nível de confiança: λ = 0,9/0,95/0,99 3. Conhecer dimensão da amostra; n pequena : n≤ 30 grande :n>30 4. Conhece a distribuição amostral do estimador Quando não se conhece algum dos parâmetros da distribuição (para além do que se pretende estimar), é vulgar realizar uma estimação pontual, p.ex.: Desconheço o desvio padrão da população, utilizamos o desvio padrão amostral corrigido ou não em função da dimensão da amostra (se for amostra pequena, faz diferença, usamos o DP corrigido. Se for amostra grande, não há problema usar o normal). e.g. Pretende estimar-se a média de idade dos estudantes na população de estudantes de 1º ano, no ISCTE-IUL. Como calcular intervalo? SPSS: Tabela descritiva de amostra  Analyse – Descriptive stat. – Descriptives… Intervalo de confiança  Analyse – Descritive stat. – Explore – Estatistics: descriptives, 95% - continue – Display: Both – ok Output: “Mean” – estimativa pontual e erro padrão da média (SE) “Lower e Upper Bound” – valores de intervalo de confiança

Calcular manualmente Intervalo geral

1 t(n - 1)  tabela t de Studente com n = ? e F = λ+ 2 α  +t e -t ×

S'

√n

 Subtrair/adicionar valores de

X´

 ]I0,95 [*µ = ] ; [

Amplitude do intervalo: x2 – x1 (limite de intervalo 2 – lim. inter. 1) Erro máximo admissível: Amplitude/2

EAD II - 2020 13

Determinação da Dimensão de Amostra Dimensão “ótima” depende de:     

Tipo de informação desejada Erro máximo admissível ( 0), rejeita-se a hipótese nula. Existe diferença significativa entre as médias de satisfação atribuídas, verificando-se uma menor satisfação com as atitudes académicas do que com a família. Verifica-se que os estudantes apresentam um nível de satisfação menor com as atividades académicas do que com a vida familiar (t(276) = 4,422, p 50) Shapiro-Wilk – amostras pequenas (n ≤ 50)

e.g. estudantes iscte  distribuição normal? H0 : a idade tem uma distribuição normal na pop. de alunos no ISCTE, 1º ano H1 : a idade não tem uma distribuição normal na pop. de alunos no ISCTE Como n > 50  Kolmogorov-Smirnov SPSS: Analyse – Descriptive Stat. – Explore – dependent list: idade – plots – Boxplots: none, Normality plots:  - Continue – ok Resultados:

Gráficos ajudam a perceber se valores seguem distribuição normal.   



Valor do teste: 0,284 Graus de Liberdade (df) = 280 (= n) Decisão: como a significância associada ao valor do teste (p = 0,0009 é inferior ao nível de significância ( α = 0,05), rejeita-se a hipótese nula, ou seja, a idade não tem distribuição normal na população de alunos. Para referência no texto: Kolmogorov-Smirnov(280) = 0,284, p < 0,001.

Caso se rejeite a H0 o pressuposto não se verifica. Podemos ver se distribuição da idade é aproximadamente normal. Se for aproximadamente normal, a falha do pressuposto não provoca alterações relevantes na decisão to teste t a uma média. Aplicamos teorema do limite central

Teorema do Limite Central

EAD II - 2020 26

Condição: deve existir amostra grande (n >30). Seja x1,x2, xn, uma amostra aleatória de dimensão n, com E[X] = µ e Var [X] = Sn = Xa+X2+Xn…

σ2 e

Então Sn converge em distribuição para uma distribuição normal de média nµ e desvio padrão σ√ n , ou seja para valores grandes de n, Logo, pelo teorema do limite central, se X for uma variável aleatória com média µ e variância σ finita , então a média amostral para amostras grandes seguirá uma distribuição aproximadamente normal com média e variância, ´X−μ ´ N (0,1) σ √n ´

- Distribuição aproximadamente normal

SPSS: Tabela descritiva – Skewness

 Avaliar simetria da distribuição (Skewness) Skewness 1). H0 rejeitada, por significância ser inferior a 0.05. No conjunto de 279 alunos que responderam a esta questão encontram-se uma maioria de raparigas (65,9%). Verifica-se que a população de estudantes não se encontra igualmente distribuída por género, existindo mais raparigas do que rapazes (X2(1) = 28,391; p < 0,001).

Teste de independente do Qui-Quadrado O teste de independência do qui-quadrado tem como objetivo testar a independência de duas variáveis qualitativas, ou seja, testa a ausência de relação entre duas variáveis. H0 : A variável X1 é independente da variável X2. H1 : A variável X1 não é independente da variável X2. Ou H0 : Não existe relação entre as variáveis X1 e X2. H1 : Existe relação entre as variáveis X1 e X2.

EAD II - 2020 33

Condições de aplicação  

Não mais 20% das classes com eij inferior a 5 Todas as classes com eij superior ou igual a 1

Para contornar o problema é possível determinar a probabilidade exata ou por monte carlo. e.g. será que existe alguma relação entre área de curso e género? Objetivo: Testar se existe alguma relação entre a área do curso e o género. Avaliar se existe relação entre duas variáveis qualitativas. Variáveis  

Área do curso: v. qualitativa nominal Sexo do inquirido -v. qualitativa nominal dicotómica

Teste: teste de independência do Qui-Quadrado H0 : A área de curso é independente do género. H1 : A área de curso não é independente do género Ou H0 : A área de curso não está relacionada com o género. H1 : A área de curso está relacionada com o género.

Decisão: Rejeita-se a hipótese nula, com um nível de significância de 0,05, verifica-se que existe relação entre a área de curso e o género, ou seja, rapazes e raparigas têm preferências diferentes na área de curso (X2(2) = 27,657; p < 0,001). V de Cramer indica

EAD II - 2020 34

a existência de relação de fraca intensidade entre as variáveis (V de Cramer = 0,315 > 0,2). No conjunto de 279 alunos existem diferentes preferências em relação à área de curso. Verifica-se que a maioria das raparigas frequenta um curso na área das ciências sociais, enquanto apenas 26% dos rapazes frequenta formação nesta área. A área da engenharia e arquitetura é a menos frequentada pelas raparigas (9%) e a segunda mais frequentada pelos rapazes (31%). As preferências pelos cursos das ciências empresariais são semelhantes entre rapazes e raparigas (X2(2) = 27,657; p < 0,001).

Análise de Componentes Principais __________________________________    

Conhecer os objetivos de uma ACP Avaliar os requisitos para a aplicação de uma ACP Analisar as variáveis a utilizar na realização de uma ACP Determinar os valores de variância, % de variância e Variância acumulada.

Analise de Componentes Principais – ACP Método multivariado de análise fator...