Estatistica Notas de Aula PDF

Title Estatistica Notas de Aula
Course Probabilidade E Estatística
Institution Universidade Tecnológica Federal do Paraná
Pages 152
File Size 4.2 MB
File Type PDF
Total Downloads 52
Total Views 156

Summary

Estatistica Notas de Aula...


Description

Estatística – Notas de Aulas

ESTATÍSTICA Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

Professor Inácio Andruski Guimarães, DSc.

1

2

Estatística – Notas de Aulas

SUMÁRIO 1

CONCEITOS BÁSICOS ...............................................................................................

5

1.1 Estatística 1.2 Estatística Descritiva 1.3 Estatística Inferencial 1.4 População 1.5 Amostra 1.6 Variável 1.7 Séries Estatísticas

2

APRESENTAÇÃO DE DADOS ...................................................................................

7

2.1 Apresentação Tabular 2.2 Apresentação Gráfica

3

DISTRIBUIÇÃO DE FREQÜÊNCIAS .......................................................................

11

3.1 Dados Brutos 3.2 Rol 3.3 Amplitude Total 3.4 Número de Classes 3.5 Amplitude de Classe 3.6 Intervalo de Classe 3.7 Freqüência Simples 3.8 Freqüência Acumulada 3.9 Freqüência Relativa 3.10 Ponto Médio de Classe 3.11 Representações Gráficas

4

MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO ..................................

17

4.1 Média Aritmética 4.2 Mediana 4.3 Moda 4.4 Relação entre Média, Mediana e Moda 4.5 Percentil 4.6 Decil 4.7 Quartil

5

MEDIDAS DE DISPERSÃO ........................................................................................

26

5.1 Amplitude 5.2 Desvio Médio 5.3 Variância 5.4 Desvio Padrão 5.5 Coeficiente de Variação

6

ASSIMETRIA E CURTOSE ....................................................................................... 6.1 Coeficiente de Assimetria 6.2 Coeficiente de Curtose

Professor Inácio Andruski Guimarães, DSc.

32

3

Estatística – Notas de Aulas

7

TEORIA DA PROBABILIDADE ................................................................................

36

7.1 Teoria dos Conjuntos 7.2 Técnicas de Contagem 7.3 Introdução à Probabilidade

8

VARIÁVEIS ALEATÓRIAS ........................................................................................

47

8.1 Tipos de Variáveis Aleatórias 8.2 Função de Probabilidade 8.3 Função Densidade de Probabilidade 8.4 Expectância 8.5 Variância 8.6 Distribuição Conjunta 8.7 Independência 8.8 Função Distribuição Acumulada

9

MODELOS DE PROBABILIDADE PARA VARIÁVEIS DISCRETAS ................

56

9.1 Distribuição Uniforme 9.2 Distribuição de Bernoulli 9.3 Distribuição Binomial 9.4 Distribuição Geométrica 9.5 Distribuição de Pascal 9.6 Distribuição de Poisson 9.7 Distribuição Hipergeométrica 9.8 Distribuição Multinomial

10

MODELOS DE PROBABILIDADE PARA VARIÁVEIS CONTÍNUAS ...............

61

10.1 Distribuição Uniforme 10.2 Distribuição Normal 10.3 Distribuição Gama 10.4 Distribuição Exponencial 10.5 Distribuição de Weibull 10.6 Distribuição Qui-Quadrado 10.7 Distribuição t, de Student 10.8 Distribuição F , de Fisher 10.9 Aproximação da Distribuição Binomial pela Normal

11

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA .................................................... 11.1 Estimadores e Estatísticas 11.2 Estimadores Eficientes 11.3 Estatísticas Suficientes 11.4 Família Exponencial 11.5 Método da Máxima Verossimilhança 11.6 Distribuição Amostral da Média

Professor Inácio Andruski Guimarães, DSc.

67

4

Estatística – Notas de Aulas

12

INTERVALOS DE CONFIANÇA ............................................................................... 12.1 Intervalo de Confiança para a Média

74

12.2 Intervalo de Confiança para a Diferença de Médias 12.3 Intervalo de Confiança para a Proporção 12.4 Intervalo de Confiança para a Diferença de Proporções 12.5 Intervalo de Confiança para a Variância 12.6 Determinação do Tamanho de uma Amostra 13

CONTROLE ESTATÍSTICO DE PROCESSO (CEP) ..............................................

81

13.1 Conceitos 13.2 Diagrama de Pareto 13.3 Diagrama de Ishikawa 13.4 Gráfico de Controle para Média e Amplitude 13.5 Capabilidade 13.6 Gráficos de Controle para Amplitudes Móveis 13.7 Gráficos de Controle por Atributos

14

TEORIA DA DECISÃO ESTATÍSTICA ....................................................................

99

14.1 Teste de Hipótese 14.2 Teste de Hipótese para a Média 14.3 Teste de Hipótese para a Diferença de Médias 14.4 Teste de Hipótese para a Proporção 14.5 Teste de Hipótese para a Diferença de Proporções

15

ANÁLISE DA VARIÂNCIA (ANOVA) ......................................................................

105

15.1 ANOVA para um Fator 15.2 ANOVA para dois Fatores

16

TESTE QUI-QUADRADO ...........................................................................................

113

16.1 Teste de Bondade de Ajustamento 16.2 Teste de Independência de Variáveis

17

TESTES NÃO PARAMÉTRICOS ...............................................................................

116

17.1 Teste do Sinal 17.2 Teste U, de Wilcoxon, Mann e Whitney 17.3 Teste H, de Kruskal – Wallis

18

ANÁLISE DE CORRELAÇÃO E DE REGRESSÃO ...............................................

121

18.1 Coeficiente de Correlação 18.2 Análise de Regressão Linear 18.3 Método dos Mínimos Quadrados 18.4 Modelo Exponencial 18.5 Modelo Potência 18.6 Modelo Logarítmico

APÊNDICE 1 – Estatística Básica Utilizando o R

.................................................. 136

Professor Inácio Andruski Guimarães, DSc.

Estatística – Notas de Aulas

1.

5

CONCEITOS BÁSICOS

1.1 Estatística A Estatística compreende os métodos científicos utilizados para coleta, organização, resumo, apresentação e análise, ou descrição, de dados de observação. Também abrange métodos utilizados para tomadas de decisões sob condições de incerteza. 1.2 Estatística Descritiva Inclui as técnicas empregadas para coleta e descrição de dados. Também é empregada na análise exploratória de dados. 1.3 Estatística Inferencial É utilizada para tomar decisões a respeito de uma população, geralmente utilizando dados de amostras. Uma vez que tais decisões são tomadas sob condições de incerteza, faz-se necessário o uso de conceitos relativos à Teoria da Probabilidade. 1.4 População Um dos conceitos fundamentais na Estatística, é empregado para designar um conjunto de indivíduos que possuem pelo menos uma característica, ou atributo, em comum. Alguns autores empregam o termo universo para referir-se a uma população. 1.5 Amostra Refere-se a qualquer subconjunto de uma população. A amostragem é uma das etapas mais importantes na aplicação de métodos estatísticos, envolvendo aspectos como determinação do tamanho da amostra, metodologia de formação e representatividade da amostra com relação à população. 1.6 Variável É usada para atribuição dos valores correspondentes aos dados observados. É importante ressaltar que os dados em questão não são necessariamente numéricos, uma vez que podem dizer respeito a atributos qualitativos observados na população. Por esta razão costuma-se classificar as variáveis nas categorias definidas a seguir. 1.6.1 – Variável Numérica. Também chamada variável quantitativa, é utilizada para representação de dados numéricos, ou quantitativos. 1.6.1.1 – Variável Numérica Discreta. Variável cujo domínio é um conjunto enumerável. Geralmente corresponde a dados de contagem. Exemplo: Número de defeitos em um componente, total de unidades defeituosas em uma amostra. 1.6.1.2 – Variável Numérica Contínua. Variável cujo domínio é um conjunto não enumerável. Refere-se a dados de mensuração. Exemplo: Diâmetro de um eixo, peso de um recém-nascido. 1.6.2 – Variável Qualitativa. É utilizada para representação de atributos. Pode ser dicotômica, ou binária, quando assume apenas dois possíveis valores, ou politômica, também referida como multinomial, quando pode assumir mais de dois possíveis valores. 1.6.2.1 – Variável Qualitativa Categórica. É empregada para representar categorias, ou classes, às quais pertencem as observações registradas. Exemplo: Cor dos olhos, sexo. 1.6.2.2 – Variável Qualitativa Ordinal. Utiliza-se este tipo de variável em situações nas quais presume-se a necessidade de uma ordem, crescente ou decrescente, para os resultados. Exemplo: Grau de escolaridade, categoria salarial.

Professor Inácio Andruski Guimarães, DSc.

6

Estatística – Notas de Aulas

1.7 – Séries Estatísticas Uma série estatística consiste basicamente de um conjunto de valores observados para diferentes categorias de uma variável. As séries estatísticas são classificadas em três categorias, apresentadas a seguir. 1.7.1 – Série Temporal. A variável de interesse refere-se a um período de tempo. Exemplo 1.7.1 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY.

Mês Faturamento

Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY). Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68

Dez 0,82

Total 10,77

Fonte: Dados fictícios.

1.7.2 – Série Geográfica. Aqui a variável estudada é o local. Exemplo 1.7.2 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY, nas respectivas regiões de atuação. Tabela 1.2 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região. Grande Interior Interior Porto Interior Campo Região Cuiabá Curitiba do PR de SC Alegre do RS Grande 2,75 2,58 1,82 1,42 0,80 0,75 0,70 Faturamento

Total 10,77

Fonte: Dados fictícios.

1.7.3 – Série Específica. Exemplo 1.7.3 - A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY, especificado por produto. Tabela 1.3 – Faturamento (R$ 1000000) da empresa ABC (20XY), por produto. Produto Rolamento Mancal Óleo Junta Válvula Retentor Faturamento 3,48 1,84 1,75 1,45 1,25 1,00

Total 10,77

Fonte: Dados fictícios.

1.7.4 – Séries Combinadas. Na prática, é comum combinar séries estatísticas com o objetivo de aumentar, ou detalhar, as informações disponíveis. Exemplo 1.7.4 – O quadro a seguir mostra o faturamento da empresa ABC por produto e região, isto é, uma combinação de uma série geográfica e uma série específica. Quadro 1.1 – Faturamento (R$ 1000000) da empresa ABC, por produto e região. Produto Região Total Rolamento Mancal Óleo Junta Válvula Retentor Grande Curitiba 0,89 0,46 0,45 0,37 0,32 0,26 2,75 Interior do PR 0,83 0,44 0,42 0,35 0,30 0,24 2,58 Interior de SC 0,59 0,31 0,30 0,25 0,21 0,16 1,82 Porto Alegre 0,45 0,24 0,23 0,19 0,16 0,15 1,42 Interior do RS 0,26 0,14 0,13 0,11 0,09 0,07 0,80 Campo Grande 0,24 0,13 0,12 0,10 0,09 0,07 0,75 Cuiabá 0,22 0,12 0,10 0,08 0,08 0,10 0,70 Total 3,48 1,84 1,75 1,45 1,25 1,00 10,77 Fonte: Dados fictícios.

Professor Inácio Andruski Guimarães, DSc.

7

Estatística – Notas de Aulas

2.

APRESENTAÇÃO DE DADOS

A apresentação de dados pode ser efetuada através de dois modos, tabular ou gráfico, não mutuamente exclusivos. Para esta tarefa deve-se ter em mente o objetivo da apresentação, no que diz respeito ao nível de detalhamento e ao tipo de informação que se deseja extrair dos dados em questão. A apresentação tabular permite obter informações mais detalhadas, enquanto a apresentação gráfica permite uma compreensão mais rápida a respeito do comportamento da variável observada. 2.1 – Apresentação Tabular Em primeiro lugar, é importante frisar que os termos “tabela” e “quadro” são utilizados para designar objetos distintos. O primeiro designa o arranjo de dados na forma de grade com laterais abertas, enquanto o segundo termo é empregado para designar arranjos em grades com laterais fechadas, conforme a Figura 2.1. Variável

Total

Valores

Variável

Valores

Total Figura 2.1 – Formatos de tabela e quadro.

Independente do formato escolhido, uma tabela deve conter três elementos: 1 – Cabeçalho. Deve conter o máximo de informações sobre os dados apresentados 2 – Corpo. De dimensões variáveis, é o espaço destinado à apresentação propriamente dita dos dados. 3 – Rodapé. Deve conter a fonte dos dados e outras informações necessárias à compreensão. 2.1.1 – Tabela Simples. É o tipo mais comum de tabela, utilizado para representar os valores correspondentes a uma série estatística. A disposição pode ser feita tanto por colunas como por linhas. Exemplo 2.1 – Exemplo de tabela simples. Dados dispostos em linha.

Mês Faturamento

Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY). Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68 Fonte: Dados fictícios.

Exemplo 2.2 - Exemplo de tabela simples. Dados dispostos em coluna. Tabela 2.1 – Número de beneficiários de planos privados de saúde, em milhões, no período 2000 – 2006. Ano Beneficiários (milhões) 2000 34,5 2001 34,3 35,0 2002 36,2 2003 2004 38,8 41,6 2005 2006 44,7 Fonte: Jornal Folha de São Paulo. 4/6/2007

Professor Inácio Andruski Guimarães, DSc.

Dez 0,82

Total 10,77

8

Estatística – Notas de Aulas

2.1.2 – Tabela de Dupla Entrada. É utilizada para representar dados de duas séries combinadas. Exemplo 2.3 – Exemplo de tabela de dupla entrada. Tabela 2.2 – Faturamento (R$ 1000000) da empresa ABC, por produto e região. Produto Região Total Rolamento Mancal Óleo Junta Válvula Retentor Grande Curitiba 0,89 0,46 0,45 0,37 0,32 0,26 2,75 Interior do PR 0,83 0,44 0,42 0,35 0,30 0,24 2,58 Interior de SC 0,59 0,31 0,30 0,25 0,21 0,16 1,82 Porto Alegre 0,45 0,24 0,23 0,19 0,16 0,15 1,42 Interior do RS 0,26 0,14 0,13 0,11 0,09 0,07 0,80 Campo Grande 0,24 0,13 0,12 0,10 0,09 0,07 0,75 Cuiabá 0,22 0,12 0,10 0,08 0,08 0,10 0,70 Total 3,48 1,84 1,75 1,45 1,25 1,00 10,77 Fonte: Dados fictícios.

2.1.3 – Tabela de Múltiplas Entradas. É utilizada na representação de dados correspondentes a mais de duas séries. Exemplo 2.4 – Exemplo de tabela de múltipla entrada. Tabela 2.3 – Unidades vendidas por região e por semestre. Produto Região Rolamento Mancal o o o 1 Semestre 2 semestre 1 Semestre 2o semestre Sul 38 24 18 14 Sudeste 26 20 14 12 Centro Oeste 16 18 8 17 Total 80 62 40 43

Total 94 72 59 225

Dados Fictícios.

2.2 – Apresentação Gráfica Para a apresentação gráfica deve-se levar em consideração o tipo de série estatística estudada e o, também, o tipo de variável observada, quantitativa ou qualitativa. Também é possível combinar as duas formas de apresentação, tabular e gráfica. Os principais tipos de gráficos são: 2.2.1 – Gráfico Linear. É utilizado principalmente para representar séries temporais. Exemplo 2.5 Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY). Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68 Fonte: Dados fictícios.

Faturam ento da Em pres a ABC R$ 1000000,00

Mês Faturamento

1,5 1 0,5 0 1

2

3

4

5

6

7

8

9

Me s e s

Professor Inácio Andruski Guimarães, DSc.

10

11

12

Dez 0,82

Total 10,77

9

Estatística – Notas de Aulas

2.2.2 – Gráfico Setorial. É utilizado para representar séries geográficas ou específicas. Exemplo 2.6 Tabela 1.2 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região. Porto Interior Campo Grande Interior Interior Região Cuiabá Curitiba do PR de SC Alegre do RS Grande Faturamento 2,75 2,58 1,82 1,42 0,80 0,75 0,70

Total 10,77

Fonte: Dados fictícios. Faturamento por Região

Grande Curitiba

Cuiabá; 0,7 Interior do PR

Campo Grande; 0,75

Grande Curitiba; 2,75

Interior de SC

Interior do RS; 0,8

Porto Alegre

Porto Alegre; 1,42 Interior de SC; 1,82

Interior do RS

Interior do PR; 2,58

Campo Grande Cuiabá

2.2.3 – Gráfico de Colunas. Pode ser utilizado no lugar do gráfico setorial. Exemplo 2.7 – Os dados da Tabela 1.2 poderiam ser representados através do gráfico a seguir. Faturamento por Região

3 2,5 2 1,5 1 0,5 0 Grande Curitiba

Interior do PR Interior de SC

Porto Alegre

Interior do RS Campo Grande

Cuiabá

2.2.4 – Gráfico de Colunas Superpostas. É utilizado para representar os dados de tabelas de dupla entrada. Exemplo 2.8 – Representação dos dados da Tabela 2.2. Faturamento por Produto e por Região (%)

100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

Retentor Válvula Junta Óleo Mancal

Grande Curitiba

Interior do Interior de PR SC

Porto Alegre

Interior do RS

Campo Grande

Professor Inácio Andruski Guimarães, DSc.

Cuiabá

Rolamento

10

Estatística – Notas de Aulas

2.2.5 – Gráfico de Colunas Justapostas. È utilizado para representar dados de tabelas de dupla entrada. Faturam e nto por Produto e por Região 1 0,8

Rolamento

0,6

Mancal

0,4

Óleo

0,2

Junta Válvula

0 Grande Interior do Interior de Curitiba PR SC

Porto Alegre

Interior do Campo RS Grande

Professor Inácio Andruski Guimarães, DSc.

Cuiabá

Retentor

11

Estatística – Notas de Aulas

3.

DISTRIBUIÇÕES DE FREQÜÊNCIAS

As distribuições de freqüências são usadas principalmente para a apresentação de grandes conjuntos de dados. 3.1 – Dados Brutos É a designação para um conjunto de dados não ordenados. 3.2 – Rol É um conjunto de dados ordenados. Exemplo 3.1 – Teores de ácido palmítico (%) observados em 120 amostras de óleos vegetais, utilizadas em um estudo para comparar as características de óleos obtidos a partir de diferentes fontes. 3,8 3,9 4,1 4,5 4,6 4,8 4,8 4,8 4,9 5 5,1 5,1 5,1 5,1 5,1

5,2 6,1 6,4 8,3 10,1 10,9 11,5 5,4 6,1 6,4 8,3 10,2 10,9 11,5 5,4 6,1 6,5 9,3 10,4 11 11,5 5,5 6,2 6,6 9,4 10,4 11 11,5 5,6 6,2 6,7 9,6 10,5 11 11,6 5,7 6,2 6,7 9,7 10,5 11 11,6 5,9 6,2 6,8 9,7 10,5 11,1 11,9 5,9 6,2 7 9,7 10,5 11,1 11,9 5,9 6,2 7,2 9,8 10,5 11,1 12,2 6 6,2 7,5 9,8 10,5 11,1 12,2 6 6,2 7,6 9,8 10,7 11,2 12,2 6 6,2 7,7 9,9 10,8 11,2 13 6 6,2 8 10 10,8 11,3 13 6,1 6,3 8 10 10,9 11,4 13,1 6,1 6,4 8,2 10 10,9 11,4 13,1 Fonte: Brodnjak – Vončina et al. (2005)

3.3 – Amplitude Total (R ) É a diferença entre o valor máximo e o valor mínimo observados no conjunto de dados, isto é:

R

x( n )

x (1)

(3.1)

Exemplo 3.2 – Para o conjunto de dados do exemplo anterior a amplitude total é R = 13,1 – 3,8 = 9,3 3.4 – Número de Classes (k) Pode ser determinado arbitrariamente ou de acordo com a expressão a seguir, denominada fórmula de Sturges, onde n é o número de observações, ou tamanho da amostra.

k

1 3,3 log n

(3.2)

Exemplo 3.3 – ...


Similar Free PDFs