Analyse Statistique pour la Gestion PDF

Title Analyse Statistique pour la Gestion
Course Outils Mathématiques
Institution Université de Lorraine
Pages 16
File Size 447.8 KB
File Type PDF
Total Downloads 94
Total Views 178

Summary

analyse stratégique pour la gestion DUT GEA 2A...


Description

ANALYSE STATISTIQUE POUR LA GESTION ESTIMATION ET TESTS D’HYPOTHÈSES INTRODUCTION Formalisme nécessaire : langage probabiliste vu en S2 Quelques lois utiles : revoir loi binomiale et loi normale, loi du Khi-deux, loi de Student

Loi du Khi-deux/de Pearson

n>0 . Une var X

Soit un entier probabilité :

f ( x) =

1 n

n −1 2

()

2 n ┌ 2 2

exp

suit la loi du Khi-deux à

n degrés de liberté si elle a pour densité de

( −x2 ) pour x >0, sinon 0 +∞

Avec (a>0),

┌ ( a) = ∫ u

a−1

exp (−u ) du

0

L(X )= X ² n E( X)=n σ ² x=2 n Var absolument continue : E(X) =

∫ xf ( x ) dx

: espérance mathématique représente la valeur moyenne de la var.

2 σ ² X =Var ( X )=E [( X−E ( X ) ) ]=E ( X )−( E ( X ) )² : variance représente la variation de la var autour 2

de E(X)

 

Si n = 1, L(X )= N (0,1) Si X1 … Xr sont des var mutuellement indépendantes de lois respectives X² n1 … X²nr, alors

L(X 1+…+ X r)= X ² n1+…+nr

1



Donc la somme de n var indépendantes de lois normales centrées réduites suit une loi du Khi-deux n degrés de liberté. Pour n grand ( n > 30), L(X )= N (n, √ 2 n) et L(√ 2 X )= N (√ 2 n−1,1)



Calculs : Table ou LOI.KHIDEUX(x;n)



à

Loi de Student/Student-Fisher Soit un entier probabilité :

f ( x) =

n>0 . Une var X

 

n degrés de liberté si elle a pour densité de

1 n+1 ) ∗┌ ( 2 √ nm ∗1 n ┌( ) 2

( )

x2 n L(X )=Sn 1+



suit la loi du Student à

n +1 2

Décrite par le statisticien Wiliam Gosset (pseudonyme Student) en 1908 E( X)=0 pour n>1 , loi centrée, toujours 0

σ2 x =



n pour n>2 n−2

X et U sont deux var indépendantes de lois respectives L(X )= N (0,1) , L(Y )=X ² n , X Alors Y suit une loi Sn . √ n  Approximation d’une loi de Student à n degrés de liberté par une loi normale centrée réduite si n>30 .



Si



Calculs : Table ou LOI.STUDENT(x,n,VRAI)

2

PARTIE 1 : ESTIMATION Etape d’une étude statistique

P d’individus, on s’intéresse à une information qualitative (intention de vote



Dans une population

  

pour un candidat) ou quantitative (taille, âge). Collection d’informations sur toute la population : recensement Collection sur une partie « échantillon » de la population (effectif grand coût élevé) : sondage On doit pouvoir étendre les informations obtenues à la production entière (inférence statistique)

Méthode de sondage    

Un sondage est une enquête portant sur une fraction de P qui doit être représentative de P . Avantages : coût, rapidité, souplesse permettant d’affiner (plus grand nombre de caractères) Limites : basés sur des théorèmes-limites donc précision acceptable si les échantillons ne sont pas trop petits ; vigilance dans le choix de l’échantillon Deux catégories : sondages probabilistes ou non probabilistes (méthode des quotas)

Sondage probabiliste au hasard non exhaustif

P



Le sondage d’un individu est dit probabiliste si la probabilité qu’à chaque individu de



est connu à priori. Le sondage est dit au hasard si chaque individu à la même probabilité d’être tiré (Si Card



d’être tiré

P

= N,

alors P (tirer l’individu n°i) = 1/N). Le sondage au hasard est non exhaustif lorsque l’effectif P ne varie pas au cours des tirages (ou très peu) ; la probabilité reste constante (ou est considérée comme telle) : tirage avec remise ou N très grand. Dans toute la suite, on se place dans ce cas.

Echantillon (n 30) on peut approcher par une loi normale. C. Variance de l’échantillon 

(X 1 … Xn) et note S² la var définie par :

On appelle variance de l’échantillon n

S ²= 





1 ´ ∑ ( Xi− X)² n i=1

n−1 σ² n 4 μ 4−2 σ 2 μ 4−3 σ μ 4−σ 4 n avec + Var( S 2 )= −2 Proposition 5 : μn=E( ( X−m) ) n n3 n2 moment centré d’ordre n de X . n S ² P → σ ² P : convergence en probabilité, la probabilité tend vers 1 Proposition 6 : n−1 Proposition 4 :

E ( S )= 2

le

D. Loi de probabilité de S² : Proposition 7 : 



II.

Si

L(X )=n (m, σ ),

Sinon, pour n

grand,

alors L

( ) ( √

X´ −m n S2 =Sn−1 2 =X ² n−1 ;L S /√ n−1 σ

L ( S 2) =N σ 2−

(

)

)

( )

´ −m μ 4−σ 2 X ;L =N (0,1) n s √ n−1

Estimation d’une moyenne A. Rappel des notations





Population P=N individus numérotés de 1 à N. Caractère quantitatif étudié C. Moyenne et variance C dans P : m , σ² .

m est inconnue, on cherche à l’estimer grâce à notre échantillon. Echantillon E=n individus numérotés de 1 à n. Moyenne et variance de C dans E : ´x , s ² B. Estimation ponctuelle de

m

Théorème 1 : On estime la moyenne

m

de

X

par la moyenne

´x

de l’échantillon de

X . Ceci se

justifie par la loi des grands nombres qui montre que :

X 1+ X 2+…+ Xn X´ = → m = E ( X ) lorsque n→ + ∞ n 5

´ On dit que X

est un estimateur de

m .

Ex : On s’intéresse à l’âge dans une classe d’étudiants. Supposons que l’on prélève un échantillon de taille 5. Premier tirage : x 1=20, x 2=21, x 3=19, x 4=20, x 5=21, x 6=20 Dans cet échantillon : ´x

1 = 20,167

Second tirage : x 1=20, x 2=21, x 3=20, x 4=23, x 5=21, x 6=20 Dans cet échantillon : ´x 2 = 20,833 Quelle confiance accorder à cette estimation ? Elle dépend fortement de l’échantillon prélevé. Pour gagner en précision : estimation par intervalle de confiance.

C. Intervalle de confiance de m On souhaite connaitre un intervalle qui contienne la valeur inconnue de m avec une certaine probabilité.

P ( A ≤ m≤ B )=1−α Sa réalisation (a,b) est un intervalle réel appelé intervalle de confiance de m au risque ou seuil α . 1 - α est appelé degré (ou niveau) de confiance de l’intervalle.

On fixe un nombre 0< α u α 2

α σ = 2 2

avec

T=

´ X−m σ /√ n

de T.

d’une var T est la valeur

z telle que P(T > z)=a .

( ( ))

Ainsi P T dn ) = p donc dn> c ↔ p < α . On rejette (H0) si p 0.01 =

II.

α donc on accepte.

Test d’indépendance du Khi-Deux

Problématique : On observe deux caractères sur une même population ; on souhaite savoir s’ils dépendent l’un de l’autre. On va tester l’indépendance des deux caractères grâce à un test d’indépendance du Khi-deux. On prélève un échantillon et on utilise les données obtenues pour conclure. Exemple On souhaite comparer l’efficacité de deux médicaments agissant sur la même maladie, mais à des prix très différents : l’un est bon marché, l’autre est cher. La sécurité sociale a effectué une enquête sur les guérisons obtenues en suivant l’un des deux traitements sur 250 malades. Les résultats (effectifs) sont consignés dans le tableau suivant : Guérison Non-guérison

Médicament cher 44 6 50

Médicament bon marché 156 44 200

200 50 250

Mise en œuvre du test Dans une population P, on observe deyx caractères quantitatifs ou qualitatifs :  Le caractère C ayant r modalités  Le caractère C’ ayant s modalités Dans notre exemple : P= {malades}

11

C : devenir du malade ; avec deux modalités : guérison ou non-guérison C’ : coût du médicament ; avec deux modalités : cher ou bon-marché Expérience aléatoire : On extrait au hasard un individu de P. On note X la var associée au caractère C : X a pour réalisation la valeur du caractère C pour l’individu extrait. On note x = i si l’individu tiré à la modalité numéro i du caractère C, pour i = 1 , … , r. On note Y la var associée au caractère C’ : y = j si l’individu tiré a la modalité numéro j du caractère C’, pour j = 1 , … , s. Expérience aléatoire : On extrait au hasard n individus de P. On note (X1,…,Xn) et (Y1,…,Yn) les échantillons des var respectives X et Y. On note :  Ƞi j le nombre d’individus de l’échantillon ayant la modalité i pour X (ou le caractère C) et la modalité j pour Y (ou le caractère C’).  Ƞ i● le nombre d’individus de l’échantillon ayant la modalité i pour X. C’est l’effectif marginal de la modalité i.  Ƞ● j le nombre d’individus de l’échantillon ayant la modalité j pour Y. C’est l’effectif marginal de la modalité j. r

Ƞi jȠ ● j=¿ ∑ Ƞi j i=1

On a :

s

Ƞi●=∑ ¿ j=1

r

s

i=1

j=1

s

r

Ƞ=∑ ∑ Ƞi j=∑ Ƞi ●=∑ Ƞ● j i=1 j=1

On effectue le test suivant : (H0) indépendance des deux caractères C et C’ (H1) dépendance Sous l’hypothèse (H0), on a, pour tout i = 1, …, r et pour tout j = 1, …, s.

P ( X=i ,Y = j ) =P( X=i ) P (Y = j) → propriété d’indépendance On définit une var par : r

Dn=∑

s



(

i=1 j=1

Si

Ƞi ● Ƞ● j Ƞ Ƞi ● Ƞ● j Ƞ

Ƞi j−

)

2

Ƞi ●Ƞ● j≥ 5 cette var suit une loi du Khi-deux à (r – 1) (s – 1) degrés de liberté. dn sa réalisation dans l’échantillon prélevé.

Notons

On se donne α une probabilité appelé risque de première espèce ou niveau critique du test. C’est la probabilité de rejeter l’hypothèse (H0) si elle est vraie. On cherche dans la table du Khi-deux le quantile d’ordre 1 – α de la loi du Khi-deux à (r – 1) (s – 1) degrés

P ( Dn < c ) =1 −α Critère de rejet : On rejette l’hypothèse (H0) si dn > c . de liberté : c’est le nombre c tel que :

Avec nos notations : X Y Guérison Non-guérison

Ƞ● j

Médicament cher 44 6 50

Médicament bon marché 156 44 200

Ƞi ● 200 50 N = 250

12

Ici r = 2, s = 2 donc la var D suit une loi du Khi-deux à 1 degré de liberté. Nous allons comparer les effectifs théoriques et les effectifs observés :

Effectif théorique i

j

Effectif observé ni j

1 1 2 2

1 2 1 2

44 156 6 44

Ƞi ●Ƞ ● j Ƞ (200*50)/250 = 40 (200*200)/250 = 160 (50*50)/250 = 10 (50*200)/250 = 40



(

Ƞi ●Ƞ ● j Ƞ Ƞi ●Ƞ ● j Ƞ

Ƞi j−

)

2

(44-40)²/40 = 0.4 (156-160)²/160 = 0.1 (6-10)²/10 = 1.6 (44-40)²/40 = 0.4 2.5

Puis nous calculons dans cet échantillon de la var D. On a obtenu d = 2.5 On détermine la valeur c, c’est le quantile d’ordre 0.95 si on choisit un risque d’erreur α =5 % Par lecture dans la table du Khi-deux, avec 1 degré de liberté et 5%, on obtient c = 3.84 On a : d < c, donc on accepte l’hypothèse d’indépendance On peut donc raisonnablement estimer ici que le taux de guérison ne dépend pas du prix du médicament.

13

PARTIE 3 : TESTS

DE COMPARAISON DE MOYENNE

But : Confronter l’estimation d’une moyenne (obtenue à partir d’un sondage aléatoire) à une norme fixée à priori. Exemple 1 : Dans un processus de fabrication, le diamètre moyen d’une pièce est-il compatible avec une norme spécifiée ? Ou au contraire l’écart observé indique-t-il un dérèglement de la machine ? Exemple 2 : Dans le contrôle d’une comptabilité, le nombre d’erreurs relevées dans l’échantillon est-il conciliable avec un pourcentage d’erreurs acceptable ou significativement plus élevé ? Mise en œuvre : Construire un test d’hypothèses. On cherche à estimer la moyenne m d’une var associée à un caractère dans une population P. On souhaite la comparer à une valeur fixée m0. On appelle test d’hypothèses une règle de choix entre deux hypothèses : (H0) Hypothèse nulle m = m0 (H1) Hypothèse alternative m ≠ m0 Remarque : On peut aussi choisir m > m0 ou m < m0 selon le problème considéré. On cherche à déterminer une règle de décision permettant de choisir entre (H0) et (H1). On extrait par un tirage au hasard non exhaustif un échantillon de n individus de la population P : (X1, …, Xn) appartenant à Rn réalisation de l’échantillon (X1, …, Xn). Notons ´x la valeur observée de la moyenne dans l’échantillon. On va déterminer une partie B1 telle que si

´x ∈ B 1

on rejette H0 au profit de H1, sinon on ne rejette pas

H0. C’est la règle de décision. On appelle B1, la région de rejet ou région critique de H0. La règle de décision est sous la forme : Si ´x ∈ B 1 , on rejette H0 – on accepte H1 Si

´x ∋ B 1 , on accepte H0 – on rejette H1

On appelle erreur de première espèce ou seuil de test la probabilité d’accepter H1 lorsque H0 est vraie. On la note α . On se place dans le cas de la loi normale avec

σ

connu ( L ( X ) =N (m, σ ) ) ou effectif de l’échantillon

suffisamment grand ( n ≥ 30).

´ suit encore une loi normale L ( X´ ) =N (m; X

Alors la var

Déterminons la règle critique au seuil Sous H0 :

(

1−α=P −u

(

¿ P m 0−u

σ ) √n

α.

)

( α2 )≤ ´x−mσ 0 ≤u( α2 ) √n

( α2 ) √σn ≤ x´ ≤ m 0+u ( α2 ) √σn )

Alors la région critique sera composée de deux parties symétriques :

14

¿ α σ m0+u ;+ ∞¿ 2 √n α σ B 1=¿−∞;m 0−u ¿U ¿ 2 √n

()

()

On en déduit la règle de décision :

¿ m0+ u

Si ´x

( α2 ) √σn

ou ´x 12,68 alors on rejette H0. Ici ´x = 12,65 donc on La règle de décision est : Si ´x < 12,52 ou ´x accepte H0. Les mesures effectuées sur l’échantillon ne permettent pas de mettre en doute le bon réglage de la machine.

TEST UNILATERAL A DROITE (T2)

H0 H1

Région critique :

m = m0 m > m0

´x >m 0+u ( α )

Règle de décision : Si

σ √n

´x >m 0+u ( α )

σ √n

on rejette H0

Sinon on ne rejette pas H0

TEST UNILATERAL A GAUCHE (T3)

H0 H1

m = m0 m < m0

15

Région critique :

´x m0+u ( α ) = 12,60 + 1,645*(0,4/10) = 12,6658 √n Ici ´x = 12,65 < 12,6658. On accepte H0. On conclut sur le bon fonctionnement de la machine. centré réduite : u(0,95) = 1,645 car

16...


Similar Free PDFs