Chimie - Test d\'homogénéité: proportion, moyenne, variance, tests sur séries appariées PDF

Title Chimie - Test d\'homogénéité: proportion, moyenne, variance, tests sur séries appariées
Course Chimie
Institution Université de Poitiers
Pages 7
File Size 195.1 KB
File Type PDF
Total Downloads 4
Total Views 119

Summary

Cours de chimie sur les Test d'homogénéité: proportion, moyenne, variance, tests sur séries appariées...


Description

Test d’homogénéité : proportion, moyenne, variance, tests sur séries appariées

Introduction : Les tests d’homogénéité sont des tests très importants pour montrer que deux échantillons sont issus d’une même population ou non selon un certain risque. Ces tests sont notamment des tests préliminaires à des tests statistiques beaucoup plus importants dont notamment le test t de Student qui nécessite en plus de la normalité des échantillons étudiés, que ceux-ci possèdent un écart-type relativement peu différent.

Table des matières 1 Tests d’homogénéité pour séries indépendantes 1.1 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Test de comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Détermination du nombre de sujets nécessaires . . . . . . . . . . . . . . . . . . 1.2 Comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Test de l’écart-réduit de comparaison de deux proportions . . . . . . . . . . . . 1.2.2 Détermination du nombre de sujets nécessaires : formule de Casagrande et Pike 1.3 Comparaison de deux variances (test F de Fisher-Snedecor) . . . . . . . . . . . . .

1 1 1 2 3 3 4 4

2 Séries appariées 2.1 Comparaison de deux moyennes pour des séries appariées . 2.1.1 Grand échantillon, n ≥ 30 . . . . . . . . . . . . . . . 2.1.2 Petit échantillon, n < 30 . . . . . . . . . . . . . . . . 2.2 Comparaison de deux proportions pour des séries appariées 2.2.1 Efficacité des traitements . . . . . . . . . . . . . . . 2.2.2 Indépendance des traitements . . . . . . . . . . . . .

4 5 5 5 6 6 6

1

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

Tests d’homogénéité pour séries indépendantes

1.1 1.1.1

Comparaison de deux moyennes Test de comparaison de deux moyennes

On s’intéresse à A et B deux populations dont on extrait deux échantillons respectivement de taille nA et nB . On observe dans ces populations deux moyennes respectives mA et mB , moyennes dans les échantillons, estimateurs de MA et MB , moyennes dans les populations ainsi que s2A et s2B des 2 , variances dans les populations. On pose comme hypothèses : estimateurs de σ 2A et σB • H0 : MA = MB ou ∆ = |MA − MB | = 0, les deux moyennes ne sont pas différentes : la différence observée est inférieure aux fluctuations d’échantillonnage et est due au hasard. 1

• H1 : MA 6= MB ou ∆ = |MA − MB | 6= 0, les deux moyennes sont différentes, la différence observée est supérieure aux fluctuations d’échantillonnage et n’est pas due au hasard. À ce stade on doit faire distinction entre grands échantillons et petits échantillons. Grands échantillons : nA et nB ≥ 30. Le calcul du seuil observé tobs s’effectue de la façon suivante : |mA − mB | tobs = q 2 . 2 sB sA + nB nA

On réalise le test de l’écart-réduit et on se base sur la table de la loi centrée réduite. Pour une décision au risque de première espèce α = 5 % : • Si tobs < 1, 96, on ne peut rejeter H0 , on conclut qu’il n’y a pas de différence significative, on conclut MA = MB . • Si tobs ≥ 1, 96, on rejette H0 , on conclut que la différence est significative, en ce sens, si mA > mB , on conclut que MA > MB et de la même façon, si mA < mB , on conclut que MA < MB . Le degré de signification est p = P(tobs > tp ). Petits échantillons : nA et/ou nB < 30. Les distributions parentes doivent alors suivre une loi 2 . Lorsque ces normale (test de normalité) et par un test de Fisher-Snedecor on vérifie que σ 2A = σ B conditions sont vérifiées, le seuil observé peut alors se calculer de la façon suivante : |mA − mB | tobs = q . 2 s2 + sB nA n B

Avec s2 la variance commune dont la formule est la suivante : (nA − 1)s2A + (nB − s = nA + n B − 2 2

2 1)sB

=

n A P

i=1

(xi;A − mA )2 +

n B P

(xi;B − mB )2 . nA + n B − 2 i=1

On réalise alors un test de Student-Fisher (test t) et on utilise une table de Student à nA + nB − 2 degrés de liberté : % • Si tobs < tα=5 ddl=nA +nB −2 : on ne peut pas rejeter H0 , on conclut qu’il n’y a pas de différence significative, on en conclut que MA = MB . % • Si tobs ≥ tα=5 ddl=nA +nB −2 : on rejette H0 , on conclut que la différence est significative, ainsi, si mA > mB alors MA > MB et de la même façon si mA < mB alors MA < MB . Le degré de signification est p = P(tobs > tp ). 1.1.2

Détermination du nombre de sujets nécessaires

On calcule le nombre de sujets nécessaire dans chaque groupe pour garantir une puissance de test élevée en fonction du risque α, de la différence observée ∆ et de l’écart-type commun σ de la population : nA nB σ 2 (εα + εβ )2 . = nA + nB ∆2 Les valeurs de ε se lisent dans la table de la loi centrée réduite. Cette table indique la probabilité α pour que l’écart réduit égale ou dépasse, en valeur absolue, une valeur donnée ε, c’est-à-dire la probabilité extérieure à l’intervalle [−ε ; ε].

2

ε

−ε

εα se réfère donc au seuil de risque du test (pour α = 5 % par exemple) et εβ à la puissance du test (on prend souvent une puissance de 80 %. Cette donnée se réfère à la valeur de β). Dans le cas de groupes égaux, le nombre de sujets nécessaires est donné par la formule suivante : n = nA = nB = 2

σ 2 (εα + εβ )2 . ∆2

Dans le cas de groupes inégaux, nB = knA = (k + 1)

σ 2 (εα + εβ )2 k + 1 σ 2 (εα + εβ )2 . et n = A ∆2 k ∆2

Remarque : on arrondit à l’entier supérieur.

1.2 1.2.1

Comparaison de deux proportions Test de l’écart-réduit de comparaison de deux proportions

Dans deux populations, soient p1 et p2 les proportions d’individus possédant un certain caractère. On extrait deux échantillons des populations de taille n1 et n2 avec k1 et k2 les nombres d’individus k2 k1 et f2 = possédant le caractère dans les échantillons. On observe dans les échantillons f1 = les n2 n1 estimations de p1 et p2 . On pose comme hypothèses : • H0 : p1 = p2 : les proportions sont identiques, il n’y a pas de différence significative (la différence entre f1 et f2 s’explique par les fluctuations d’échantillonnage) • H1 : p1 6= p2 : les proportions sont différentes, il y a une différence significative (les deux échantillons proviennent de deux populations différentes). L’utilisation du test de l’écart-réduit de comparaison de deux proportions nécessite des conditions d’utilisation : k1 + k2 . n1 + n2 p est le pourcentage commun, il correspond à la proportion estimée d’individus possédant le caractère dans la population sous H0 . Dans ce cas, le seuil observé est défini par la relation suivante : n1 p et n2 p ≥ 5 avec p =

tobs = r

|f1 − f2 |  p(1 − p) n11 +

1 n2

.

Remarque : on utilise le test de l’écart-réduit comme on pourrait utiliser un test de χ2 . En utilisant la table de la loi centrée réduite, et une prise de décision pour α = 5 % : • Si tobs < 1, 96, on ne rejette pas H0 , on conclut qu’il n’y a pas de différence significative, on conclut p1 = p2 . 3

• Si tobs ≥ 1, 96, on rejette H0 , on conclut que la différence est significative. Si f1 > f2 , on conclut alors que p1 > p2 , si f1 < f2 , on conclut que p1 < p2 . Le degré de signification est p = P(tobs > tp ). 1.2.2

Détermination du nombre de sujets nécessaires : formule de Casagrande et Pike

Il est possible de garantir une puissance du test élevée en fonction du risque α et de la proportion f : f=

fA + kfB n1 fA + n2 fB . = 1+k n1 + n2

Avec fA = n1 /(n1 + n2 ), fB = n2 /(n1 + n2 ) et k = n2 /n1 . La formule de Casagrande et Pike donne le nombre de sujets nécessaires pour assurer un test optimal :

Avec,

s  2 2(k + 1)(fA − fB ) x 1 + 1 +  . n= x 4k (fA − fB )2 x = (εα

1.3

p

(k + 1)(1 − f )f + εβ

p

kfA(1 − fA ) + fB (1 − fB ))2 .

Comparaison de deux variances (test F de Fisher-Snedecor)

2 , les variances dans deux populations A et B dont on extrait deux échantillons On s’intéresse à σ 2A et σB de taille nA et nB de variances s2A et s2B , estimations de σ 2A et σ 2B . Les objectifs sont les suivants : • On cherche à comparer deux variances. • On cherche à comparer la reproductibilité de deux méthodes de mesures. • On cherche à vérifier que les variances sont identiques dans le cas de la comparaison de deux moyennes. • On cherche à vérifier l’homoscédasticité (une égalité des variances signifie que les dispersions sont identiques) de deux ou plusieurs échantillons.

On fait les hypothèses suivantes : 2 : les variances sont identiques. • H0 : σA2 = σ B 2 : les variances sont différentes. • H1 : σA2 6= σ B Le test F de Fisher-Snedecor pose la quantité suivante : Fobs =

s2A tel que sA > sB ⇐⇒ Fobs > 1. s2B

On utilise la table de Fisher. Au point α/2 (pour α = 5 %, on utilise un test bilatéral) avec pour degré de liberté pour la population A et la population B, ddlA = nA − 1, ddlB = nB − 1 on en conclut : ddlA =nA −1 • Fobs < Fddl , on ne rejette pas H0 , on conclut qu’il n’y a pas de différence significative, B =nB −1 2 = σ2 . on conclut que σA B ddlA =nA −1 , on rejette H0 , on conclut que la différence est significative et on conclut • Fobs ≥ Fddl B =nB −1 2 6= σ 2 . alors que σA B

2

Séries appariées

4

2.1

Comparaison de deux moyennes pour des séries appariées

Considérons M1 et M2 les moyennes de deux mesures effectuées sur une seule population. On extrait un échantillon de taille n dans cette population, de moyenne m1 et m2 estimations de M1 et M2 . On note d la moyenne des différences : d=

n 1X di . n i=1

Avec d i = xi − yi la différence entre xi , la mesure x faite sur l’individu i et de yi , la mesure y faite sur l’individu i de l’échantillon. Cette moyenne des différences permet d’estimer la différence des moyennes D = M1 − M2 . À rappeler que x et y représente le caractère que l’on mesure au sein de la population (l’âge, le poids, etc ...). Remarque : des séries appariées sont souvent un seul et même échantillon que l’on mesure deux fois, séparé par exemple par un laps de temps pour constater s’il y a eu une évolution dans la population. On note l’écart-type des différences dans l’échantillon : v v u X u X n n u u 1 1 2 d2 − d . σde = t (d i − d)2 = t n i=1 i n i=1

Et l’estimation de l’écart-type des différences dans la population à partir de l’échantillon : s n e sd = σ . n−1 d On distingue par la suite grand échantillon et petit échantillon en posant les hypothèses suivantes : • H0 : M1 = M2 ou D = 0. • H1 : M1 6= M2 ou D 6= 0. 2.1.1

Grand échantillon, n ≥ 30

La distribution de la variable peut être quelconque, dans ce cas le calcul du seuil est donné par la formule suivante : tobs =

|d|

s √d n

=

|d|

σe √ d n−1

.

Le test utilisé est celui de l’écart-réduit et on se réfère à la table de la loi centrée réduite. Pour une décision pour un seuil au risque α = 0, 5 % : • Si tobs < 1, 96, on ne peut rejeter H0 , on en conclut que M1 = M2 . • Si tobs ≥ 1, 96, on rejette H0 , la différence est alors significative et on en conclut que M1 6= M2 . Le degré de signification est p = P(tobs > tp ). 2.1.2

Petit échantillon, n < 30

La différence des valeurs du caractère étudié doit alors suivre une loi normale dans la population d’où provient l’échantillon. Dans ce cas, le calcul du seuil observé se fait de la même façon que pour les grands échantillons. On utilise alors le test de Student (ou de l’écart-réduit à n − 1 degrés de liberté). Pour la décision pour un seuil au risque α = 5 % on se réfère à la table de Student : % • Si tobs < tα=5 ddl=n−1 , on ne peut rejeter H0 . α=5 % • Si tobs ≥ tddl=n−1 , on rejette H0 . % Le degré de signification étant alors p = P(tobs > tα=5 ddl=n−1 ).

5

2.2

Comparaison de deux proportions pour des séries appariées

Considérons deux tests (ou traitements (au sens médical par exemple)) T1 et T2 administrés successivement ou simultanément sur un échantillon de taille n issu d’une seule population. On s’intéresse aux résultats de T1 et T2 : positif (+) ou négatif (−) et on consigne les effectifs (ou proportions) dans un tableau. T1 (+) T2 (−)

T2 (+) a c

T2 (−) b d

Avec n = a + b + c + d. On appelle a et d des résultats concordants (++ et −−) et b et c des résultats discordants (ou antagonistes, +− et −+). 2.2.1

Efficacité des traitements

On fait les hypothèses suivantes : • H0 : f1 = f2 , T1 et T2 ont la même efficacité. • H1 : f1 6= f2 : T1 et T2 sont d’efficacité différente avec, f1 =

b . b+c

Les résultats positifs pour T1 parmi les résultats discordants Et, f2 =

c . b+c

Les résultats positifs pour T2 parmi les résultats discordants. On applique alors le test de l’écart-réduit si la condition suivante est vérifiée : b + c ≥ 10.

Et le seuil observé a pour formule :

|b − c| tobs = √ . b+c En utilisant la table de la loi centrée réduite pour une décision pour un seuil au risque α = 5 % : • Si tobs < 1, 96, on ne peut rejeter H0 , les tests ont alors la même efficacité. • Si tobs ≥ 1, 96, on rejette H0 , la différence est significative, on en conclut que f1 6= f2 , les tests ont alors une efficacité différente. Un test équivalent est celui du test de Mac Nemar. 2.2.2

Indépendance des traitements

On pose les hypothèses suivantes : • H0 : f1 = f2 : T1 et T2 sont indépendants. • H1 : f1 6= f2 : T1 et T2 ne sont pas indépendants avec, a . a+b Les résultats positifs pour T2 parmi les résultats positifs pour T1 et, f1 = f (T2+ /T + 1 )=

c . c+d Les résultats positifs pour T2 parmi les résultats négatifs pour T1 . f2 = f (T2+ /T − 1 )=

6

On applique alors le test de l’écart-réduit si les conditions suivantes sont vérifiées :  a+c  p = n1 p et n2 p > 5 avec . n1 + n2  n1 = a + b et n2 = c + d Dans ce cas, le calcul du seuil observé est donné par la formule suivante : tobs = r

|f1 − f2 |  p(1 − p) n11 +

1 n2

.

En se référant à la table de la loi centrée réduite : • Si tobs < 1, 96, on ne peut rejeter H0 , on conclut que f1 = f2 , il n’y a pas de relation entre les tests. • Si tobs ≥ 1, 96, on rejette H0 , la différence est significative, on en conclut que f1 6= f2 , il existe une relation entre les tests. Remarque : si f1 > f2 , la relation est positive : si le résultat est positif avec T1 , il y a plus de chances pour que le résultat soit positif avec T2 et inversement. Un test équivalent est celui du test d’homogénéité de proportions.

7...


Similar Free PDFs