Test du khi-deux - Stat PDF

Title	Test du khi-deux - Stat
Author	Pierre Loody Dumoulin
Course	Statistique
Institution	HEC Montréal
Pages	13
File Size	682.2 KB
File Type	PDF
Total Downloads	5
Total Views	165

Preview

CLICK TO PREVIEW PDF

Summary

Stat...

Description

Prise de notes en lien avec la capsule

Test du khi-deux Le test d’indépendance du khi-deux a pour objectif de répondre à la question : Existe-t-il une relation entre deux variables Qualitatives?

Un exemple Mise en situation : L’entreprise MG a besoin de savoir si la fiabilité des composantes qu’elle utilise est liée au fournisseur qui l’approvisionne. En effet, s’il existe une relation, cela signifie qu’elle doit porter attention au choix du fournisseur.

Les données nécessaires pour répondre à cette question se présentent sous la forme d’un ______________ de ______________________ : Fournisseur

Défectueuse?

Total

A

B

C

Oui

15

20

40

75

Non

485

480

460

1425

500

500

500

1500

Total

Ce tableau est appelé tableau des effectifs espéré , puisqu’il présente ce que l’on observe dans les données collectées.

On considère les hypothèses suivantes : H 0 : Le fait d'être ou non défectueuse est indépendant du fournisseur ;

H 1 :Il existe un lien entre le fait d' être défectueuse ou non et le fournisseur . On étudie ainsi le lien entre deux variables de type 1. le fournisseur; 2. le fait que la composante soit défectueuse ou non.

Rappelons que pour déterminer si l’on doit rejeter

H 0 , tout test d’hypothèse se base

sur une mesure de _________________ entre ce qui est observé dans les données et ce qui est attendu sous l’hypothèse H0.

Comme

H 0 est ici une hypothèse d’indépendance, on doit comparer le tableau de

contingence (ou tableau des effectifs ____________) au tableau correspondant à ce à quoi on s’attendrait si

H0

était vraie. Ce dernier tableau est appelé tableau des

effectifs _____________, et on se base sur la théorie des probabilités pour le construire :

Rappel : Si les événements

A

et B sont indépendants, alors

¿ × ¿ . ¿ P ( A et B ) =¿ ¿

Dans l’exemple, le tableau des effectifs ______________ correspond à :

Fournisseur

Défectueuse? Total

Total

A

B

C

Oui

25

25

25

75

Non

475

475

475

1425

500

500

500

1500

Comme le nombre d’observations est ici le même pour chacun des trois fournisseurs, on peut affirmer que si l’hypothèse d’indépendance entre le fournisseur et le fait qu’une composante est défectueuse ou non était vraie, alors le nombre de pièces défectueuses serait

________________ pour les trois

fournisseurs. Cette affirmation est cohérente avec le tableau ci-haut.

Exemple de calcul : 

La probabilité qu’une composante choisie au hasard soit défectueuse et provienne du fournisseur A est calculée de la manière suivante : P ( composante défectueuse ET fournisseur A)

¿ P ( composante défectueuse ) × P ( fournisseur A ) ¿ ×=



1 60

compléter

Comme il y a au total 1500 composantes, l’effectif espéré sera de ¿ ¿ ¿ pièces défectueuses chez le fournisseur A. 1 ×¿ 60

compléter

Cas général Tableau des effectifs __________________ De façon générale, l’effectif espéré d’une case de ce tableau se calcule de la façon suivante :

Effectif espéré=

somme de la ligne × somme de la colonne somme totale

Le test du khi-deux On utilise le test du khi-deux pour déterminer s’Il existe une ________________ entre les variables

X

et Y . Les hypothèses confrontées sont : H 0 : Les variables X et Y sont indépendantes H 1 : Les variables X et Y sont dépendantes

La statistique du test mesure la ____________ entre les effectifs observés et les effectifs espérés sous

H 0 . On s’appuie pour notre part sur le seuil expérimental, calculé à

l’aide d’un logiciel, pour déterminer si cette distance est trop grande pour que

H0

soit vraisemblable. Décision : 

Seuil expérimental >

α  On _________________

H0



Seuil expérimental ≤

α  On _________________

H0

Conditions de validité du test du khi-deux : Le test d’indépendance du khi-deux n’est valide que sous les conditions suivantes : 1. La taille d’échantillon doit être grande ( n ≥30 ) ET 2. Tous les effectifs espérés sous H 0 doivent être

≥5

Le coefficient de Cramer L’intensité de la relation entre deux variables de type Qualitatives peut être mesurée à l’aide du coefficient de Cramer. Il peut être calculé à l’aide du gabarit Excel. Il varie de 0 à 1 :

0 Pas de relation entre les deux variables

1 Plus la valeur du coefficient augmente, plus l’association entre les variables est forte.

Exercices Les exercices suivants nécessitent l’utilisation du gabarit Excel Test du khi2. Assurez-vous d’avoir visionné la capsule vidéo associée à ce gabarit avant de compléter les exercices. 1. Existe-t-il un lien entre le fait d’aimer magasiner et d’être une fille ou un garçon? Vous disposez des données d’un échantillon : Tableau de contingence Sexe

Fille Garçon Total

Aime magasiner Oui Non 30 20 10 40 40 60

Total 50 50 100

a) Calculer à la main le tableau des effectifs espérés. b) À l’aide du gabarit, effectuer le test d’indépendance approprié. Ne pas oublier de poser adéquatement les hypothèses et de vérifier les conditions de validité.

2. tiré du livre : Statistiques pour l’économie et la gestion La brasserie Alber produit et vend trois types de bières : légère, normale et brune. Considérant la segmentation du marché de la bière entre ces trois catégories, le groupe de recherche marketing de la firme s’est demandé si les préférences des consommateurs en matière de bière étaient différentes pour les hommes et les femmes. Si les préférences en matière de bière sont indépendantes du sexe du consommateur, une campagne publicitaire sera mise en place pour toutes les catégories de bière Alber. Par contre, si les préférences en matière de bière dépendent du sexe du consommateur, l’entreprise adaptera ses publicités en fonction des marchés ciblés. Que pensez-vous que la brasserie Alber devrait faire ? Vous trouverez les réponses récoltées auprès de 150 consommateurs dans le fichier EXCEL « Alber_khi-deux.xlsx ».

3. Une compagnie ayant un site de vente en ligne désire analyser le comportement de ses clients. Pour cela, un échantillon de 472 transactions, effectuées via le site web, a été examiné. En particulier, le tableau suivant présente les données selon le moment du jour où les transactions sont effectuées et le mode de paiement utilisé :

Mode de paiement

Crédit Paypal Total

Moment du jour Journée Soirée ou nuit 174 125 93 80 267 205

Total 299 173 472

Existe-t-il un lien entre le mode de paiement et le moment du jour où est effectuée la transaction ? 4. Un sondage réalisé auprès des étudiants du cours 1-620 à l’automne 2015 nous donne les résultats : Laquelle des phrases suivantes décrit le mieux votre attitude face au cours de statistique 1-620-15 ? 46 30

41

31 8

Croyez-vous qu’il existe une relation entre le genre de l’étudiant et l’attitude qu’il a face à son cours de statistique (1-620-15) si on observe la répartition suivante :

Répartition des résultats selon le genre de l’étudiant La statistique m’intimide. Ça me stresse de suivre ce cours. Quel ennui, mais bon, je n’ai pas le choix. Je suis intéressé(e) par le cours, mais, je crains qu’il ne soit difficile. Je crois que ce sera intéressant. Ce type de cours me plaît habituellement. Super ! Le sujet m’intéresse vraiment beaucoup. Total

Q1 : sexe Fémini Masculi n n 22 8

Total 30

17 35

14 11

31 46

15

26

41

1 90

7 66

8 156

5. Une chaîne hôtelière effectue un sondage afin de connaître la satisfaction des clients par rapport à leurs trois catégories d’hôtel : Golden Palm, Palm Royale et Palm Princess. Les résultats indiquent que 156 clients n’ont pas l’intention d’y revenir. Une seconde question permet d’identifier les raisons de cette insatisfaction. Le tableau de contingence nous présente les résultats :

Raison

prix localisation chambre Total

Golden Palm 23 39 13 75

Palm Royale 7 13 8 28

Palm Princess 37 8 8 53

Total 67 60 29 156

Peut-on conclure que la raison de l’insatisfation des clients est indépendante de l’hôtel fréquenté?

Solutions 1. a) Le tableau des effectifs espérés est le suivant : Tableau de contingence Sexe

Fille Garçon Total

Aime magasiner Oui Non 20 30 20 30 40 60

Total 50 50 100

Calcul pour l’effectif espéré de la case fille-aime magasiner : 50 × 40 /100 =20 . Les autres calculs sont similaires. b) Les hypothèses du test sont : H 0 : le sexe est indépendant de l’attribut d’aimer magasiner H 1 : le sexe est lié à l’attribut d’aimer magasiner L’échantillon est grand ( n=100 ) et tous les effectifs espérés sont supérieurs à 5 (voir la partie a). À l’aide du gabarit, on trouve que le seuil expérimental est 0.000045. Celui-ci est inférieur à 0.01. Au niveau de signification 1%, les données montrent une dépendance entre le fait d’aimer magasiner et le genre. 2. Un tableau croisé dynamique effectué sur l’ensemble de données fournit les résultats de l’échantillon aléatoire: Préférence en matière de bière Légère Normale Brune Total Homme 20 40 20 80 Sexe Femme 30 30 10 70 Total 50 70 30 150 Hypothèses : H 0 : Les variables genre et préférence en matière de bière sont indépendantes H 1 : Les variables sont dépendantes α = 5% Niveau de signification du test α : Conditions : n>30 ET tous les effectifs espérés > 5 Conclusion : Le fichier EXCEL « Test du khi-deux » fournit le seuil expérimental Seuil expérimental = 0.0468 ≤α

On rejette H0

Au niveau de signification α =5%, les données observées nous permettent de rejeter l’hypothèse nulle. Il semble donc qu’il y ait une relation entre le fait d’être un homme ou une femme et la préférence en matière de bière. Ainsi, vous pourriez suggérer à la brasserie Alber d’adapter ses publicités. Toutefois, comme les budgets de publicité sont dispendieux et que le seuil expérimental s’avère très près du niveau α, il pourrait être judicieux de recommander à la compagnie de collecter un nouvel échantillon pour valider les résultats.

3. Le test d’indépendance du khi-deux nous permet de répondre à la question. H 0 : Les variables « mode de paiement » et « moment du jour » sont indépendantes H 1 : Les variables sont dépendantes Niveau de signification du test

α :

α = 5%

Conditions : n>30, tous les effectifs espérés > 5 Conclusion : Le fichier EXCEL « Test du khi-deux » fournit le seuil expérimental On ne rejette pas Seuil expérimental = 0.3497 > H0 α

Au niveau de signification 5%, les données ne permettent pas d’affirmer que le mode de paiement et le moment du jour d’une transaction sont reliés. 4. Existe-t-il une relation entre le genre de l’étudiant et la perception de son cours de statistique ? Posez les hypothèses appropriées, utilisez le fichier EXCEL et donnez vos conclusions.

1. Formuler les hypothèses H 0 et H 1 . H 0 : il y a indépendance entre le genre de l’étudiant et la perception du cours 1-620 H 1 : il y a une relation entre genre de l’étudiant et la perception du cours 1-620 2. Fixer le niveau de signification du test α . On peut choisir α =1 %, 5 % ou 10 % . On choisit 5%. 3. Un échantillon aléatoire de 156 étudiants a été recueilli. 4. Calculer le seuil expérimental sur la base de l’échantillon observé. Le fichier Excel Test du khi-deux calcule le seuil expérimental. Ici, il faut constater que les conditions du test ne sont pas respectées.

Il faut par exemple regrouper les deux dernières catégories pour satisfaire les exigences (toutes les valeurs espérées doivent être supérieures à 5). Il est en effet possible d’effectuer ce regroupement sans modifier le sens de l’interprétation. En effet, les catégories « Je crois que ce sera intéressant » et « Le sujet m’intéresse vraiment

beaucoup » peuvent avoir une interprétation similaire quant à l’attitude face au cours 1620. Le tableau devient donc :

5. Conclure en appliquant la règle de décision Seuil expérimental ≤ α

⇒

On H0

rejette

Seuil experimental = 0.000063 < 0.05 Interpréter la conclusion dans le contexte : Au niveau de signification 5%, les données montrent une relation entre la perception face au cours 1-620 et le genre de l’étudiant. Les garçons et les filles ne semblent pas avoir la même attitude face au cours de statistique. 5. On peut répondre à cette question au moyen d’un test du khi-deux, dont les hypothèses sont : H 0 : la raison de l’insatisfaction est indépendante de l’hôtel fréquenté; H 0 : la raison de l’insatisfaction et l’hôtel fréquenté sont dépendants; Le seuil expérimental est de 0.000019, donc on rejette H 0 avec α =1 % . Avant de conclure, on doit s’assurer que les conditions de validité sont satisfaites : o La taille d’échantillon est grande, avec n=156. o Tous les effectifs espérés sont supérieurs à 5 :

Au niveau de signification 1%, les données permettent d’affirmer que l’hôtel fréquenté est lié à la raison de l’insatisfaction des clients....