Title | Test du khi-deux - Stat |
---|---|
Author | Pierre Loody Dumoulin |
Course | Statistique |
Institution | HEC Montréal |
Pages | 13 |
File Size | 682.2 KB |
File Type | |
Total Downloads | 5 |
Total Views | 165 |
Stat...
Prise de notes en lien avec la capsule
Test du khi-deux Le test d’indépendance du khi-deux a pour objectif de répondre à la question : Existe-t-il une relation entre deux variables Qualitatives?
Un exemple Mise en situation : L’entreprise MG a besoin de savoir si la fiabilité des composantes qu’elle utilise est liée au fournisseur qui l’approvisionne. En effet, s’il existe une relation, cela signifie qu’elle doit porter attention au choix du fournisseur.
Les données nécessaires pour répondre à cette question se présentent sous la forme d’un ______________ de ______________________ : Fournisseur
Défectueuse?
Total
A
B
C
Oui
15
20
40
75
Non
485
480
460
1425
500
500
500
1500
Total
Ce tableau est appelé tableau des effectifs espéré , puisqu’il présente ce que l’on observe dans les données collectées.
On considère les hypothèses suivantes : H 0 : Le fait d'être ou non défectueuse est indépendant du fournisseur ;
H 1 :Il existe un lien entre le fait d' être défectueuse ou non et le fournisseur . On étudie ainsi le lien entre deux variables de type 1. le fournisseur; 2. le fait que la composante soit défectueuse ou non.
Rappelons que pour déterminer si l’on doit rejeter
H 0 , tout test d’hypothèse se base
sur une mesure de _________________ entre ce qui est observé dans les données et ce qui est attendu sous l’hypothèse H0.
Comme
H 0 est ici une hypothèse d’indépendance, on doit comparer le tableau de
contingence (ou tableau des effectifs ____________) au tableau correspondant à ce à quoi on s’attendrait si
H0
était vraie. Ce dernier tableau est appelé tableau des
effectifs _____________, et on se base sur la théorie des probabilités pour le construire :
Rappel : Si les événements
A
et B sont indépendants, alors
¿ × ¿ . ¿ P ( A et B ) =¿ ¿
Dans l’exemple, le tableau des effectifs ______________ correspond à :
Fournisseur
Défectueuse? Total
Total
A
B
C
Oui
25
25
25
75
Non
475
475
475
1425
500
500
500
1500
Comme le nombre d’observations est ici le même pour chacun des trois fournisseurs, on peut affirmer que si l’hypothèse d’indépendance entre le fournisseur et le fait qu’une composante est défectueuse ou non était vraie, alors le nombre de pièces défectueuses serait
________________ pour les trois
fournisseurs. Cette affirmation est cohérente avec le tableau ci-haut.
Exemple de calcul :
La probabilité qu’une composante choisie au hasard soit défectueuse et provienne du fournisseur A est calculée de la manière suivante : P ( composante défectueuse ET fournisseur A)
¿ P ( composante défectueuse ) × P ( fournisseur A ) ¿ ×=
1 60
compléter
Comme il y a au total 1500 composantes, l’effectif espéré sera de ¿ ¿ ¿ pièces défectueuses chez le fournisseur A. 1 ׿ 60
compléter
Cas général Tableau des effectifs __________________ De façon générale, l’effectif espéré d’une case de ce tableau se calcule de la façon suivante :
Effectif espéré=
somme de la ligne × somme de la colonne somme totale
Le test du khi-deux On utilise le test du khi-deux pour déterminer s’Il existe une ________________ entre les variables
X
et Y . Les hypothèses confrontées sont : H 0 : Les variables X et Y sont indépendantes H 1 : Les variables X et Y sont dépendantes
La statistique du test mesure la ____________ entre les effectifs observés et les effectifs espérés sous
H 0 . On s’appuie pour notre part sur le seuil expérimental, calculé à
l’aide d’un logiciel, pour déterminer si cette distance est trop grande pour que
H0
soit vraisemblable. Décision :
Seuil expérimental >
α On _________________
H0
Seuil expérimental ≤
α On _________________
H0
Conditions de validité du test du khi-deux : Le test d’indépendance du khi-deux n’est valide que sous les conditions suivantes : 1. La taille d’échantillon doit être grande ( n ≥30 ) ET 2. Tous les effectifs espérés sous H 0 doivent être
≥5
Le coefficient de Cramer L’intensité de la relation entre deux variables de type Qualitatives peut être mesurée à l’aide du coefficient de Cramer. Il peut être calculé à l’aide du gabarit Excel. Il varie de 0 à 1 :
0 Pas de relation entre les deux variables
1 Plus la valeur du coefficient augmente, plus l’association entre les variables est forte.
Exercices Les exercices suivants nécessitent l’utilisation du gabarit Excel Test du khi2. Assurez-vous d’avoir visionné la capsule vidéo associée à ce gabarit avant de compléter les exercices. 1. Existe-t-il un lien entre le fait d’aimer magasiner et d’être une fille ou un garçon? Vous disposez des données d’un échantillon : Tableau de contingence Sexe
Fille Garçon Total
Aime magasiner Oui Non 30 20 10 40 40 60
Total 50 50 100
a) Calculer à la main le tableau des effectifs espérés. b) À l’aide du gabarit, effectuer le test d’indépendance approprié. Ne pas oublier de poser adéquatement les hypothèses et de vérifier les conditions de validité.
2. tiré du livre : Statistiques pour l’économie et la gestion La brasserie Alber produit et vend trois types de bières : légère, normale et brune. Considérant la segmentation du marché de la bière entre ces trois catégories, le groupe de recherche marketing de la firme s’est demandé si les préférences des consommateurs en matière de bière étaient différentes pour les hommes et les femmes. Si les préférences en matière de bière sont indépendantes du sexe du consommateur, une campagne publicitaire sera mise en place pour toutes les catégories de bière Alber. Par contre, si les préférences en matière de bière dépendent du sexe du consommateur, l’entreprise adaptera ses publicités en fonction des marchés ciblés. Que pensez-vous que la brasserie Alber devrait faire ? Vous trouverez les réponses récoltées auprès de 150 consommateurs dans le fichier EXCEL « Alber_khi-deux.xlsx ».
3. Une compagnie ayant un site de vente en ligne désire analyser le comportement de ses clients. Pour cela, un échantillon de 472 transactions, effectuées via le site web, a été examiné. En particulier, le tableau suivant présente les données selon le moment du jour où les transactions sont effectuées et le mode de paiement utilisé :
Mode de paiement
Crédit Paypal Total
Moment du jour Journée Soirée ou nuit 174 125 93 80 267 205
Total 299 173 472
Existe-t-il un lien entre le mode de paiement et le moment du jour où est effectuée la transaction ? 4. Un sondage réalisé auprès des étudiants du cours 1-620 à l’automne 2015 nous donne les résultats : Laquelle des phrases suivantes décrit le mieux votre attitude face au cours de statistique 1-620-15 ? 46 30
41
31 8
Croyez-vous qu’il existe une relation entre le genre de l’étudiant et l’attitude qu’il a face à son cours de statistique (1-620-15) si on observe la répartition suivante :
Répartition des résultats selon le genre de l’étudiant La statistique m’intimide. Ça me stresse de suivre ce cours. Quel ennui, mais bon, je n’ai pas le choix. Je suis intéressé(e) par le cours, mais, je crains qu’il ne soit difficile. Je crois que ce sera intéressant. Ce type de cours me plaît habituellement. Super ! Le sujet m’intéresse vraiment beaucoup. Total
Q1 : sexe Fémini Masculi n n 22 8
Total 30
17 35
14 11
31 46
15
26
41
1 90
7 66
8 156
5. Une chaîne hôtelière effectue un sondage afin de connaître la satisfaction des clients par rapport à leurs trois catégories d’hôtel : Golden Palm, Palm Royale et Palm Princess. Les résultats indiquent que 156 clients n’ont pas l’intention d’y revenir. Une seconde question permet d’identifier les raisons de cette insatisfaction. Le tableau de contingence nous présente les résultats :
Raison
prix localisation chambre Total
Golden Palm 23 39 13 75
Palm Royale 7 13 8 28
Palm Princess 37 8 8 53
Total 67 60 29 156
Peut-on conclure que la raison de l’insatisfation des clients est indépendante de l’hôtel fréquenté?
Solutions 1. a) Le tableau des effectifs espérés est le suivant : Tableau de contingence Sexe
Fille Garçon Total
Aime magasiner Oui Non 20 30 20 30 40 60
Total 50 50 100
Calcul pour l’effectif espéré de la case fille-aime magasiner : 50 × 40 /100 =20 . Les autres calculs sont similaires. b) Les hypothèses du test sont : H 0 : le sexe est indépendant de l’attribut d’aimer magasiner H 1 : le sexe est lié à l’attribut d’aimer magasiner L’échantillon est grand ( n=100 ) et tous les effectifs espérés sont supérieurs à 5 (voir la partie a). À l’aide du gabarit, on trouve que le seuil expérimental est 0.000045. Celui-ci est inférieur à 0.01. Au niveau de signification 1%, les données montrent une dépendance entre le fait d’aimer magasiner et le genre. 2. Un tableau croisé dynamique effectué sur l’ensemble de données fournit les résultats de l’échantillon aléatoire: Préférence en matière de bière Légère Normale Brune Total Homme 20 40 20 80 Sexe Femme 30 30 10 70 Total 50 70 30 150 Hypothèses : H 0 : Les variables genre et préférence en matière de bière sont indépendantes H 1 : Les variables sont dépendantes α = 5% Niveau de signification du test α : Conditions : n>30 ET tous les effectifs espérés > 5 Conclusion : Le fichier EXCEL « Test du khi-deux » fournit le seuil expérimental Seuil expérimental = 0.0468 ≤α
On rejette H0
Au niveau de signification α =5%, les données observées nous permettent de rejeter l’hypothèse nulle. Il semble donc qu’il y ait une relation entre le fait d’être un homme ou une femme et la préférence en matière de bière. Ainsi, vous pourriez suggérer à la brasserie Alber d’adapter ses publicités. Toutefois, comme les budgets de publicité sont dispendieux et que le seuil expérimental s’avère très près du niveau α, il pourrait être judicieux de recommander à la compagnie de collecter un nouvel échantillon pour valider les résultats.
3. Le test d’indépendance du khi-deux nous permet de répondre à la question. H 0 : Les variables « mode de paiement » et « moment du jour » sont indépendantes H 1 : Les variables sont dépendantes Niveau de signification du test
α :
α = 5%
Conditions : n>30, tous les effectifs espérés > 5 Conclusion : Le fichier EXCEL « Test du khi-deux » fournit le seuil expérimental On ne rejette pas Seuil expérimental = 0.3497 > H0 α
Au niveau de signification 5%, les données ne permettent pas d’affirmer que le mode de paiement et le moment du jour d’une transaction sont reliés. 4. Existe-t-il une relation entre le genre de l’étudiant et la perception de son cours de statistique ? Posez les hypothèses appropriées, utilisez le fichier EXCEL et donnez vos conclusions.
1. Formuler les hypothèses H 0 et H 1 . H 0 : il y a indépendance entre le genre de l’étudiant et la perception du cours 1-620 H 1 : il y a une relation entre genre de l’étudiant et la perception du cours 1-620 2. Fixer le niveau de signification du test α . On peut choisir α =1 %, 5 % ou 10 % . On choisit 5%. 3. Un échantillon aléatoire de 156 étudiants a été recueilli. 4. Calculer le seuil expérimental sur la base de l’échantillon observé. Le fichier Excel Test du khi-deux calcule le seuil expérimental. Ici, il faut constater que les conditions du test ne sont pas respectées.
Il faut par exemple regrouper les deux dernières catégories pour satisfaire les exigences (toutes les valeurs espérées doivent être supérieures à 5). Il est en effet possible d’effectuer ce regroupement sans modifier le sens de l’interprétation. En effet, les catégories « Je crois que ce sera intéressant » et « Le sujet m’intéresse vraiment
beaucoup » peuvent avoir une interprétation similaire quant à l’attitude face au cours 1620. Le tableau devient donc :
5. Conclure en appliquant la règle de décision Seuil expérimental ≤ α
⇒
On H0
rejette
Seuil experimental = 0.000063 < 0.05 Interpréter la conclusion dans le contexte : Au niveau de signification 5%, les données montrent une relation entre la perception face au cours 1-620 et le genre de l’étudiant. Les garçons et les filles ne semblent pas avoir la même attitude face au cours de statistique. 5. On peut répondre à cette question au moyen d’un test du khi-deux, dont les hypothèses sont : H 0 : la raison de l’insatisfaction est indépendante de l’hôtel fréquenté; H 0 : la raison de l’insatisfaction et l’hôtel fréquenté sont dépendants; Le seuil expérimental est de 0.000019, donc on rejette H 0 avec α =1 % . Avant de conclure, on doit s’assurer que les conditions de validité sont satisfaites : o La taille d’échantillon est grande, avec n=156. o Tous les effectifs espérés sont supérieurs à 5 :
Au niveau de signification 1%, les données permettent d’affirmer que l’hôtel fréquenté est lié à la raison de l’insatisfaction des clients....