Analyse de données - Thème 1 - Analyse Univariee PDF

Title Analyse de données - Thème 1 - Analyse Univariee
Course Analyse De Données
Institution Université d'Angers
Pages 17
File Size 1012 KB
File Type PDF
Total Downloads 44
Total Views 151

Summary

Download Analyse de données - Thème 1 - Analyse Univariee PDF


Description

ANALYSE UNIVARIÉE : Une analyse univariée consiste à examiner la distribution des modalités de réponse pour une variable ; dans le cas d’une variable nominale, par exemple, il s’agit d’un tri à plat, c’est-à-dire le dénombrement des observations correspondant à chaque modalité de la variable (Notion du tableau simple ou l’on va voir comment les réponses à la variable se répartissent).

DESCRIPTION D’UNE VARIBALE : La description d’une seule variable repose sur plusieurs points : - La description de la variable en elle-même avec la mesure de la fréquence des modalités, les mesures de tendance centrale, dispersion et distribution. - La visualisation graphique des modalités - L’inférence statistique, soit la comparaison à des valeurs déterminées ou à des tests avec des valeurs tabulées (Cf. Voir les différents tests)

LES DIFFÉRENTES MESURES (LA DESCRIPTION) : Cf. http://www.commentprogresser.com/statbase.html

Termes de base : Effectifs : Nombres d’observations pour chaque modalité de chaque variable Fréquence : Proportion de chaque modalité observée dans l’échantillon global.

Les mesures de la tendance centrale : moyenne, médiane, mode et fractiles : L’objectif des mesures de tendance centrale est de résumer une série de variables par une valeur « considérée » comme représentatif. La moyenne représente le point d’équilibre des observations. C’est une notion très courante et pourtant très limité : la moyenne est très sensible aux valeurs extrêmes. Ainsi, il est plus recommander d’utiliser la médiane.

La médiane correspond à la valeur qui se situe au milieu de l’effectif. Elle est plus neutre que la moyenne puisqu’elle ne dépend pas des valeurs extrêmes. -

Cas d’un nombre impair d’observation :

Q étant le numéro de la place de la valeur médiane une fois la série ordonnée.

p. 1/17

-

Cas d’un nombre pair d’observation : Lorsqu'il y a un nombre pair d'observation, il faut procéder au calcul de la médiane en faisant la moyenne des deux valeurs centrales.

Le mode : Valeur de l’effectif ayant la fréquence la plus important (on peut avoir plusieurs mode) Les fractiles : Les fractiles permettent de fractionner une série statistique en effectifs égaux. Les plus connus sont les déciles qui divisent la série en 10 et les quartiles (Q1, médiane(Q2), Q3) qui divisent en 4 la série.

Les mesures de la dispersion : étendu, variance, écart type, coefficient de variation Etendu : C’est la différence entre la plus grande et la plus petite valeur. Variance (S²) : Mesure de la dispersion autour de la moyenne.

Ecart type (S ou σ ) : L'écart-type sert à mesurer la dispersion, ou l'étalement, d'un ensemble de valeurs autour de leur moyenne. Plus l'écart-type est faible, plus la population est homogène.

Coefficient de variation : Le coefficient de variation (CV) est le rapport de l'écart-type à la moyenne. Plus la valeur du coefficient de variation est élevée, plus la dispersion autour de la moyenne est grande.

Les mesures de distribution : asymétrie, aplatissement La loi normale est une loi probabiliste qui permet de savoir si on peut étendre les informations trouvées sur notre échantillon à l’ensemble de la population. Coefficient symétrique (ou skewness) : Permet de voir l’asymétrie d’une distribution.

Si le CA : - > 0 : Asymétrie à droite soit les valeurs sont plus élevée que la moyenne - < 0 : Asymétrie à gauche soit les valeurs sont moins élevée que la moyenne - = 0 : Symétrie de distribution, et représente une distribution respectant la loi normale Si le skewness est égal à 0, possibilité de généraliser les résultats d’un échantillon à l’ensemble de la population sans erreur.

p. 2/17

Coefficient d’aplatissement (Kurtosis) : Représente le degré de concentration des données dans les extrémités de la courbe, le kurtosis est égal à 0 dans la distribution normale.

Skewness et kurtosis sont des conditions impératives pour continuer dans l’analyse de nos données Skewness = 60%

Etape 2 : choisir un test approprié : Il faut tenir compte du mode de calcul de la statistique du test et de la distribution suivie par la statistique de référence (la moyenne par exemple). La statistique du test mesure la proximité de l’échantillon vis- à-vis de Ho. Elle s’aligne généralement sur une distribution classique (Normale, Student ou Khi-deux). Le choix du test est fonction du nombre d’échantillons et de la nature des variables étudiées.

p. 5/17

Etape 3 : choisir le niveau de signification

α

:

Il existe, comme dit précédemment, des erreurs dans les tests qui sont représentées par les signes α ( type I ) et β ( type II ) :

Situation dans la population

H 0 vraie H 0 acceptée Décision

H 0 rejetée

Erreur du type

α

Décision correcte (Seuil de confiance = 1 – α ) Erreur de type 1 (Seuil de confiance = α )

H 0 fausse Erreur de type H (β) Décision correcte (Puissance du test = 1 -β)

ou autrement dit type I :

Cette erreur peut aussi s’appeler le seuil de signification du test. Elle représente le fait que l’hypothèse H0 soit rejetée alors que dans la réalité elle est vraie. C’est une valeur à définir à l’avance (soit avant le test à réaliser) et souvent les valeurs utilisées sont comprises entre 1% et 5% (5% étant la valeur de base). Seuil de confiance : chance que l’on accepte H0 à juste titre.

Erreur du type

β

ou autrement dit type II :

C'est la probabilité que le résultat du test statistique, calculé à partir des données échantillonnages, soit dans la zone d'acceptation, alors que H0 est FAUSSE. CF. http://www.statmanie.uqam.ca/PSY1300/C8P7.html

Etape 4 : comparer et décider : -

Comparer la statistique à une valeur théorique ou tabulée (lecture dans un tableau statistique) Rejeter ou non l’Hypothèse nulle

LES DIFFERENT TYPES DE TEST : Test statistique sur échantillon unique : LE TEST DE KHI DEUX SUR UNE VARIABLE : Explication : Il vérifie la conformité d’une distribution d’effectifs observés à une distribution d’effectifs attendue (soit comment on suppose que la variable devrait réagir, souvent à l’échelle de la population globale), pour 1 variable qui doit être absolument nominal. Ici, il est intéressant de valider H0, sinon il est fort possible qu’on ait un problème dans notre variable. On pose :

p. 6/17

-

H0 : effectif observé = effectif attendu H1 : effectif observé différent de l’effectif attendu

Exemple de question : Cette différence est-elle significative pour conclure que l’échantillon est non représentatif par à la variable étudiée sur l’ensemble de la population ? Décision : - Si Chi deux calculé > Chi deux tabulé, H0 est rejetée - SI Chi deux calculé

+ (t 1 W 1 +t 2 W 2 )

Ou : -

W 1 +W 2

ou si t ' <

−(t 1 W 1+ t 2 W 2 ) W 1+ W 2

t1 étant la valeur tabulée avec un degré de liberté de n1-1 au seuil de 5% t2 étant la valeur tabulée avec un degré de liberté de n2-1 au seuil de 5% W étant une nouvelle variable calculée :

( ) 2

W 1= -

La formule de t change et est comparer à un t tabulée différents :

2

S S1 et W 2= 2 n1 n2

Si les échantillons sont appariés : o Nouvelle formule de calcul de t o Lecture dans une table de student avec un degré de liberté de (n-1)

Un échantillon appariés est conçu pour se ressembler, être identique.

TEST DE DIFFÉRENCE ENTRE DEUX PROPORTIONS : p. 15/17

Permet de comparer les proportions dans deux échantillons, par rapport à une variable mesurée. Tout type de variable. Ce test est plutôt pour les échantillons indépendants et de grande taille Hypothèse: - H0 : proportion 1= proportion 2 (P1P2) Calcul de la statistique Z : - Si Z calculée > Z tabulée, rejet de H0 - Table de la normale centrée réduite

TEST U DE MANN-WHITNEY Contrainte : Lorsque la variable étudiée est ordinale seulement Principe : Comparaison des rangs des observations entre deux groupes. Les 2 échantillons sont considérés simultanément pour le classement (statistique de rang) - Les observations sont ordonnées par ordre croissant - Pour des modalités identiques, le rang est égal à la moyenne de leurs positions respectives La statistique U est basée sur le nombre de fois ou une modalité du 1 précède une modalité du groupe 2 et inversement La statistique W se déduit de la statistique U Exemple : Calcul des rangs sur les intentions d’achat sur le net : dépenses hebdomadaire Intention d’achat selon le sexe

Classement

Femme

Homme

10 10 25 25 30

10 20 30 30 30

(1+2+3/3)2 2 5.5 (5+6/2) 5.5 (7++8+9+10+11/5) 9

2 4 9 9 9

30 40 50

40 45 50

9 (12+13/2) 12.5 (15+16+17+18/4) 16.5

12.5 14 16.5

55 65

50 50 55 60 65

(19+20) /2 = 19.5 (22+23)22.5

16.5 16.5 19.5 21 22.5

Femme

Homme

Ici, les échantillons ne sont pas les mêmes dans la mesures ou le classement 1 n’est pas identique au classement 2. Ainsi il n’y a pas d’équivalence entre les deux échantillons. (ÄS

TEST DE CHANGEMENT DE MCNERMART SUR DES ECHANTILLONS APPARIÉS : Echantillon appariés : Echantillon conçue pour se ressemblé être identique. Contrainte : s’applique sur des variables nominales et dichotomique.

p. 16/17

Principe : Évaluer le changement de comportement auprès des sujets à l’issue d’un traitement. Dans une étude marketing par exemple :

Si pas de changement de comportement dû à un traitement : B = D Sinon, faire le test de McNemar pour vérifier la significativité de ce changement McNemar s’intéresse seulement aux individus qui changent… - H0 : B=D - H1= B différent de D Décision : Rejet de H0 si Statistique calculée > statistique tabulée (On cherche plutôt à validé H0 !) Lecture des résultats : Statistique tabulée : loi de Khi deux avec un degré de liberté de 1 (on prend littéralement 1 !) Si risque de 5%, statistique tabulée = 3.841

p. 17/17...


Similar Free PDFs