M.T.A. - Rappels, Analyse de variance, ANOVA à 1 facteur PDF

Title M.T.A. - Rappels, Analyse de variance, ANOVA à 1 facteur
Course Méthodologies et techniques d’analyses en psychologie
Institution Université Paul-Valéry-Montpellier
Pages 14
File Size 1 MB
File Type PDF
Total Downloads 95
Total Views 132

Summary

Chapitres 1 (Rappels), 2 (Analyse de variance) et 3 (ANOVA à 1 facteur) du cours Méthodologies et techniques d’analyses en psychologie (L3-S5)....


Description

Méthodes et techniques d'analyse Raphaël Trouillet Programme : • Notion de test d'hypothèses • Hypothèses statistiques • Notion de degré de liberté 1. Introduction à la notion d'erreur expérimentale 2. ANOVA à 1 facteur: plan emboîté (grp indépendants) 3. ANOVA à 1 facteur: plan croisé (grp appariés)

Chapitre 1 - Rappels de licence 2 Tester des hypothèses : la notion de test Réalisation d'analyse inférentielle basée sur des données collectées dans un échantillon Choix du test selon le plan de recherche et la nature des données.

Objectif : formuler une conclusion la moins risquée possible Cette conclusion correspond au fait de choisir parti 2 hypothèses (H0 et H1) La notion de degré de liberté pour des séries de données quantitatives (voir test t) ddl = nb d'observations – nb de paramètres à estimer Il doit être supp ou = à 0 Combien de valeurs doivent être renseignées librement ? Réponse : 2 valeurs La 3ème contrainte selon les 2 premières pour obtenir la somme et moyenne indiquées. Donc nombre de ddl = 3-1 = 2 Pour une série : ddl = N-1 (test t) Pour 2 séries : ddl = (N1-1) + (N2-1) = N1 + N2 – 2 (test t + généralisation à ANOVA 1 facteur)

Chapitre 2 - L'analyse de variance (ANOVA) : Test F (1 facteur, groupes indépendants) Raphaël Trouillet 1. Fisher : L'analyse de variance et la randomisation Fisher reste connu pour ses travaux sur le F-ratio (test F de Fisher). Il contribuera à la généralisation de la randomisation dans toutes les disciplines scientifiques (1935). La randomisation devient un pré-requis de toute expérimentation (alors que le contrôle par variation systématique était la règle). Si certaines disciplines peuvent quasiment contrôler toute source d'erreur (contrôler l'environnement dans un tube à essai dans un laboratoire), c'est impossible pour d'autres disciplines (dont la psychologie). Deux problèmes : • Comment garder l'erreur à un niveau minimal ? • Comment estimer ce niveau d'erreur ? L'objectif est de tester l'effet de la difficulté d'une tâche sur le stress perçu : 3 groupes de personnes réalisent la tâche dans 3 conditions différentes. Le choix de ces personnes est aléatoire : les 3 groupes ne doivent différer systématiquement que pour le niveau de difficulté de la tâche. La randomisation est un moyen d'essayer de contrôler des variables confondues. Avons nous ainsi contrôlé tous les facteurs expliquant les résultats en plus de la difficulté de la tâche ? NON, d'autres facteurs (inconnus) ont un effet qu'il faut estimer. 2. Test de Fisher : principe statistique

L'analyse de variance permet de savoir dans quelle mesure la variance dans les scores observés est imputable à la VI et quelle proportion de cette variance reste non expliquée par la VI (c'est-à-dire expliquée par une multitude d'autres choses).

Comme pour les autres tests statistique, l'objectif est de tester une inférence sur les valeurs de paramètres d'une population à partir des valeurs de paramètres (estimateurs) obtenus sur un échantillon. Les différences inter-groupes sont-elles dues au hasard (sont-elles une bonne estimation des moyennes dans la population parente) ? Comparaison de k moyenne observées mc(k>2) H0 : nu1 = nu2 = nu3 Les k moyennes nuc sont identiques dans la population visée. H1 : Au moins l'une des moyennes diffère d'au moins une autre dans la population visée (= plusieurs situations : 1 moyenne diffère des 2 autres identiques, les 3 moyennes différent...). → important pour l'examen Solution 1 : j'utilise le T de Student = 3 comparaisons de 2 moyennes (chances d'erreur de type 1) Solution 2 : j'utilise le F de Fisher = 1 comparaison globale (omnibus test) des 3 moyennes • Avantages : pas besoin d'ajustement pour multiples comparaisons • Inconvénients : on ne peut pas savoir quelle condition est significativement différente des autres. 3. La statistique F-test (ou F-ratio) Estimation du ratio entre variance systématique et variance non systémique → Systémique/non systémique = facteur manipulé(VI) /erreur VI = qualitative (3 catégories = 3 modalités) VD = quantitative (quantité de stress sur une échelle de 0 à 10) Éléments de notation : La lettre « i » désigne les individus (ou unités statistiques) = colonnes « individus » La lettre « j » désigne le « traitement » (l'exercice) = colonne « difficulté » ybarre j = valeur de la moyenne de chaque type d'exercice (ici, il y a 3 valeurs) ybarre = moyenne générale

La notion de mesure

Un ensemble i de sujets est associé à un ensemble U de scores possibles (mesure). Un ensemble J de groupes regroupe certains sujets e l'ensemble i.

Hypothèse sur la distribution des données : Les valeurs observées (score de stress) pour chaque sujet i dans chaque condition j suivent la loi normale : Loi yij é N (μ, σ ²) Le type d'exercice a une influence sur la valeur moyenne de stress (il a un effet sur nui) → Donc, la valeur de nu st différente selon les conditions Mais il n'a pas d'effet sur o² → la valeur de o² est la même pour toutes les conditions (ou populations) = variances homogènes.

Différence T de Student /ANOVA (ou F-test) L'ANOVA teste un modèle : cas d'un modèle à 1 facteur (une VI) Décomposition de la variance :

Score de stressij = Facteurj + Erreur expérimentaleij (résidu) → Résidu comprend erreurs de mesure, variabilité psychologique entre les personnes, etc. Objectif : estimer l'effet du facteur sur la VD : Est-ce que les moyennes diffèrent du fait du hasard ? Question : Est-ce que les moyennes entre nos échantillons diffèrent (effet de l'échantillonnage) alors que leurs différences sont nulles dans la population ? → Comparaison de la statistique F observée (calculée) avec la distribution de la statistique F sous hypothèse nulle (principe du test d'hypothèse = test T) 4. Calcul du degré de liberté pour l'ANOVA Le test de Fisher suit la loi de Fisher : loi, à v1 (J-1) et v2 (N-J) degrés de liberté, suivante : Carrés moyenseffet F= Carrés moyenserreur Exemple : calcul du ddl 3 groupes de participants doivent rappeler le plus grand nombre de mots possible à une tâche de mémoire (GR1 = tâche seule, GR2 = tâche + autre tâche, GR3 = tâche + autre tâche + bruit). Je compare trois groupes (3 niveaux de difficulté de la tâche : facile, moyenne, difficile : v1 (ou DDL1) = J - 1 = 3 - 1 = 2 Chaque groupe comprend 10 personnes : V2 (DDL2) = 3x10-3 = 30-3 = 27 Autre méthode de calcul du DDL2 : Σ(ni – 1)

Pourquoi calculer ainsi ces degrés de liberté ? DDL 1 : Moy1 + Moy2 + Moy3 = grande moyenne Si je connais la grande moyenne, je peux compléter librement 2 moyennes mais la valeur de la 3ème est contrainte, donc 2 ddl = 3 groupes -1 = 2 DDL1 = J – 1 DDL2 : Exemple de 3 groupes de 10 personnes chacun : Si je connais la moyenne du 1er groupe, je peux choisir librement 9 valeurs pour ce groupe et la 10ème est contrainte = 10 – 1 = 9 Comme il y a 3 groupes, je répète cette opération 3 fois : (10-1)+(10-1)+(10-1) = 30-3 = 27 DDL2 = N – J 5. Test de Fisher et degré de liberté Test F ~ F(J-1, N-J) La loi de Fisher est une loi de probabilité continue (Loi normale). Elle est unilatérale (pas de valeurs négatives). Les degrés de liberté permettent de paramétrer cette loi (ce qui affecte la valeur du p associée au F calculé).

Geogebra 6. Calcul de la valeur du test F Objectif 1 : Calculer les « carrés moyens intragroupe » • Étape 1 : somme des carrés intragroupe (ou résiduelle) Elle mesure la dispersion des scores à l'intérieur des groupes, indépendamment de la différence intergroupe elle vaut 0 si tous les scores sont égaux dans un groupe donné. SCintra = (Yij - Ῡj)² • Étape 2 : Calcul la valeur du test F ddlintra = ddlintra = Σ (ni - 1) •

Étape 3 : calcul du carré moyen résiduel (intragroupe)

SCintra/DDLintra Objectif 1 : Calculer les « carrés moyens intergroupe » • Étape 1 : somme des carrés intergroupe Elle mesure la dispersion entre les groupes (elle vaut 0 quand les moyennes des k groupes sont égales) SCinter = (Ῡi - Ῡ.)² • Étape 2 : Calcul du degré de liberté de l'effet expérimental ddlinter = k – 1 • Étape 3 : Calcul du carré moyen de l'effet expérimental Scinter/DDLinter Scinter / Ddlinter Fcal = CMinter = Scintra / Ddlintra CMintra La statistique de Fisher compare donc la variance expérimentale à la variance d'erreur (et non des moyennes). Question posée : est-ce que la variance expérimentale est plus grande que la variance d'erreur ? → test F unilatéral à droite La distribution du F-test est asymétrique à gauche (valeurs [O, +infini]) et sa forme dépend du ddl. La formule du Fcal présuppose : • L'hypothèse nulle est vraie pour tous les groupes • Les observations sont indépendantes • L'hypothèse de normalité est vraie • L'hypothèse d'homogénéité des variances d'erreur est vraie 7. Calcul de l'intensité de l'effet SCinter R² = SCtotal SCtotal = (Yi - Ῡ.)² = SCinter + SCintra Cette statistique permet d'estimer la proximité entre les données et les prédictions du modèle. Autrement dit : quel est le pourcentage des réponses observées (la variable dépendante) qui est expliqué par le modèle (les prédicteurs = vls) ? Plus la valeur du R² est élevée, plus la variance des scores observés est expliquée par le modèle. Exemple : J'ai construit un test évaluant le niveau cognitif global. Si mon test est valide, les scores obtenus au test devraient chuter avant l'augmentation de la sévérité des lésions cérébrales présentées par les patients âgés. Colonne = une des 3 modalités de ma VI « sévérité des lésions » Chaque cellule = le score obtenu par un patient à ma mesure cognitive globale

ANOVA : 1 facteur, groupes indépendants exercice Jamovi

Objectif : calculer la valeur de F avec mes données J'ai besoin de trois variances (ici, le calcul de la variance =/ σ² → Variancetotale = Varintergroupe + Varintragroupe)

Chapitre 3 – ANOVA à un facteur Exemple d'une rechercher impliquant des mesures répétées Un psychologue souhaite évaluer l'efficacité d'une psychothérapie pour le traitement des troubles anxieux. Il recrute 4 patients. Il mesure leur anxiété avant traitement, juste après le traitement et 6 mois après l'arrêt du traitement. Un patient est évalué 3 fois, nous avons répété les mesures sur chaque patient. Facteur Sujet

Avant

Juste après

+ 6 mois

Moyenne

S1

7

4

2

4.33

S2

13

12

10

11.67

S3

30

29

2

27.00

S4

34

31

30

31.67

Moyenne

21

19

1616

18.67

Différences entre plan à groupes indépendants et appariés Les observations sont corrélées : les mesures pour un même sujet dépendent l'une de l'autre (les observations ne sont plus indépendantes). Ex : en moyenne, les niveaux d'anxiété baissent après traitement. Toutefois, un patient avec un niveau d'anxiété avant traitement est plus élevé que la moyenne aura également un niveau d'anxiété après traitement plus élevé que la moyenne.

Les plans à mesures répétées permettent de réduire la variabilité globale (nous utilisons moins de participants pour un même nombre de données) : Ex : si j'inclus différents sujets aux 3 phases = 3 groupes x 4 valeurs / groupe = 12 participants → on croise l'effet sujet et l'effet traitement. Si j'utilise les mêmes participants pour les 3 phases, je n'ai besoin que de 4 participants. Les plans à mesures répétées sont requis dans certaines situations (évaluer l'effet d'un traitement). Les plans à mesures répétées posent un porblème : la variance imputable aux individus. Elle est composée de deux choses : l'effet expérimental et l'effet des caractéristiques individuelles sur les résultats (schéma diapo suivante). → Nous devons séparer l'effet de la variable « sujet » et celui du « traitement » en utilisant une autre méthode qu celle utilisée pour des groupes indépendants.

Décomposition de la variance (1 facteur, mesures répétées)

L'ANOVA teste un modèle : • Cas d'un modèle à 1 facteur avec groupes indépendants Score de stressiji = Facteurj + Erreur expérimentaleij (résidu) • Cas d'un modèle à 1 facteur avec groupes appariés Score de stressiji = Facteurj + Individui + Erreur expérimentaleij (résidu) → ici nous séparons l'effet du aux sujets des autres sources d'erreur Calcul du degré de liberté pour l'ANOVA F=

Carrés moyensintergroupe Carrés moyenserreur (variation résiduelle)

~ F (k – 1, n – 1* k – 1)

Comme pour les groupes indépendants, le test de Fisher suit la loi de Fisher à v1 (k-1) et v2 (n-1)*(k-1) degrés de liberté suivante : Le carré moyen « inter » est à nouveau une estimation de la variance « inter-groupe » (calcul similaire au test F pour groupes indépendants). Le carré moyen de l'erreur « intra » est en revanche différent de celui pour les groupes indépendants. Il s'obtient en supprimant – de la variance totale – la variance associée aux sujets et celle associée au facteur ou VI (et de leur interaction – omise dans les calculs ci-dessous) : • Sujets : variance erreur + variance sujets • Facteurs : variance erreur + variance facteur • Erreur : variance totale - variance sujets – variance facteur Calcul de la statistique de décision (test F) avec la méthode vue en TD

SCA = N(Ῡj - Ῡ.)²

SCinter = 4 (16-18.67)² + 4 (19-18.67)² + 4 (21-18.67)² = 50.67 DDLinter = 3 – 1 = 2 CMinter = 50.67/2 = 25.33 Cette méthode prend en compte l'effet d'interaction sujets * traitements (c'est-à-dire le croisement des deux variables). Score de stressij = Facteurj + Individui + Facteurj * Individui + Erreur expérimentaleij

CMSA 13.33/6 = 2.22 → la valeur du carré moyen de l'erreur est ici ajusté par la prise en compte de l'effet d'interaction F calculé = 25.33/2.22 = 11.4 ANOVA : 1 facteur, groupes appariés exercice Jamovi

SCA ddlA Σ Yj² N SCA ddlA SCA ddlA

Σ Ysi² Y² j Nxj

Rappel TD R² = [0 ;1] R² = 0.20 0.20 x 100 = 20% 20% de la variance de la variable dépendante qui est expliquée par la variable indépendante (dans le cas de notre exemple sur l'effet du traitement, on a comparé trois temps de mesure). Donc, si le R²=.20 je suis que la variable temps explique 20% de la variances des scores d'anxiété. Examen Exemple d'expérience Question 1 : quel test utiliser (variables, tableau croisé) → test F qui suit une loi de Fisher Question 2 : comment calculer le ddl (variables) → (n-1)*(k-1) Question 3 : quelle formule utiliser (cm ou sc) ? et pourquoi ?...


Similar Free PDFs