II.3. Les qualités psychométriques - Validité PDF

Title	II.3. Les qualités psychométriques - Validité
Course	Psychométrie
Institution	Université Toulouse-Jean-Jaurès
Pages	17
File Size	851.4 KB
File Type	PDF
Total Downloads	89
Total Views	151

Preview

CLICK TO PREVIEW PDF

Summary

L2 Psychologie année 2017/2018...

Description

Les qualités psychométriques – La validité I. 

24/10

Introduction

La validité est la qualité la plus importante car elle apprécie la portée pratique du test. 1) Définition





    

On peut retrouver diverses définitions selon les auteurs. - De façon très générale, la validité d'un test réfère au degré avec lequel un test « mesure ce qu'il est supposé mesurer » (1921, the National Association of the Directors of Educational Research). - Selltiz (1977) définit la validité comme suit (définition plus psychométrique) : « le degré auquel les différences de scores observées à un test traduisent des différences réelles entre les individus par rapport à la caractéristique mesurée, plutôt que des erreurs systématiques ou des erreurs aléatoires ». La validation d'un test a pour but de préciser deux aspects fondamentaux : - Ce que le test mesure. - Avec quel degré de précision il le mesure (erreur systématique). Jusqu'à quel point le test accomplit les objectifs pour lesquels il est utilisé ? Quelle caractéristique est mesurée par le test ? Quelles interprétations peut-on faire des résultats obtenus au test ? Qu'est-ce qui peut être prédit à partir des scores au test ? Le test fournit-il des informations pertinentes pour prendre des décisions ? 2) Contexte d’utilisation

    





Il n'y a pas de définition absolue de la validité d'un test, puisque cette validité dépend du contexte d'utilisation de ce test, des fins pour lesquelles il est utilisé et des questions auxquelles il tente de répondre. C'est donc dire qu'un test n'est jamais valide en soi, mais c'est plutôt son utilisation spécifique qui est valide ou invalide. La validité d’un test réfère donc à la pertinence des inférences que l’on tire des résultats fournis par le test. Exemple de mesures peu valides : prendre le nombre de livres dans la bibliothèque de quelqu'un comme une mesure de son intelligence. Un test n'est pas valide en soi, sa validité dépend du contexte dans lequel il est utilisé. 07/11 3) Les types de validité Traditionnellement, les chercheurs et les concepteurs de tests ont distingué trois grands types de validité : - Validité de contenu : représentativité de l'échantillon de comportements . Renvoie au contenu du test, items, questions, critères de cotation  Sont-ils représentatifs et permettent-ils de mesurer ce que l’on souhaite mesurer ? - Validité critériée : relation avec un critère externe. Ex : pour évaluer la dépression, un critère externe est de demander à un psychiatre expert en dépression de formuler un diagnostic extérieur à votre test. - Validité conceptuelle (ou de construct ou théorique) : cohérence avec la « structure théorique ». Jusqu’à quel point le test que vous avez construit, correspond bien à la théorie sur laquelle vous vous êtes appuyée pour le construire. Ex : développement de l’intelligence, on a une évolution des modèles de l’intelligence, le + utilisé est le CHC. La majorité des tests d’intelligence sont construits sur ce modèle. Les définitions contemporaines de la validité sont de nature plus unitaire. Comme le soulignent les Standards pour les Tests : « les conceptions contemporaines de la validité ne parlent plus de différents types de validité, mais plutôt de différentes catégories de preuves de la validité, toutes concourant à fournir des informations pertinentes pour l’interprétation spécifique des notes » (American Educational Research Association, 1999). 1

-

Preuves basées sur le contenu du test. Preuves basées sur les procédures de réponse. Preuves basées sur la structure interne. Preuves basées sur les relations avec d’autres variables. Preuves basées sur les conséquences de l’administration du test.

4) Validité et fidélité       



Il importe de bien distinguer la validité de la fidélité : Il ne s'agit plus de s'interroger sur la reproductibilité de la mesure, mais bien sur sa pertinence par rapport à une certaine « question ». Rappelons cependant qu'un test peu fidèle ne peut pas être très valide, quoique la fidélité ne soit pas un gage de validité. La théorie classique des scores (fidélité) tient compte d’une erreur strictement aléatoire. D’autres sources d’erreur peuvent invalider les résultats, leur effet est constant et la résultante est non nulle : les erreurs systématiques. Systématiquement cette erreur se fera à chacune des mesures. Ces erreurs, non prises en compte par la théorie classique, font l’objet d’une étude particulière : la validité des résultats. Erreur systématique : dont l’effet est constant et dont la résultante est non nulle Une erreur est systématique lorsqu'elle contribue à toujours surévaluer (ou toujours sous-évaluer) la valeur mesurée. Théorie classique des scores (fidélité) s’intéresse à la fidélité donc à l’erreur de mesure aléatoire. Dans ce cas, le score observé est égal à :

Mais il existe un autre type d’erreur : l’erreur de mesure systématique. Dans ce cas, le score observé est égal à :

2

 -

Erreurs systématiques : Biais d'étalonnage. Ex : étudier l’intelligence chez les étudiants qui ne sont pas représentatifs de la population globale. Présence de questions inappropriées. Ex : examen de psychométrie, 50 questions avec 4 questions de cognitive  hors sujet. Présence de questions mal formulées. Désirabilité. Ex : dans les tests de personnalité, répondre pour faire plaisir et non pas tel que l’on est. Test trop facile ou trop difficile. Examen sur partie de cours sans importance. Ex : 10 questions à l’examens, 9 qui comptent pour 10 points et la dernière question, 10 point aussi, mais sur une toute petite partie du cours. Manière d’appliquer le test. Ex : déclencher chrono trop tôt ou trop tard. Influence de facteurs non pertinents. Ex : évaluer les compétences en lecture, mais dans l’épreuve il y a une composante très forte en termes de compréhension.

II.

Validité de contenu ou représentative ou éléments de preuve basés sur le contenu du test 1) Nature

  -

-



 

La validation du contenu d’un test correspond à la capacité d’un test à mesurer ce qu’il est censé mesurer à partir de la pertinence de son contenu. Cette validation consiste donc à évaluer dans quelle mesure les divers aspects de ce test sont représentatifs du concept visé : 1) Nécessité d’évaluer les consignes, le format des items ou modalités de présentation des stimuli (i.e., présentation papier/crayon ou sur écran), les contraintes de temps, les modalités de réponse (i.e., réponses écrites ouvertes ou choix d’images) et les procédures de cotation. 2) Apprécier dans quelle mesure les items choisis représentent bien le champ de connaissances qui est évalué, i.e. couvrent l’ensemble des éléments (toutes les facettes) du trait mesuré. Le contenu est-il représentatif en tant qu’échantillon du domaine de comportements à mesurer ? Exemple (d’après Laveault et Grégoire, 2002) : construction d’un test de mémoire destiné à évaluer les troubles de la mémoire chez les personnes âgées, dont les items sont présentés sur un écran d’ordinateur en temps limité. La validation de contenu demandera, outre une évaluation du contenu des items, une évaluation : 1) des consignes données verbalement par le psychologue (certains mots de vocabulaire ne risquent-ils pas d’entraîner des erreurs de compréhension des items par des personnes âgées ?) et par écrit via l’écran. 2) de la présentation des stimuli sur un écran. 3) des modalités de réponse à l’aide de la souris et du clavier. 4) de la limite du temps de réponse. 5) du système de cotation dichotomique « réussite-échec ». Il faut donc s'assurer que : Le test représente un échantillon non biaisé de l'univers possible des contenus. Les scores au test ne sont pas biaisés par des facteurs non pertinents. La validité de contenu ne peut se juger que par rapport à la définition donnée au concept mesuré : plus cette définition est claire et explicite, plus il est aisé de juger de la validité de contenu d'un test. 3



Il faut un accord des experts à propos des facettes du concept (catégories de comportement, les composantes d’une compétence cognitive, les capacités intervenant dans une activité professionnelle, un ensemble d’objectifs pédagogiques coordonnés...). 2) Méthodes

  -

  

 -

Deux méthodes sont possibles pour apporter des preuves de la validité de contenu : Exécuter une série d’étapes systématiques au fur et à mesure de la construction du test. Cette méthode n’aboutit pas à une valeur quantitative qui représenterait la validité de contenu. Evaluer le contenu du test après que le test ait été développé. Cette méthode aboutit à une valeur quantitative qui représente la validité de contenu. Première méthode (qualitative) : Définir l’univers du test : examen d’autres tests mesurant le même concept, interroger des experts pour lesquels le concept mesuré est familier, étudier le concept par le biais des études empiriques ou théoriques réalisées à propos de ce concept. Développer les spécifications du test (devis) : sorte de devis à propos du test = les facettes et le nombre de questions par facette. Etablir le format du test : test écrit et dans ce cas, quel type de question (choix multiple, vrai/faux…), test informatisé… Construire les questions du test : déterminer les questions ou items en veillant à ce que chaque question représente la facette et les objectifs qu’elle prétend mesurer. Seconde méthode (quantitative) : Technique la plus populaire : examiner le degré d’accord entre des experts quant aux items. Les experts évaluent ainsi jusqu’à quel point les items sont essentiels ou non. Variance des jugements. Demander aux experts, sur une échelle de 1 à 5, l’item qu’ils considèrent comme le meilleur. Concordance des jugements (W de Kendall ou K –kappa- de Cohen pour données nominales). Demander aux juges de classer les items du meilleur au plus mauvais. On vérifie la concordance des jugements. Cohérence interne des jugements. Identifier quel juge est + sévère et qu’il a la même sévérité avec tous les items. Ces méthodes reposent essentiellement sur le jugement professionnel. Items générés par des spécialistes. Appariement des items et des facettes par des experts. Experts évaluent la présence de variables parasites. Experts évaluent le poids à donner à chacune des facettes dans le score total au test. Principes de base pour la validation du contenu d’un test (d’après Haynes et al., 1995) : 1. Définir avec soin le domaine et les facettes du concept et valider cette définition. 2. Utiliser un échantillon d’experts et de membres de la population de référence pour créer les items et les autres aspects du test. 3. Soumettre tous les aspects du test à une validation de contenu. 4. Utiliser plusieurs experts pour valider le contenu d’un test et quantifier leurs jugements à l’aide d’échelles formalisées. 5. Examiner la représentation proportionnelle des items relativement aux différentes facettes du concept. 6. Présenter les résultats de la validation de contenu lors de la publication de tout nouvel instrument. 7. Prendre en compte toutes les analyses psychométriques ultérieures pour affiner la validation du contenu du test. Preuves obtenues sont conditionnelles, elles dépendent de : La définition du concept. La fonction assignée au test. La population visée. 4

A. Exemple de la WAIS-IV 



Le but de la révision du contenu de la WAIS-IV était de vérifier que les items et les subtests représentaient un échantillon adéquat des domaines du fonctionnement intellectuel que le test prétend mesurer. Les items et les subtests couvrent une large étendue de processus cognitifs, incluant les raisonnements verbal, analogique, séquentiel et quantitatif, la formation de concept, les processus simultanés et séquentiels, la compréhension auditive, la flexibilité cognitive, la mémoire de travail, l’organisation perceptive et la vitesse des processus psychomoteurs. Une analyse approfondie de la littérature et des évaluations par des experts ont été réalisées afin d’évaluer le contenu de la WAIS-IV et d’apprécier les nouveaux items et subtests proposés pour améliorer l’étendue et la pertinence du contenu. » 3) Validité apparente

   

Il est primordial de distinguer la validité apparente de la validité de contenu. « On dit qu’un test a une validité apparente lorsqu’en l’examinant de l’extérieur, on a l’impression qu’il va effectivement mesurer ce qu’on veut saisir » (Pichot, 1999). Renvoie à la perception qu’a la personne testée de l’intérêt et de la pertinence du test. Peut avoir un impact sur le climat de passation et de là, quoiqu’indirectement, sur les qualités psychométriques du test.

III.

Validité critériée ou éléments de preuve basés sur les relations avec d’autres variables 1) Mesure du critère

      -

Validité en référence à un critère externe ou critérielle ou empirique. Selon Piéron, ce type de validité exprime le degré de liaison entre le rendement du sujet dans un test et son rendement dans une autre activité que le test est censé prévoir : critère (externe). Il est important de noter que cette méthode de validation présuppose l'existence factuelle du critère, cad que c’est quelque chose qui existe déjà & qu’on va utiliser comme tel. Le critère n’est donc pas une autre mesure indirecte. Quelques exemples de critères : Test d'aptitudes informatiques  performance ultérieure comme informaticien Test d'aptitudes scolaires  résultats scolaires au brevet des collèges. Test de tendances névrotiques  diagnostic clinique professionnel. Test de dépression  nombre de tentatives de suicide. Test d'aptitudes à un emploi  performance ultérieure au travail. Test de schizophrénie  durée et gravité des hospitalisations. Test d’aptitudes mécaniques  performance ultérieure comme machiniste. Distinction entre deux types de validation empirique : validation concomitante (ou concourante) et validation prédictive. Validité prédictive : intervalle de temps (non négligeable) entre mesure du test et celle du critère. Validité concomitante : les deux mesures se font en même temps. 2) Validité prédictive

 

La méthode de validation prédictive s'avère appropriée lorsque le test à valider sera éventuellement utilisé à des fins de pronostic, i.e. que le test servira à prédire un état futur. Validité établie par la corrélation entre la mesure et ce qu’elle permet de pronostiquer (réussite professionnelle, scolaire, etc.). 3) Validité concomitante 5



 -

La méthode de validation concomitante s'avère appropriée lorsque le test à valider sera éventuellement utilisé à des fins de diagnostic (troubles comportementaux, émotionnels, mentaux), c’est-à-dire à la mesure d'un état actuel. Le critère est donc immédiat. Pour appréhender cette validité : Le critère objectif (observable et mesurable) = nombre d’accidents du travail, nombre de jours d’absence, nombre de pièces produites, nombre d’erreurs, nombre de démissions ou de licenciements… Le critère subjectif (basé sur le jugement personnel) = jugements des pairs ou des supérieurs hiérarchiques, auto-évaluations, recommandations des enseignants… 4) Contamination du critère

  

Il s’agit d’une source d’erreur potentielle lors de la validation d’un test, parce que le critère devient contaminé par la connaissance que le juge possède des scores au test. « Biais » : risque de « prophétie auto-réalisatrice » d’où augmentation artificielle de la valeur des coefficients de validité. Contrôle : garantir la confidentialité des résultats au test pendant toute la période de validation.

IV.

Validité conceptuelle ou théorique

1) Nature

     -

Validité conceptuelle renvoie à un ensemble de méthodes dont le but est d’établir jusqu’à quel point le test fournit une mesure adéquate du concept théorique qu’on prétend qu’il mesure. Nécessité d’une définition claire et explicite du concept qu'on prétend mesurer. Validité conceptuelle d'un test : ancrée dans un réseau d'explications et de justifications théoriques. Un concept est toujours intégré, de façon plus ou moins explicite, dans une certaine théorie. Cette théorie devrait spécifier : La signification du concept. Comment ce concept est relié (ou non) à d'autres concepts. Comment ce concept est relié à certains comportements mesurables. 6

2) Méthodes A. Liens avec les caractéristiques de l’individu  



Lorsque le concept mesuré est intrinsèquement relié à une ou plusieurs caractéristiques « évidentes » de l'individu, la mesure du concept doit être sensible à cette relation. Exemple : intelligence et âge. Pour ce qui est du vocabulaire, on construit un subtest de vocabulaire avec 40 items de difficultés croissante. 1 enfant de 6 ans, va donner en moyenne 10, de 7 ans, 12, etc. Globalement 1 individu de 20 ans a + de vocabulaire qu’une personne de 20 ans. La relation avec l'âge est une condition nécessaire, mais pas suffisante. B. Méthode expérimentale

 



   

Justifier le contenu du test de manière hypothético-déductive (expérimentalement) en montrant en quoi le test est en relation non équivoque avec ce qu’il est censé mesurer. Ex : construction d’un test mesurant la dépression, vous le faites passer à 60 individus pour lesquels vous savez qu’il y a normalement une dépression. Le test indique ça. On fait une intervention expérimentale : mise en place d’un traitement anti-dépresseur pour la moitié des sujets. 6 mois + tard, vous réévaluez la dépression, normalement les sujets avec antidépresseurs devraient voir leur niveau de dépression baisser et ceux antidépresseur, devraient le même niveau que précédemment  Sinon il n’est pas valide ou la manipulation (antidépresseur) n’est pas valide. Attention : l'absence de vérification de la même hypothèse peut remettre en cause autant la validité du test que l'adéquation du modèle qui a engendré l'hypothèse. 05/12 C. Corrélations simples avec d’autres tests (validité convergente) Si un test est valide d’un point de vue théorique, alors on s’attend à ce que les scores à ce test soient corrélés aux scores avec d’autres tests qui mesurent le même concept. Montrer la présence de corrélation entre le test et d'autres tests (donc autre méthode de mesure) qui sont supposés mesurer le même concept ou des concepts théoriquement liés (validité convergente). Pourquoi construire un test alors qu’il y en a d’autres sur le marché ?  Normes évoluent dans le temps, modèles théoriques évoluent, les formulations des items doivent être adoptés à une société changeante. La validité convergente (=1 façon d’évaluer la validité conceptuelle) peut correspondre à : La corrélation entre le test en question et un autre test mesurant le même concept psychologique (par exemple, WISC-IV et KABC-II). La corrélation entre le test en question et un autre test mesurant un concept psychologique théoriquement lié (par exemple, self-efficacy et competency). Exemple de la WAIS-IV : corrélations avec la WAIS-III, le WISC-IV, la WMS-III (Wechsler memory Scale) , la CMS (Children Memory Scale), le D-KEFS (Delis Kaplan Exective Function System) , le CVLT-II. D. Corrélations simples avec d’autres tests (validité divergente)

 

Si un test est valide d’un point de vue théorique, alors on s’attend à ce que les scores à ce test ne soient pas corrélés aux scores avec d’autres tests qui mesurent un concept différent. Montrer l'absence de corrélation (ou une moindre corrélation) entre le test et d'autres tests qui sont supposés mesurer des concepts théoriquement indépendants (validité divergente). La validité divergente peut correspondre à l’absence de corrélation (ou moindre corrélation) entre le test en question et un test supposé mesurer des concepts théoriquement indépendants (par exemple, test de compétences en calcul et test de compréhension en lecture). E. Matr...