Chapitre 1- La démarche statistique PDF

Title	Chapitre 1- La démarche statistique
Course	Méthodes statistiques appliquées aux sciences sociales
Institution	Université Libre de Bruxelles
Pages	7
File Size	176.2 KB
File Type	PDF
Total Downloads	11
Total Views	149

Preview

CLICK TO PREVIEW PDF

Summary

Chapitre 1 concernant la démarche statistique. Notes très détaillées et claires....

Description

Chapitre 1 La démarche statistique

1

Table des matières 1 La démarche statistique

1

1.1 Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.2 La démarche statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.3 Etape 1 – La déﬁnition du problème d’étude . . . . . . . . . . . . . . . . . .

3

1.4 Etape 2 – La collecte ou la production des données . . . . . . . . . . . . . .

4

1.4.1

Variables nominales, ordinales et quantitatives . . . . . . . . . . . . .

4

1.4.2

Analyse exhaustive ou partielle de la population . . . . . . . . . . . .

6

1.5 Etape 3 – Le traitement des données . . . . . . . . . . . . . . . . . . . . . .

6

1.5.1

L’analyse exploratoire et l’analyse descriptive . . . . . . . . . . . . .

6

1.5.2

L’analyse inférentielle . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2

1.1

Avant-propos

Ce chapitre introductif va nous permettre de présenter l’objectif du cours STAT-D-203 et de situer ce dernier par rapport au cours STAT-D-103. Le cours STAT-D-203 « Méthodes statistiques appliquées aux sciences sociales » est dans la continuité directe du cours de base STAT-D-103 « Eléments de statistique pour les sciences sociales ». Les notions vues dans le cours STAT-D-103 doivent d’ailleurs être bien maîtrisées pour pouvoir aborder la matière enseignée dans le cours STAT-D-203.

1.2

La démarche statistique

La méthodologie statistique ne se résume pas à analyser des données en calculant une série de statistiques destinées à quantiﬁer diverses caractéristiques particulières de l’ensemble de ces données ! Elle sous-tend en réalité l’ensemble d’une démarche scientiﬁque dont les principales étapes sont résumées dans la ﬁgure 1.1.

Figure 1.1 – La démarche statistique

1.3

Etape 1 – La déﬁnition du problème d’étude

Il faut avant toute chose déﬁnir avec soin le problème d’étude que l’on désire traiter. C’est au cours de cette première étape de la démarche statistique qu’il faut spéciﬁer de manière précise : • le(s) objectif(s) à atteindre ; • les questions auxquelles on désire apporter des éléments de réponse ; 3

• la (les) hypothèse(s) de recherche éventuelle(s) que l’on souhaite vériﬁer. Cette spéciﬁcation du problème d’étude conduit également à déﬁnir de manière précise à quelle population l’on s’intéresse, c’est-à-dire sur quel ensemble d’unités statistiques portent les questions ou hypothèses de recherche. Les unités statistiques qui constituent la population sont le plus souvent des individus, mais elles peuvent aussi être des objets, des ménages, des sociétés, des pays, etc.

1.4

Etape 2 – La collecte ou la production des données

Une fois le problème d’étude déﬁni, il faut collecter les données sur lesquelles nous allons travailler. En sciences sociales ou sciences politiques, les données sont le plus souvent recueillies par simple relevé (dans des archives, des registres, des enregistrements, ...) ou par enquête. Rappelons ici qu’une enquête consiste à interroger les (des) individus de la population d’intérêt. Cette manière d’opérer permet de construire des données qui ne sont pas directement observables ou qu’il serait diﬃcile d’obtenir autrement (par exemple, des données relatives à des opinions, des avis, des appréciations, ...). De manière générale, collecter des données consiste à observer ou mesurer certaines caractéristiques ou propriétés sur les (des) unités statistiques de la population. Ces caractéristiques prennent des valeurs ou modalités qui diﬀèrent (varient) d’une unité statistique à l’autre : c’est pourquoi on les désigne sous le nom de variables. Ainsi, le résultat d’une collecte de données se présente sous la forme d’un ensemble de valeurs ou modalités émanant d’un processus de mesure des variables d’intérêt sur les unités statistiques.

1.4.1

Variables nominales, ordinales et quantitatives

Pour la suite du cours, nous distinguerons trois types de variables : les variables nominales, les variables ordinales et les variables quantitatives. a) Variable nominale Une variable nominale est une variable qualitative — elle correspond à une propriété ou « qualité » particulière de l’individu — dont les modalités ne peuvent être ordonnées selon un ordre naturel. Ex. : le sexe, la section d’études, la profession du père, la nationalité, la langue maternelle, le type de transport prioritairement utilisé pour ses déplacements, ... Les diﬀérentes modalités d’une variable qualitative sont très souvent codées numériquement (c’est-à-dire remplacées par des nombres) pour faciliter le traitement informatique des données 1 . Si la variable qualitative est nominale, le choix de la valeur et de l’ordre des codes 1. Attention ! Le fait de coder numériquement les modalités d’une variable qualitative ne fait pas de celle-ci une variable quantitative !

4

numériques attribués aux diﬀérentes modalités est purement arbitraire ; ces codes numériques ne sont que des « étiquettes » permettant de facilement distinguer les modalités de la variable les unes des autres. Ex. : dans les documents administratifs, il est courant de rencontrer le codage numérique suivant pour les modalités de la variable « sexe » : homme = 1 ; femme = 2. Une variable nominale qui ne possède que deux modalités (ex. : le sexe d’un individu, le fait qu’un individu soit ou non au chômage, la réponse « oui » ou « non » à une question, ...) est dite dichotomique. Il est pratique, pour l’analyse statistique d’une telle variable, de coder ses deux modalités à l’aide des chiﬀres « 1 » et « 0 », de manière à ce que cette variable puisse être considérée comme une variable indiquant la présence d’une caractéristique particulière chez l’individu. Ex. : si l’on code les modalités de la variable « sexe » en choisissant « homme = 1 » et « femme = 0 », la variable est en quelque sorte transformée en la variable « indicatrice du fait d’être un homme ». Ex. : la variable possédant les deux modalités « être au chômage » et « ne pas être au chômage », codées à l’aide des chiﬀres « 1 » et « 0 » respectivement, n’est autre que la variable dichotomique « indicatrice du fait d’être au chômage ». b) Variable ordinale Une variable ordinale est une variable qualitative dont les modalités peuvent être ordonnées selon un ordre naturel. Ex. : le niveau d’études, le degré de satisfaction vis-à-vis d’un certain service, ... Si l’on décide de coder numériquement les modalités d’une variable ordinale, le choix des valeurs numériques attribuées aux diﬀérentes modalités est arbitraire si ce n’est que l’ordre de ces valeurs numériques doit respecter l’ordre naturel existant entre les modalités de la variable. Ex. : considérons la variable « degré de satisfaction » possédant les modalités « Tout à fait insatisfait », « Plutôt insatisfait », « Plutôt satisfait » et « Tout à fait satisfait ». Ces quatre modalités peuvent être codées numériquement à l’aide des nombres « −2 », « −1 », « 1 » et « 2 ». Mais nous aurions tout aussi bien pu choisir les codes numériques « 1 », « 2 », « 3 » et « 4 », ou encore les codes « 1 », « 10 », « 50 » et « 100 ». c) Variable quantitative Une variable quantitative quantiﬁe une certaine caractéristique de l’individu ; ses valeurs possibles correspondent de manière naturelle à des nombres (valeurs numériques). Ex. : l’âge, le nombre de frères et sœurs, le revenu mensuel des parents, le nombre d’heures de cours par semaine, le temps du trajet entre le domicile et l’université, ...

5

1.4.2

Analyse exhaustive ou partielle de la population

Dans certains cas, on dispose des données relatives à un certain phénomène pour toutes les unités statistiques de la population d’intérêt. Dans d’autres, on ne dispose de ces données que pour un sous-ensemble (ou échantillon) de la population. Ce caractère exhaustif ou partiel des données doit être pris en compte dans la démarche statistique ; selon la situation dans laquelle on se trouve, on sera amené à mettre en œuvre des modes diﬀérents de traitement et d’analyse des données, et à tirer des conclusions de natures diﬀérentes (voir la 3e phase du traitement des données : l’analyse inférentielle). Prenons en particulier le cas d’une enquête. Celle-ci s’adresse aux individus d’une population qu’il faut déﬁnir avec précision (dès la première étape de la démarche statistique). Dans certaines situations, il est possible de réaliser une enquête exhaustive incluant tous les individus de la population : c’est le cas d’un recensement, par exemple. Dans d’autres situations où la population est de grande taille, on peut être forcé, compte tenu des contraintes de temps et de moyens, à se limiter à interroger une partie seulement — on parlera d’un échantillon — des individus de la population. Dans ce cas, on a tout intérêt à faire en sorte que l’échantillon rende compte de toute la diversité de la population. Cet échantillon ne doit donc pas être sélectionné de façon arbitraire ! En fonction des objectifs, des contraintes et des informations dont on dispose sur la population, cette sélection est idéalement opérée en recourant à une méthode de sondage — on parle aussi de méthode de tirage ou d’échantillonnage — aléatoire spéciﬁque (voir le cours STAT-D-307 « Méthodes de sondage et d’enquête »).

1.5

Etape 3 – Le traitement des données

Le traitement des données récoltées peut être décomposé en trois phases dont la présence ou non dépend des objectifs de l’étude et de la nature des données : • l’analyse exploratoire des données ; • l’analyse descriptive des données ; • l’analyse inférentielle des données. Ces trois phases interagissent, en ce sens que les résultats obtenus au terme d’une phase peuvent pousser la personne chargée de l’étude à « revenir en arrière » vers une phase précédente pour la compléter par l’une ou l’autre analyse complémentaire.

1.5.1

L’analyse exploratoire et l’analyse descriptive

L’analyse exploratoire et l’analyse descriptive permettent de faire connaissance avec les données, de les organiser et de les décrire à l’aide de tableaux et de représentations graphiques, et, enﬁn, de les synthétiser par l’intermédiaire de diverses mesures ou valeurs typiques (de position, de dispersion et de forme).

6

Remarque ◮ L’analyse descriptive est dite • univariée lorsqu’on analyse les valeurs observées pour une seule variable ; • bivariée lorsqu’on s’intéresse simultanément aux valeurs observées pour deux variables, notamment dans le but de vériﬁer s’il existe un lien entre ces deux variables et, le cas échéant, de mettre en avant les principales caractéristiques de ce lien et d’en mesurer la force (l’intensité) ; • multivariée lorsqu’on s’intéresse simultanément aux valeurs observées pour plusieurs variables. On fera alors appel à des méthodes généralement appelées méthodes d’analyse des données visant à mettre en avant les caractéristiques des liens unissant les variables étudiées entre elles. L’analyse exploratoire et descriptive univariée et bivariée a déjà été étudiée dans le cadre du cours STAT-D-103 (Eléments de statistique pour les sciences sociales).

1.5.2

L’analyse inférentielle

Lorsque les données dont on dispose ne portent que sur un échantillon — un sousensemble — de la population, leur analyse descriptive se prolonge souvent par une analyse dite inférentielle. Les méthodes statistiques mises en œuvre au cours de cette 3e phase du traitement des données visent toutes à généraliser ou extrapoler les résultats obtenus sur l’échantillon à l’ensemble de la population. Elles consistent essentiellement à utiliser les données récoltées pour : • estimer (approximer) les valeurs de certaines caractéristiques de la population : il s’agit des méthodes d’estimation ; • tester (mettre à l’épreuve) la validité de certaines hypothèses que l’on a formulées pour l’ensemble de la population : il s’agit des tests statistiques ; • proposer des modèles permettant d’expliquer l’un ou l’autre phénomène ou de prédire le comportement à venir de l’une ou l’autre variable : il s’agit des méthodes de modélisation statistique (elles se fondent sur la considération d’un modèle pour le lien unissant la variable dont on veut expliquer ou prédire le comportement, à d’autres variables observées). Le cours STAT-D-203 (Méthodes statistiques appliquées aux sciences sociales) a pour objectif de vous initier à ce type particulier de méthodes statistiques inférentielles. Remarque ◮ Les méthodes de l’inférence statistique ne sauraient être développées et comprises sans faire appel aux variables aléatoires et à leurs distributions de probabilité, déjà introduites à la ﬁn du cours STAT-D-103. Ces notions étant réellement fondamentales, nous vous conseillons de les revoir attentivement avant d’aborder les chapitres consacrés à l’estimation ponctuelle, l’estimation par intervalle de conﬁance, les tests d’hypothèses et la régression.

7...