Title | Statistiques descriptives - L1 AES |
---|---|
Course | Statistique descriptive 1 |
Institution | Université de Bordeaux |
Pages | 32 |
File Size | 990.2 KB |
File Type | |
Total Downloads | 7 |
Total Views | 178 |
stat...
Statistiques descriptives Année 2016-2017, L1 AES Statistiques descriptives Eric Rougier
1ère partie : l’appréhension statistique Chapitre 1 : Notions élémentaires Section 1 : Terminologie statistique Le cours porte sur la statistique : ensemble de méthodes qui permettent de décrire et danalyser de façon quantifiée des phénomènes qui sont repérés par des éléments nombreux de même nature et susceptibles dêtre dénombrés et classés. Ensemble de méthodes : Ce sont des outils mathématiques qui sont adaptés pour décrire certaines dimensions dun phénomène statistique. (ex : moyenne). Eléments nombreux : Il y a plein de phénomènes qui génèrent un grand nombre dinformations quantitatives (chiffres) desquelles on va réduire une multitude de données brutes. La statistique permet de synthétiser les informations contenues dans les données brutes associées à des phoes sociau, cooiues… ue lon ne peut saisir quà partir dun grand nombre dobservations. De même nature : Une des conditions de validité de lutilisation de loutil statistique est que les phénomènes, observés à travers des informations quantitatives soient comparables dun individu à un autre. Dénombrés : Il faut avoir une mesure précise déléments observés. Classés : Avoir des mesures quantitatives, classables (que lon peut ordonner, ex : par ordre croissant, dcoissat…. Les statistiques : Il sagit de la production de loutil statistique. La statistique est un produit neutre puisquil est basé sur des propriétés mathématiques. En revanche, linterprétation que lon fait des statistiques peut être orientée, ou non neutre. La statistique utilise une terminologie partagée par tous les statisticiens et qui permet de désigner sans ambiguïté les objets ou les outils quils utilisent. Une population : Cest lensemble dindividus quétudie la statistique. Les individus sont les éléments (humains ou non humains) sur lesquels le statisticien observe une information quantitative. Ces individus statistiques peuvent être des humains (ex : population de Bordeaux), des objets (Ex : Le parc immobilier Bordelais), évènements (ex : population des crédits quune banque a accordée à ses clients sur une année).
Sur les individus de la population, le statisticien observe des caractéristiques quil appelle caractères. Chaque caractère observé sur une population présente plusieurs valeurs observées sur lensemble de la population. Ces différentes valeurs observées pour un caractère donné sappellent des modalités. Attention, les modalités du caractère doivent absolument être observées sans ambiguïté. C'est-à-dire quun individu ne doit être associé quà une seule modalité. Population : P ; Caractère : X, Modalités : x Leffectif de la population : n/N, correspond au nombre dindividus qui la constitue. Section 2 : Les différents types de caractères et de variables
Les caractères qualitatifs Un caractère est dit qualitatif lorsque son observation ne peut pas se traduire sur mesure. Autrement dit, les modalités de ce caractère ne sont pas mesurables (la plupart du temps, elles ne sont pas numériques).
Les caractères quantitatifs Un caractère est dit quantitatif si ses modalités sont mesurables, c'est-à-dire quelles se traduisent par des nombres qui sont ordonnables. Dans ce cas, le caractère et ses modalités telles quelles sont observées sur la population étudiée sappellent une variable statistique. Ex : La superficie, ou le nombre de gens qui y vivent à lannée.
A) Les variables statistiques discrètes Une variable statistique est discrète lorsqu'elle est mesurée par un nombre fini de valeurs isolées (il s'agit de nombres entiers). Par exemple, dans le cas du parc immobilier Bordelais, le nombre de pièces de chaque individu est une variable statistique discrète. En effet, les pièces sont un nombre entier car il ne peut pas y avoir une moitié de pièce.
B) Variables statistiques continues
Une variable statistique est continue si elle peut être mesurée par un nombre infini de valeurs. Nous pouvons pousser sa mesure jusqu'aux décimales. Par exemple, le revenu fiscal des ménages Français est une variable statistique continue.
Les variables continues seront présentées à l'aide de classes de modalités. Chaque classe est un intervalle de valeur du caractère. La succession des différentes classes inclut l'ensemble des modalités qui sont observées sur la population étudiée. Les données brutes des distributions statistiques continues sont généralement utilisées par les statisticiens sans regroupement en classe. En effet, le regroupement en classe est un résumé de la distribution réelle, il génère donc des résultats moins précis que ceux qui sont produits par l'analyse exhaustive.
Une classe de modalité se présente comme une intervalle définie par une borne inférieure a et une borne supérieure b. Les modalités sont des intervalles qui, par convention, sont – à part pour la dernière classe – fermés à gauche et ouverts à droite. Exemple : [ ; [ ;
[ [
On peut calculer deux informations utiles sur la classe : l’amplitude de la classe et le centre de la classe
Le centre de classe est appelé à jouer un grand rôle dans les calculs, car le regroupement en classes constitue une perte d’information importante. Les différentes classes sont des modalités, et elles doivent être ordonnées par ordre croissante du caractère. Ensuite, chaque classe de modalités sera traitée comme un indice xi correspondant à son rang dans l'ordre croissant des valeurs d'une modalité.
Exemple :
[ , ,[ Première modalité [, , [ [ , [
Chapitre 2 : Tableaux et graphes des distributions à un caractère. Introduction : Lorsqu'on travaille sur une distribution statistique dont la population est nombreuse (quand il y a un nombre important d'individus observés), il est utile de pouvoir représenter sous forme résumée cette distribution. Pour représenter de façon synthétique une population, on utilise deux outils statistiques.
Section 1 : La notion de fréquence Un tableau statistique se construit en colonnes. Dans la première colonne, on représente les modalités du caractère (x). Si elles sont discrètes, on aura des nombres entiers. Notation : Pour parler de la somme des termes successifs d’une suite, on peut ou bien utiliser les pointillés ou bien utiliser le symbole « sigma » majuscule noté Σ (sigma). Formule générale : 𝑖=
∑ 𝑖 = + + ⋯ + 𝑖=
Attention à la disposition des parenthèses quand il y en a : 1er cas :
(∑ 𝑖 ) + = + + + 𝑖=
2nd cas :
(∑ 𝑖 + ) = 𝑖 + + + + + 𝑖=
Dans le cas du tableau de distribution continue, la dernière classe dont le rang le plus élevé est parfois non fermée à sa borne supérieure.
Pour fermer cette borne supérieure, il y a deux solutions : – –
Soit on prend la même amplitude que la classe inférieure. Soit on choisit un nombre arbitraire, de façon à ne pas exclure trop d'observations
La notion de fréquence Formule générale : 𝑖 =
𝑖 ∑𝑖= 𝑖
En pourcentage : 𝑖 % =
𝑖
× = 𝑖 ×
Le résultat du calcul d'une fréquence est un pourcentage.
Chapitre 2 Section 1 : Les tableaux statistiques 1. La notion de fréquence (Début dans le cours précédent)
Lorsque la distribution est organisée en k modalités, la somme de 𝑖 = des 𝑖 exprimés en pourcentage est égale à 1. 𝑖 = , … ,
∑ 𝑖 = 𝑖=
∑ 𝑖 % = %
𝑖=
2. La notion de fréquence cumulée Elle consiste à utiliser les fréquences relatives afin de représenter la répartition des individus de la population sur les différentes modalités du caractère. Cest la fonction de répartition de la variable statistique. A) Variable statistique discrète et fréquence cumulée La fonction de répartition permet dassocier à chaque modalité xi la proportion dindividus pour lesquels la valeur du caractère est strictement inférieure à 𝑖 . On distingue deux types de fréquences cumulées : les fréquences cumulées croissantes Fi et les fonctions cumulées décroissantes ′𝑖
La définition précédente de la fonction de répartition sapplique aux fonctions cumulées croissantes. Dans le tableau statistique, la fonction cumulée croissante de la première modalité du tableau xi est toujours égale à 0. =
𝑖 = 𝑖− + 𝑖+ = = + = + = +
Dans la dernière ligne du tableau (cest-à-dire la plus grande modalité), la fréquence cumulée croissante est toujours inférieure à 1. Voir document 2 Définition générale de la fonction cumulée croissante : 𝑖 = , … , ℎ, … ℎ−
ℎ = ∑ 𝑖 𝑖=
B) Variable statistique continue et fréquence cumulée Dans le cas dune valeur continue, le calcul des fréquences cumulées croissantes est strictement le même que dans le cas discret. En revanche, ce qui sera différent cest quil faudra choisir dans les intervalles de valeur de 𝑖 la valeur discrète précise à laquelle on lit la fréquence cumulée. La fréquence cumulée 𝑖 mesure la proportion des individus pour lesquels la valeur de la variable statistique est strictement inférieure à la borne inférieure de la classe 𝑖 ². Ex : doc 3
C) Fonctions cumulées décroissantes ′ = ′ + ′ = ′ + ′ = ′ + ′ = ′𝑖 = ′ +
𝑖 = , … , ℎ, … ,
′ = ∑ =+
Dans le cas continu, la fonction cumulée décroissante ′𝑖 indique la proportion dindividus pour lesquels la valeur de la variable statistique est strictement supérieure à la borne supérieure de la classe correspondante. Remarque : On peut définir des effectifs cumulés croissants et des effectifs cumulés décroissants 𝑖 et ′𝑖 , leur mode de calcul est le même que celui des fonctions cumulées, mais en utilisant les 𝑖 au lieu des 𝑖 . Voir ex dans les doc 2 et 3
Le principe de lecture est également identique à celui des fonctions cumulées, à la différence près que les effectifs cumulés ne sexpriment pas en % de la population mais en nombre cumulé dindividus de cette population. Donc, la description quelles offrent de la répartition de la population est moins efficace que celle donnée par les fréquences cumulées car elle donne des quantités absolues et non des quantités relatives à la taille de la population.
Section 2 : Représentations graphiques La représentation graphique permet de représenter linformation du tableau statistique de façon plus efficace, car visuelle. On doit distinguer les techniques de représentation graphique selon la nature du caractère représenté. Les outils graphiques utilisés pour les variables discrètes sont différents de ceux utilisés pour les variables continues.
1. Les caractères qualitatifs Dans le cas dun caractère qualitatif, il existe deux outils graphiques : Le diagramme en tuyaux d’orgue On associe à chaque valeur du caractère un tuyau dont la hauteur est égale à leffectif ou à la fréquence de la modalité.
2) Le diagramme à secteur circulaire, ou « camembert »
On associe à chaque modalité 𝑖 un secteur dun cercle dont langle au centre du cercle est proportionnel à leffectif ou à la fréquence de la modalité.
Proportion de l'effectif par sexe 𝑖
𝑖
Garçons
60
Filles
40
Total
100
Filles 40%
Garçons 60%
Filles
Garçons
𝑖 : ∝𝑖 = 𝑖 × ° ∝ = , × ° ∝ = , × °
Les caractères quantitatifs 1. Variables statistiques discrètes Il existe deux outils graphiques qui représentent deux choses différentes. 1)Le diagramme différentiel Le diagramme différentiel représente la distribution des effectifs ou des fréquences relatives dune variable statistique. Dans le cas discret, on utilise le diagramme en bâtons.
On associe à chaque modalité 𝑖 soit leffectif soit la fréquence correspondante en traçant un segment vertical dont la hauteur correspond à la population.
Figure 1: Source www.itsbe.be
Discrète Diagramme en bâtons Courbe cumulative ou diagramme en escalier
Différentiel Intégral
Continue Histogramme Courbe cumulative ou fonction de répartition de la variable
Différentiel : Va représenter les fréquences ou effectifs simples (ni ; fi) Intégral : Va représenter les fréquences ou effectifs cumulés (Fi ; Ni)
2) Diagramme intégral ou courbe cumulative Principe de construction : Dans un repère figurent les modalités xi en abscisses et les fréquences cumulées (Fi) ou effectifs cumulés (Ni) en ordonnées. -
On place tous les points de coordonnées xi ; Fi ou Ni qui figurent dans le tableau statistique. On trace un segment horizontal à droite de ce point jusquà la modalité suivante. On trace les marches (voir document 4). Tracer une ligne horizontale allant de 1 jusquau dernier point des abscisses.
Conseils : -
Mettre 0 sur laxe des ordonnées Graduer les ordonnées de sorte à avoir un graphique carré. Plus grande valeur : 1 = 100% Dans le diagramme intégral dune distribution discrète, la lecture des fonctions cumulées se fait uniquement aux points, cest-à-dire uniquement aux extrémités gauches de chaque marche. Entre deux points successifs, il ny a rien. Les marches ont juste une convention de représentation, en aucun cas il ne sagit de continuité.
A) Variables statistiques continues 1) Le diagramme différentiel : l’histogramme Principe de construction : Dans un diagramme à deux dimensions, avec pour abscisses xi et ordonnées fi ou ni, on trace des rectangles dont la base en abscisses est égale à lamplitude de la modalité xi correspondante et dont lordonnée est égale à la densité de la classe correspondante.
𝑖 =
𝑖
𝑖
Ou 𝑖 =
𝑖𝑖
Densité = effectif ou fréquence divisée par lamplitude
Attention, les densités sont des nombres, mais elles ne correspondent pas à des mesures parce quelles associent deux objets différents. En revanche, on peut les ordonner. Cela sera important pour identifier le mode de la distribution. Mode de distribution : Modalité du caractère le plus fréquent de la distribution Voir le document 8 pour lhistogramme qui correspond concrètement le document 6.
Si on trace lhistogramme en reportant les effectifs en ordonnées au lieu des densités, le diagramme sera faux sauf si les amplitudes de toutes les classes sont égales. Il vaut mieux systématiquement dessiner les histogrammes en dessinant les densités car la plupart des distributions continues présentent des amplitudes et des densités différentes. Le document 7 reproduit un histogramme du document 6 qui est faux car la surface de chaque rectangle nest pas égale à leffectif ou à la fréquence de la modalité correspondante. Or, cette propriété est celle qui définit lhistogramme. En effet, la surface entière de lhistogramme doit être égale à n ou bien à 1 (somme des fréquences). Cest donc la surface du rectangle qui est égale à ni et non la hauteur de ce rectangle.
2) Courbes cumulatives et fonction de répartition Principe de construction : Dans un repère (xi ; Fi) ou (xi ; Ni), on place : -
-
Les points de coordonnées xi ; Fi du tableau (on prend la borne inférieure de la classe xi), et on rajoute le point supplémentaire qui nest pas dans la distribution et qui représente les 100% de la distribution. Il a comme coordonnées xi ; 1, mais cette fois-ci xi correspond à la borne supérieure de la dernière classe. On relie les points successifs par un segment. On trace une demi-droite allant vers +∞ à partir du point dordonnée 1 et une demi-droite allant vers -∞ à partir du point dordonnée 0. (Si on oublie de faire ça, la fonction nest pas bien représentée).
Attention, le diagramme intégral continu ne se construis pas à partir des centres de classes. Remarque : On peut également tracer la courbe cumulative des fréquences cumulées décroissants (F’i).
Principe de construction : Dans le même repère (xi ; F’i) : -
-
On place tous les points de coordonnées xi ; F’i en sachant que le xi que lon va considérer, cest la borne supérieure. On rajoute également 1 point supplémentaire dabscisse correspondant à la borne supérieure de la dernière classe et dordonnée égale à 0. On trace des segments entre chaque point successif On trace une demi-droite allant vers +∞ à partir du point dordonnée 0 et une allant vers -∞ à partir du point dordonnée 0.
Illustration : voir document 9
Deuxième partie : les caractéristiques des distributions à un caractère Les séries statistiques peuvent être résumées par différents types de caractéristiques. Les plus cous tat les caactistiues de tedace cetale la oee, la diae…. Afin de compléter linformation donnée par les caractéristiques de tendance centrale, on calcule également les caractéristiques de dispersion, de forme, de concentration.
Chapitre un : Les caractéristiques de tendance centrale Section 1 : Le mode Le mode se note Mo et il correspond à la valeur du caractère (cest-à-dire à sa modalité) la plus fréquemment rencontrée pour une population donnée. De façon générale, cest donc la modalité dont leffectif ou la fréquence est le/la plus élevée. Selon quon sera dans une distribution continue à intervalles égaux ou inégaux, il faudra affiner cette définition.
Cas des variables discrètes Dans le cas discret, le mode peut être identifié de deux façons : Par le tableau Le mode correspond à la modalité dont leffectif ni ou fi est le plus élevé. Ex : Dans la distribution du document 2, Mo = 3 (car cest la modalité qui a la plus grande fréquence/ effectif (ni et fi). Remarque : 1° Quest-ce qui se serait passé si deux modalités consécutives avaient le nombre le plus élevé ? Mo correspond alors aux deux modalités. On définit donc un intervalle modal (xi ; xi+1).
2° Et si deux modalités non consécutives avaient le nombre le plus élevé ? On aurait une distribution bi-modale, cest-à-dire une série avec deux modes. Par le graphique Graphiquement, le mode peut être identifié à partir du diagramme en bâton comme étant la modalité la plus longue du bâton.
2. Cas des variables continues Les modalités sont regroupées en classes, et on travaille sur un histogramme. Lorsque les amplitudes de classes sont égales
Lorsque les amplitudes de classes sont égales, la définition générale du mode sapplique : le mode correspond à la classe de modalité qui présente leffectif ou la fréquence le plus élevé. On parle alors de classe modale. Si on veut une valeur plus précise du mode, on dispose de deux méthodes : Par le centre de la classe modale La valeur du mode peut être approximée par le centre de la classe modale. Méthode des diagonales : méthode graphique Dans lhistogramme des fi ou ni, la méthode des diagonales consiste à déterminer la valeur exacte du mode en traçant les diagonales du rectangle correspondant à a classe modale. La première relie lextrémité gauche du sommet de la classe modale à lextrémité gauche du sommet de la classe suivante. La seconde relie lextrémité droite du sommet de la classe modale à lextrémité droite du sommet de la classe suivante. Le mode est la valeur du caractère qui correspond au point dintersection de ces deux diagonales. Le Mo obtenu par la méthode des diagonales est plus précis que celui quon peut estimer avec le centre de classe car il tient compte du profil de la distribution avant et après la classe modale. Si on ne dispose pas de lhistogramme, on peut accepter une approximation du mode par le centre de la classe, même si cette méthode ne reflète pas leffectif de la distribution. Lorsque les amplitudes de classe sont in...