Statistiques descriptives - L1 AES PDF

Title	Statistiques descriptives - L1 AES
Course	Statistique descriptive 1
Institution	Université de Bordeaux
Pages	32
File Size	990.2 KB
File Type	PDF
Total Downloads	7
Total Views	178

Preview

CLICK TO PREVIEW PDF

Summary

stat...

Description

Statistiques descriptives Année 2016-2017, L1 AES Statistiques descriptives Eric Rougier

1ère partie : l’appréhension statistique Chapitre 1 : Notions élémentaires Section 1 : Terminologie statistique Le cours porte sur la statistique : ensemble de méthodes qui permettent de décrire et danalyser de façon quantifiée des phénomènes qui sont repérés par des éléments nombreux de même nature et susceptibles dêtre dénombrés et classés. Ensemble de méthodes : Ce sont des outils mathématiques qui sont adaptés pour décrire certaines dimensions dun phénomène statistique. (ex : moyenne). Eléments nombreux : Il y a plein de phénomènes qui génèrent un grand nombre dinformations quantitatives (chiffres) desquelles on va réduire une multitude de données brutes. La statistique permet de synthétiser les informations contenues dans les données brutes associées à des phoes sociau, cooiues… ue lon ne peut saisir quà partir dun grand nombre dobservations. De même nature : Une des conditions de validité de lutilisation de loutil statistique est que les phénomènes, observés à travers des informations quantitatives soient comparables dun individu à un autre. Dénombrés : Il faut avoir une mesure précise déléments observés. Classés : Avoir des mesures quantitatives, classables (que lon peut ordonner, ex : par ordre croissant, dcoissat…. Les statistiques : Il sagit de la production de loutil statistique. La statistique est un produit neutre puisquil est basé sur des propriétés mathématiques. En revanche, linterprétation que lon fait des statistiques peut être orientée, ou non neutre. La statistique utilise une terminologie partagée par tous les statisticiens et qui permet de désigner sans ambiguïté les objets ou les outils quils utilisent. Une population : Cest lensemble dindividus quétudie la statistique. Les individus sont les éléments (humains ou non humains) sur lesquels le statisticien observe une information quantitative. Ces individus statistiques peuvent être des humains (ex : population de Bordeaux), des objets (Ex : Le parc immobilier Bordelais), évènements (ex : population des crédits quune banque a accordée à ses clients sur une année).

Sur les individus de la population, le statisticien observe des caractéristiques quil appelle caractères. Chaque caractère observé sur une population présente plusieurs valeurs observées sur lensemble de la population. Ces différentes valeurs observées pour un caractère donné sappellent des modalités. Attention, les modalités du caractère doivent absolument être observées sans ambiguïté. C'est-à-dire quun individu ne doit être associé quà une seule modalité. Population : P ; Caractère : X, Modalités : x Leffectif de la population : n/N, correspond au nombre dindividus qui la constitue. Section 2 : Les différents types de caractères et de variables

Les caractères qualitatifs Un caractère est dit qualitatif lorsque son observation ne peut pas se traduire sur mesure. Autrement dit, les modalités de ce caractère ne sont pas mesurables (la plupart du temps, elles ne sont pas numériques).

Les caractères quantitatifs Un caractère est dit quantitatif si ses modalités sont mesurables, c'est-à-dire quelles se traduisent par des nombres qui sont ordonnables. Dans ce cas, le caractère et ses modalités telles quelles sont observées sur la population étudiée sappellent une variable statistique. Ex : La superficie, ou le nombre de gens qui y vivent à lannée.

A) Les variables statistiques discrètes Une variable statistique est discrète lorsqu'elle est mesurée par un nombre fini de valeurs isolées (il s'agit de nombres entiers). Par exemple, dans le cas du parc immobilier Bordelais, le nombre de pièces de chaque individu est une variable statistique discrète. En effet, les pièces sont un nombre entier car il ne peut pas y avoir une moitié de pièce.

B) Variables statistiques continues

Une variable statistique est continue si elle peut être mesurée par un nombre infini de valeurs. Nous pouvons pousser sa mesure jusqu'aux décimales. Par exemple, le revenu fiscal des ménages Français est une variable statistique continue.

Les variables continues seront présentées à l'aide de classes de modalités. Chaque classe est un intervalle de valeur du caractère. La succession des différentes classes inclut l'ensemble des modalités qui sont observées sur la population étudiée. Les données brutes des distributions statistiques continues sont généralement utilisées par les statisticiens sans regroupement en classe. En effet, le regroupement en classe est un résumé de la distribution réelle, il génère donc des résultats moins précis que ceux qui sont produits par l'analyse exhaustive.

Une classe de modalité se présente comme une intervalle définie par une borne inférieure a et une borne supérieure b. Les modalités sont des intervalles qui, par convention, sont – à part pour la dernière classe – fermés à gauche et ouverts à droite. Exemple : [ ; [ ;

[ [

On peut calculer deux informations utiles sur la classe : l’amplitude de la classe et le centre de la classe

Le centre de classe est appelé à jouer un grand rôle dans les calculs, car le regroupement en classes constitue une perte d’information importante. Les différentes classes sont des modalités, et elles doivent être ordonnées par ordre croissante du caractère. Ensuite, chaque classe de modalités sera traitée comme un indice xi correspondant à son rang dans l'ordre croissant des valeurs d'une modalité.

Exemple :

[ , ,[   Première modalité [, , [  [ , [ 

Chapitre 2 : Tableaux et graphes des distributions à un caractère. Introduction : Lorsqu'on travaille sur une distribution statistique dont la population est nombreuse (quand il y a un nombre important d'individus observés), il est utile de pouvoir représenter sous forme résumée cette distribution. Pour représenter de façon synthétique une population, on utilise deux outils statistiques.

Section 1 : La notion de fréquence Un tableau statistique se construit en colonnes. Dans la première colonne, on représente les modalités du caractère (x). Si elles sont discrètes, on aura des nombres entiers. Notation : Pour parler de la somme des termes successifs d’une suite, on peut ou bien utiliser les pointillés ou bien utiliser le symbole « sigma » majuscule noté Σ (sigma). Formule générale : 𝑖=

∑ 𝑖 =  +  + ⋯ +  𝑖=

Attention à la disposition des parenthèses quand il y en a : 1er cas : 

(∑ 𝑖 ) +  =  +  +  +  𝑖=

2nd cas : 

(∑ 𝑖 + ) = 𝑖 +  +  +  +  + 𝑖=

Dans le cas du tableau de distribution continue, la dernière classe dont le rang le plus élevé est parfois non fermée à sa borne supérieure.

Pour fermer cette borne supérieure, il y a deux solutions : – –

Soit on prend la même amplitude que la classe inférieure. Soit on choisit un nombre arbitraire, de façon à ne pas exclure trop d'observations

La notion de fréquence Formule générale : 𝑖 =

𝑖  ∑𝑖= 𝑖

En pourcentage : 𝑖 % =

𝑖



×  = 𝑖 × 

Le résultat du calcul d'une fréquence est un pourcentage.

Chapitre 2 Section 1 : Les tableaux statistiques 1. La notion de fréquence (Début dans le cours précédent)

Lorsque la distribution est organisée en k modalités, la somme de 𝑖 =  des 𝑖 exprimés en pourcentage est égale à 1. 𝑖 = , … ,  

∑ 𝑖 =  𝑖= 

∑ 𝑖 % = %

𝑖=

2. La notion de fréquence cumulée Elle consiste à utiliser les fréquences relatives afin de représenter la répartition des individus de la population sur les différentes modalités du caractère. Cest la fonction de répartition de la variable statistique. A) Variable statistique discrète et fréquence cumulée La fonction de répartition permet dassocier à chaque modalité xi la proportion dindividus pour lesquels la valeur du caractère est strictement inférieure à 𝑖 . On distingue deux types de fréquences cumulées : les fréquences cumulées croissantes Fi et les fonctions cumulées décroissantes ′𝑖

La définition précédente de la fonction de répartition sapplique aux fonctions cumulées croissantes. Dans le tableau statistique, la fonction cumulée croissante de la première modalité du tableau xi est toujours égale à 0.  = 

𝑖 = 𝑖− + 𝑖+  =   =  +   =  +   =  + 

Dans la dernière ligne du tableau (cest-à-dire la plus grande modalité), la fréquence cumulée croissante est toujours inférieure à 1.  Voir document 2 Définition générale de la fonction cumulée croissante : 𝑖 = , … , ℎ, …  ℎ−

ℎ = ∑ 𝑖 𝑖=

B) Variable statistique continue et fréquence cumulée Dans le cas dune valeur continue, le calcul des fréquences cumulées croissantes est strictement le même que dans le cas discret. En revanche, ce qui sera différent cest quil faudra choisir dans les intervalles de valeur de 𝑖 la valeur discrète précise à laquelle on lit la fréquence cumulée. La fréquence cumulée 𝑖 mesure la proportion des individus pour lesquels la valeur de la variable statistique est strictement inférieure à la borne inférieure de la classe 𝑖 ². Ex : doc 3

C) Fonctions cumulées décroissantes  ′ = ′  +   ′  = ′  +   ′  = ′  +  ′ =  ′𝑖 = ′ + 

𝑖 = , … , ℎ, … ,  

′ = ∑  =+

Dans le cas continu, la fonction cumulée décroissante ′𝑖 indique la proportion dindividus pour lesquels la valeur de la variable statistique est strictement supérieure à la borne supérieure de la classe correspondante. Remarque : On peut définir des effectifs cumulés croissants et des effectifs cumulés décroissants 𝑖 et ′𝑖 , leur mode de calcul est le même que celui des fonctions cumulées, mais en utilisant les 𝑖 au lieu des 𝑖 . Voir ex dans les doc 2 et 3

Le principe de lecture est également identique à celui des fonctions cumulées, à la différence près que les effectifs cumulés ne sexpriment pas en % de la population mais en nombre cumulé dindividus de cette population. Donc, la description quelles offrent de la répartition de la population est moins efficace que celle donnée par les fréquences cumulées car elle donne des quantités absolues et non des quantités relatives à la taille de la population.

Section 2 : Représentations graphiques La représentation graphique permet de représenter linformation du tableau statistique de façon plus efficace, car visuelle. On doit distinguer les techniques de représentation graphique selon la nature du caractère représenté. Les outils graphiques utilisés pour les variables discrètes sont différents de ceux utilisés pour les variables continues.

1. Les caractères qualitatifs Dans le cas dun caractère qualitatif, il existe deux outils graphiques : Le diagramme en tuyaux d’orgue On associe à chaque valeur du caractère un tuyau dont la hauteur est égale à leffectif ou à la fréquence de la modalité.

2) Le diagramme à secteur circulaire, ou « camembert »

On associe à chaque modalité 𝑖 un secteur dun cercle dont langle au centre du cercle est proportionnel à leffectif ou à la fréquence de la modalité.

Proportion de l'effectif par sexe 𝑖

𝑖

Garçons

60

Filles

40

Total

100

Filles 40%

Garçons 60%

Filles

Garçons

𝑖 : ∝𝑖 = 𝑖 × ° ∝ = , × ° ∝ = , × °

Les caractères quantitatifs 1. Variables statistiques discrètes Il existe deux outils graphiques qui représentent deux choses différentes. 1)Le diagramme différentiel Le diagramme différentiel représente la distribution des effectifs ou des fréquences relatives dune variable statistique. Dans le cas discret, on utilise le diagramme en bâtons.

On associe à chaque modalité 𝑖 soit leffectif soit la fréquence correspondante en traçant un segment vertical dont la hauteur correspond à la population.

Figure 1: Source www.itsbe.be

Discrète Diagramme en bâtons Courbe cumulative ou diagramme en escalier

Différentiel Intégral

Continue Histogramme Courbe cumulative ou fonction de répartition de la variable

Différentiel : Va représenter les fréquences ou effectifs simples (ni ; fi) Intégral : Va représenter les fréquences ou effectifs cumulés (Fi ; Ni)

2) Diagramme intégral ou courbe cumulative Principe de construction : Dans un repère figurent les modalités xi en abscisses et les fréquences cumulées (Fi) ou effectifs cumulés (Ni) en ordonnées. -

On place tous les points de coordonnées xi ; Fi ou Ni qui figurent dans le tableau statistique. On trace un segment horizontal à droite de ce point jusquà la modalité suivante. On trace les marches (voir document 4). Tracer une ligne horizontale allant de 1 jusquau dernier point des abscisses.

Conseils : -

Mettre 0 sur laxe des ordonnées Graduer les ordonnées de sorte à avoir un graphique carré. Plus grande valeur : 1 = 100% Dans le diagramme intégral dune distribution discrète, la lecture des fonctions cumulées se fait uniquement aux points, cest-à-dire uniquement aux extrémités gauches de chaque marche. Entre deux points successifs, il ny a rien. Les marches ont juste une convention de représentation, en aucun cas il ne sagit de continuité.

A) Variables statistiques continues 1) Le diagramme différentiel : l’histogramme Principe de construction : Dans un diagramme à deux dimensions, avec pour abscisses xi et ordonnées fi ou ni, on trace des rectangles dont la base en abscisses est égale à lamplitude de la modalité xi correspondante et dont lordonnée est égale à la densité de la classe correspondante.

𝑖 =

𝑖

𝑖

Ou 𝑖 =

 𝑖𝑖

 Densité = effectif ou fréquence divisée par lamplitude

Attention, les densités sont des nombres, mais elles ne correspondent pas à des mesures parce quelles associent deux objets différents. En revanche, on peut les ordonner. Cela sera important pour identifier le mode de la distribution. Mode de distribution : Modalité du caractère le plus fréquent de la distribution Voir le document 8 pour lhistogramme qui correspond concrètement le document 6.

Si on trace lhistogramme en reportant les effectifs en ordonnées au lieu des densités, le diagramme sera faux sauf si les amplitudes de toutes les classes sont égales. Il vaut mieux systématiquement dessiner les histogrammes en dessinant les densités car la plupart des distributions continues présentent des amplitudes et des densités différentes. Le document 7 reproduit un histogramme du document 6 qui est faux car la surface de chaque rectangle nest pas égale à leffectif ou à la fréquence de la modalité correspondante. Or, cette propriété est celle qui définit lhistogramme. En effet, la surface entière de lhistogramme doit être égale à n ou bien à 1 (somme des fréquences). Cest donc la surface du rectangle qui est égale à ni et non la hauteur de ce rectangle.

2) Courbes cumulatives et fonction de répartition Principe de construction : Dans un repère (xi ; Fi) ou (xi ; Ni), on place : -

-

Les points de coordonnées xi ; Fi du tableau (on prend la borne inférieure de la classe xi), et on rajoute le point supplémentaire qui nest pas dans la distribution et qui représente les 100% de la distribution. Il a comme coordonnées xi ; 1, mais cette fois-ci xi correspond à la borne supérieure de la dernière classe. On relie les points successifs par un segment. On trace une demi-droite allant vers +∞ à partir du point dordonnée 1 et une demi-droite allant vers -∞ à partir du point dordonnée 0. (Si on oublie de faire ça, la fonction nest pas bien représentée).

Attention, le diagramme intégral continu ne se construis pas à partir des centres de classes. Remarque : On peut également tracer la courbe cumulative des fréquences cumulées décroissants (F’i).

Principe de construction : Dans le même repère (xi ; F’i) : -

-

On place tous les points de coordonnées xi ; F’i en sachant que le xi que lon va considérer, cest la borne supérieure. On rajoute également 1 point supplémentaire dabscisse correspondant à la borne supérieure de la dernière classe et dordonnée égale à 0. On trace des segments entre chaque point successif On trace une demi-droite allant vers +∞ à partir du point dordonnée 0 et une allant vers -∞ à partir du point dordonnée 0.

Illustration : voir document 9

Deuxième partie : les caractéristiques des distributions à un caractère Les séries statistiques peuvent être résumées par différents types de caractéristiques. Les plus cous tat les caactistiues de tedace cetale la oee, la diae…. Afin de compléter linformation donnée par les caractéristiques de tendance centrale, on calcule également les caractéristiques de dispersion, de forme, de concentration.

Chapitre un : Les caractéristiques de tendance centrale Section 1 : Le mode Le mode se note Mo et il correspond à la valeur du caractère (cest-à-dire à sa modalité) la plus fréquemment rencontrée pour une population donnée. De façon générale, cest donc la modalité dont leffectif ou la fréquence est le/la plus élevée. Selon quon sera dans une distribution continue à intervalles égaux ou inégaux, il faudra affiner cette définition.

Cas des variables discrètes Dans le cas discret, le mode peut être identifié de deux façons : Par le tableau Le mode correspond à la modalité dont leffectif ni ou fi est le plus élevé. Ex : Dans la distribution du document 2, Mo = 3 (car cest la modalité qui a la plus grande fréquence/ effectif (ni et fi). Remarque : 1° Quest-ce qui se serait passé si deux modalités consécutives avaient le nombre le plus élevé ?  Mo correspond alors aux deux modalités. On définit donc un intervalle modal (xi ; xi+1).

2° Et si deux modalités non consécutives avaient le nombre le plus élevé ? On aurait une distribution bi-modale, cest-à-dire une série avec deux modes. Par le graphique Graphiquement, le mode peut être identifié à partir du diagramme en bâton comme étant la modalité la plus longue du bâton.

2. Cas des variables continues Les modalités sont regroupées en classes, et on travaille sur un histogramme. Lorsque les amplitudes de classes sont égales

Lorsque les amplitudes de classes sont égales, la définition générale du mode sapplique : le mode correspond à la classe de modalité qui présente leffectif ou la fréquence le plus élevé. On parle alors de classe modale. Si on veut une valeur plus précise du mode, on dispose de deux méthodes : Par le centre de la classe modale La valeur du mode peut être approximée par le centre de la classe modale. Méthode des diagonales : méthode graphique Dans lhistogramme des fi ou ni, la méthode des diagonales consiste à déterminer la valeur exacte du mode en traçant les diagonales du rectangle correspondant à a classe modale. La première relie lextrémité gauche du sommet de la classe modale à lextrémité gauche du sommet de la classe suivante. La seconde relie lextrémité droite du sommet de la classe modale à lextrémité droite du sommet de la classe suivante. Le mode est la valeur du caractère qui correspond au point dintersection de ces deux diagonales. Le Mo obtenu par la méthode des diagonales est plus précis que celui quon peut estimer avec le centre de classe car il tient compte du profil de la distribution avant et après la classe modale. Si on ne dispose pas de lhistogramme, on peut accepter une approximation du mode par le centre de la classe, même si cette méthode ne reflète pas leffectif de la distribution. Lorsque les amplitudes de classe sont in...