Tableaux à une dimension et représentation graphique PDF

Title Tableaux à une dimension et représentation graphique
Course Statistiques Descriptives
Institution Université de Lille
Pages 8
File Size 350.4 KB
File Type PDF
Total Downloads 9
Total Views 137

Summary

Download Tableaux à une dimension et représentation graphique PDF


Description

Introduction La statistique descriptive analyse les caractéristiques d'une population, ou compare deux populations, au moyen de fonctions statistiques. Le recours à ces fonctions requiert la connaissance des méthodes de calcul. Le second semestre étudie les principales « tendance » ou fonctions et leurs méthodes de calcul. Ces fonctions font partie des fonctions statistiques d'Excel et appliquées en ATE.

Chapitre 4 : Tableaux à une dimension et représentation graphique (doc n°1 à 6.3) Rappel: Terminologie et classification des séries statistiques Population : ensemble d'éléments auxquels se rapportent les données étudiées, quel que soit cet ensemble (étudiants, entreprise, etc..) Individu ou « unité statistique » : chaque élément de la population Échantillon : partie d'une population constituée par sondage, dans le but d'appliquer les méthodes statistiques permettant l'analyse de l'ensemble de la population. Sa taille est la caractéristique principale = nombre total d'individus, ou effectif global. Variable ou caractère : caractéristique suivant laquelle chaque individu de la population est décrit. La description suivant un seul caractère donne lieu aux distributions statistiques à une seule dimension, ou un seul caractère (objet du S2). Série ou distribution : synonymes de Variable Modalités (du caractère) : nécessairement multiples, elles permettent de ranger ou classer chaque individu suivant le caractère. Les caractères ou variables peuvent être de 3 types : Variable (ou Type de modalités Opérations possibles caractère)

QUALITATIVE

QUANTITATIVE DISCRETE

QUANTITATIVE CONTINUE

Exemple

Code ou Nomenclature Les opérations Diplôme, qualification numérique ou algébriques n'ont pas alphabétique de sens Représentations graphiques et calcul de fréquences Numérique Une seule valeur possible par modalité du caractère (entière le plus souvent)

Opérations algébriques Nombre d'enfants Calcul d'indicateurs statistiques Représentations graphiques

Numérique Plusieurs valeurs possibles par modalité du caractère rangées en classes

Opérations algébriques Surface cultivée Calcul d'indicateurs statistiques Représentations graphiques

Une variable qualitative est celle dont le caractère est qualitatif, càd composé de modalités i = 1 à n, présentées sous la forme : soit de « texte » ou NOM, donc alphabétique. Il s'agit alors d'une NOMENCLATURE alphabétique Soit de nombres ou codes. Il s'agit alors d'une NOMENCLATURE numérique. Mais les opérations mathématiques sur ces nombres n'ont aucun sens. Par exemple : 214 x code 1,1 = ???? Une variable quantitative est pas conséquent une variable non qualitative. Les modalités du caractère ne peuvent être que des nombres, et ordonnées. Mais, les opérations mathématiques sur ce nombres ont un sens. On distingue les variables quantitatives DISCRETES (une seule valeur possible par modalité) et les variables quantitatives CONTINUES (plusieurs valeurs possibles par modalité). Le type de la variable apparaît immédiatement dans la première colonne du tableau de distribution, colonne dénommée Xj. I – Variables qualitatives et représentations graphiques (doc 1) Voir Document 1 du Document de cours Ce document est l'exemple du manuel, une étude des postes de travail de 640 salariés d'une entreprise a permis de les répertorier selon une des 5 CSP. Fréquences : définition fi = Fréquences simples

fi =

𝑛𝑖 ∑𝑛𝑖

=

𝑛𝑖 𝑁

n → ∑ fi = 1 i=1 Effectifs : définition ni = effectif catégoriel n N = ∑ ni = 640 i=1 Effectif global ou Total Opérations élémentaires Retrouver les effectifs catégoriels (ni) connaissant les fréquences (fi) et l'effectif global (N) 𝑛𝑖

𝑛𝑖

fi = ∑𝑛𝑖= → 𝑛𝑖 = 𝑓𝑖 × 𝑁 𝑁

Exemple Retrouver les effectifs (ni) connaissant les fréquences (fi) et l'effectif total (N)

Prestations

fi

ni

Santé

0.15

145.42

Vieillesse

0.19

183.62

Maternité

0

42.29

0.62

605.21

Autres

1 Total 145,42 = 976,54 x 0,149 ou = 976,54 x 14,9%

1

Document de cours : Les 3 types de graphiques qui sont habituellement utilisés pour représenter les séries qualitatives Le diagramme en secteurs ou « camembert » La valeur de chaque secteur ou angle est donné par : un secteur = Wi = fi x 360° Le diagramme en barres ou « tuyaux d'orgues » / le diagramme en « bâtons » L'expression « histogramme » est fausse. Le diagramme en bandeaux ou empilé 100% Le diagramme empilé cumule les fi et utilise les fréquences cumulées Fi La suite est consacrée aux diagrammes selon le type de variable. Il s'agit d'un tableau de référence à connaître pour le pratiquer en TD. Les erreurs de choix de diagramme, tolérables en début de semestre, sont sanctionnées lors des contrôles. L'idée principale est : les 3 types de variables peuvent donner lieu à deux types de diagrammes, dénommés : diagramme différentiel diagramme intégral. Document 2 du doc cours : Les diagrammes selon le type de variable Le tableau p.136 du manuel résume l'ensemble des diagrammes construits pour les 3 types de variables : qualitative, quantitative, discrète, quantitative continue. fi = fréquences simples Fi = fréquences cumulées voir tableau doc n°2 cours II- Variables quantitatives discrètes L'exemple de la variable discrète étudié ci-dessous est extrait du manuel (aux variantes près dues à l'édition), il s'agit de la distribution de 400 familles selon le nombre d'enfants. Notons immédiatement que la description statistique consiste toujours à construire un tableau de distribution. La première colonne de ce tableau est celle de la définition de la variable (notée xi) et les modalités qu'elle suit ou prend (chaque ligne de la 1ère colonne). La variable xi est donc ici le nombre d'enfants par famille. Cette variable suit 9 modalités (de 0 à 8 enfants). Elle est quantitative (modalités = nombres) discrète (une seule valeur entière possible par modalité). Variable quantitative discrète :

a) Effectifs et fréquences simples L'exemple de la page 116 : distribution de 400 familles (F > 45 ans) suivant le nombre d'enfants. Voir document de cours 3-1 On peut calculer les 2 colonnes : fi → décimales fi% → en % Mentionnons tout de suite pat anticipation que : Les effectifs catégoriels et fréquences simples (fi) peuvent être cumulés. On définit alors : les effectifs cumulés (ou ni cumulés = Ni) et les fréquences cumulées (ou Fi) Doc 3.1 Un cumul est toujours réalisé par incrémentation (en zigzag si l'on veut) 2 types d'erreurs possibles : erreur au centième : on mets 100% quand même, et on enlève le petit surplus sur l'une des lignes (ou plusieurs) ; si on a 100,07% on enlève 0,7 à 100% + sur l'une des lignes du tableau erreur grande : erreur de calcul, il faut repérer l'erreur L'exemple des ventes de smartphones : si on s'intéresse à la taille de l'écran, la variable qualitative précédente (ventes par constructeur) devient quantitative discrète Ventes de smartphones par taille d'écran en 2014 Ventes (fi%) Taille d'écran en pouce 3.5

18

4

34

4.5

23

5

21

5.5

4

Ensemble : 100

Les modalités d'une variable discrète sont toujours présentées dans un ordre croissant (ordonnées) b) Diagramme différentiel (Doc 2) Diagramme différentiel d'une variable discrète Diagrammes en barres de la distribution des 400 familles selon le nombre d'enfants Tuyaux d'orgue ou en « barres » Le plus souvent les barres sont réduites à des bâtons. Le diagrammes est appelé « diagramme en bâtons ». \!/ Au choix de l'ordonnée maximale : JAMAIS 100% c) Fréquences cumulées et courbe cumulative en escalier (Doc 3.1 & 3.2)

Leçon principale Les Fi% (ou Fi) représentent le CUMUL ASCENDANT des fi% (ou fi). Ils constituent LA FONCTION CUMULATIVE ou FONCTION DE REPARTITION (dite parfois « Fonctions F »). La fonction de répartition sert à la CONSTRUCTION DU DIAGRAMME INTEGRAL appelé COURBE CUMULATIVE, dont la forme est EN ESCLAIERS dans le cas DISCRET. Aussi la dénomme t'on COURBE CUMULATIVE EN ESCALIERS. La fonction de répartition utilise 2 définitions des Fi, appelées respectivement : Fi⁺ ou F(xi⁺) pourcentage d'individus dont le caractère est ≤ xi i La valeur est notée F(xi⁺) = ∑fj i=1 Fi⁻ ou F(xi⁻) = pourcentage d'individus dont le caractère est < xi i-1 La valeur est notée F(xi⁻) = ∑fj i=1 La courbe cumulative d'une variable discrète (celle des Fi) est en escaliers car : Pour tout x tel que xi < x < (xi + 1) la fréquence F(xi) ou Fi est constante ; ce qui peut s'écrire : F(x) [si xi < x < (xi + 1) = F(xi⁺) F(xi+1) et donc la courbe est bien en escalier puisque ce résultat définit un « palier de la courbe ». Entre deux Fi, il est possible de calculer chaque fréquence fi, car : F(xi⁺) = F(xi⁻) + fi et donc F(xi⁺) - F(xi⁻) = fi cumul Qui signifie que entre deux marches, à l'abscisse (xi), le décalage est égal à fi Donc il faut toujours l'appeler COURBE CUMULATIVE EN ESCALIER F(xi⁻) et F(xi⁺) Il importe donc de toujours créer ces deux colonnes dans le tableau de distribution, puisqu'elles sont nécessaires pour la construction de la courbe cumulative en esclaliers. 3 remarques : 1. On appelle xMin la modalité xi la plus petite et xMax la plus grande pour x < xmin, la plus petite modalité F(x) = 0 ou 0% pour x > xmax, la plus grande modalité F(x) = 1 ou 100% On appelle ceci les bornes de la courbe. 2. Il est parfois suggéré de cumuler d'abord les effectifs pour en déduire ensuite les Fi. Ce qui permet d'éviter les erreurs d'arrondis. Les Effectifs cumulés sont notés N(xi) et vérifient les mêmes règles que les Fi (ci-dessus) : i i N(xi⁻) = ∑nⅉ et N(xi⁺) = ∑nⅉ i=1 i=1 d'où l'on déduit 𝑁(𝑥𝑖⁺) 𝑁(𝑥𝑖⁻) F(xi⁻) = 𝑁 et F(xi⁺) = 𝑁

Il reste préférable cependant d'incrémenter les petits fi.

3. F(xi⁻) et F(xi⁺) sont toujours calculées ligne par ligne, et dans la ligne. Cependant, il existe une 3ème convention de présentation pour F(xi⁻) qui consiste à situer cette fréquence en intervalle de ligne. Dans ce cas, le résultat est toujours 0% sous xmin ; 100% sous xmax. xi

ni

fj%

F(xi⁺)

F(xi⁻)

x1

10

16.40%

16.40%

0.00%

x2

15

24.60%

41.00%

16.40%

x3

36

59.00%

100.00%

41.00%

61

100.00%

F(xi)inter ou Fi% 0 00% 16 40% 41 00% 100 00

100.00%

L'ensemble de ce paragraphe est appliqué à la distribution des 400 familles et le tableau complet de distribution est donné p.121 du manuel. Finalement la méthode de cumul des fi selon les 3 conventions (+ ; - ; intervalles) peut être dite : « cumul (+) – coller (-) - coller (intervalles) » → cumul, coller, coller Nb enfants ; xi

fi%

Fréquences cumulées F(xi⁺)%

0

11.00%

11.00%

1

21.00%

32.00%

2

27.00%

59.00%

3

19.00%

78.00%

4

9.50%

87.50%

5

6.50%

94.00%

6

3.00%

97.00%

7

1.75%

98.75%

8

1.25%

100.00%

Total

100.00%

Fréquences cumulées F(xi⁻)%

Fréquences cumulées F(xi)-inter

Quelle colonne utilisée pour la courbe cumulative en escaliers ? Le Doc 3.2 permet de constater qu'il est indifférent de recourir F(xi⁻) et F(xi⁺) pour cette construction. Toutefois, nous préconisons l'utilisation des F(xi⁻). Il y a 2 méthodes possibles pour la construction de la courbe cumulative en escalier du Doc 3.2 1. La méthode « poser les bornes, retenir les marches » utilise les F(xi⁺) Etapes à suivre : Poser les bornes xMin, xMax Elever les verticales F(xi⁺) Retenir les marches Effacer les verticales 2. La méthode « sous xi, F(xi) utilise les F(xi⁻)

C'est une courbe cumulative discontinue III – Les variables continues a. Classe, bornes de classes, amplitude, centre de classe (Définitions) La caractéristique principale des variables quantitatives dites continues est de regrouper les valeurs (ou modalités) en classes, elles mêmes définies par des fourchettes de valeurs, ou extrémités ou bornes de classes. Les bornes de classes [xi⁻ et xi⁺[ L'écriture des bornes est xi⁻ (bornes inférieure) et xi⁺ (borne supérieure) Ex : les salaires compris entre xi⁻ = 800 euros et xi⁺ = 1 000 euros La classe i, correspond à l'intervalle fermée à gauche et ouvert à droite, soit [xi⁻ = 800e ; xi⁻ ; xi⁺ = 1000e[ Simplement [800 ; 1000[ donc la valeur xi⁺ = 1000e est exclue de classe i, et appartient à la classe (i+1). La particularité de la première et de la dernière classe d'une série (les classes extrêmes) est de comporter les valeurs minimales, pour la première, et maximale, pour la seconde. On les note : xmin (valeur minimale) xmax (valeur maximale) Elles sont généralement données, sinon elles sont choisies si on ne dispose par exemple que de l'information vague : « moins de 800e » et « plus de 1400e » (se pose donc le problème du critère de choix). Le problème du nombre de classes optimal Ce problème se pose lorsqu'il s'agit de construire soit même une série continue partant d'un énoncé. Plusieurs solutions : - l'énoncé suffit à lui-même et donne implicitement les classes de la série - Sinon, respecter des règles élémentaires d'équilibre de la série, càd : des effectifs modaux (ni) équilibrés, des amplitudes de classe (« ai »-voir ci-après) et donc « d'étendue » - Et respecter des limites suggérées par 2 règles scientifiques. Ces règles donnent « k » le nombre de classes optimales pour un effectif total (N), de la manière suivante ◦ règle de Brooks-Carruthers : k < 5+ lnN ◦ règle de Huntsberger : k ≈ 1 + (3,3 logN) On appelle amplitude de classe « ai », la différence : ai = (xi⁺) - (xi⁻) (borne supérieure-borne inférieure) L'amplitude des classes d'une série n'est pas constante, il existe des classes à faible ou haute amplitude. Par commodité, on construit souvent au début et à la fin de la série, des classes « fourretout à amplitude plus élevée que celle des autres en « agrandissant » « xMax » (mais -voir plus loin- ceci a des conséquences sur la moyenne) On appelle centre de classe « Cxi », la valeur représentative de cette classe (partagée par tous les individus de la classe), que l'on calcule par : (𝑥𝑖⁺)+(𝑥𝑖⁻) cxi ou c(xi) = 2

soit la demi-somme des bornes, càd la moyenne des bornes.

c) Diagramme différentiel d'une série continue : le principe de l'histogramme Définition : L'histogramme est le diagramme différentiel des séries continues. Il a pour abscisse les bornes de classe à l'ECHELLE (l'amplitude doit être respectée entre les bornes en abscisse). Il a pour ordonnée les FREQUENCES PAR UNITE D'AMPLITUDE notées (fi/ai) ou (fi/ai)%. La somme des (fi/ai)% ne peut être égale à 100% ; car cela signifierait qu'un seul rectangle pourrait contenir toute la série !! Application : calcul des (fi/ai)% dans le tableau doc4 (factures) 2 colonnes sont nécessaires : d'abord fi%, puis (fi%/ai). Préférable aux (ni/ai) Cas particulier L'histogramme régulier est celui d'une série continue dont les classes ont la même amplitude. Graphiquement, les rectangles possèdent tous la même base en abscissse. La hauteur est toujours obtenue par la calcul des (fi/ai). En faisant passer une courbe tracée par segments à la règle : xMin, chaque Cxi et xMax on obtient l'exemple des fractures polygone des fréquences (𝑥𝑖⁺)+(𝑥𝑖⁻)

Pour rappelle : Cxi = 2 Le polygone des fréquences n'a d'intérêt que pour les distributions théoriques. Ici par exemple, les amplitudes étant différentes, ce n'est pas que par la construction [….] Cette figure est importante parce qu'elle donne visuellement l'allure ou la forme de la distribution. Ici : la distribution est dite étalée à droite, ou « pentue » à gauche On apprendra plus loin à calculer des indicateurs de forme pour confirmer l'allure constatée. d) La courbe cumulative ou fonction de répartition, dite fonction « F » La courbe cumulative ou Fonction de répartition est la représentation graphique des fréquences cumulées : Fxi⁻. Sa forme conduit à l’appeler aussi « Ogive de Galton ». La méthode de report des valeurs F(xi) est celle dite « sous « xi » , F(xi⁻) ». Elle est la plus recommandée, car la plus rapide et la moins sujette à erreur. La caractéristique principale de la courbe est sa continuité (pas d'escaliers) de xMin à xMax. Car la fonction est continue : Mathématiquement « elle peut être tracée sans lever le crayon de papier ». Etude de la fonction de répartition On l'étudie à l'aide de 3 documents, voir page 8/23 doc cours 3 6.1 La construction 6.2 La comparaison avec la courbe cumulative en escaliers (facultatif) 6.3 La relation à l'histogramme...


Similar Free PDFs