Bi500 - Notes de cours des statistiques PDF

Title Bi500 - Notes de cours des statistiques
Course Statistiques
Institution Université de Versailles Saint-Quentin-en-Yvelines
Pages 9
File Size 164.9 KB
File Type PDF
Total Downloads 23
Total Views 143

Summary

Notes de cours des statistiques...


Description

Bi500 : Quelle est la question scientifique, à quoi on s’interesse? (pour pas se tromper dans nos données) Quelle est la variable aléatoire ? (résultat d’une expérience, variable; le résultat est aléatoire -qualitative -quantitative (variable numérique sur laquelle une opération a un sens genre une addition etc..) *discrète : variable qui va prendre un nombre fini de résultat (pas d’intermédiaire, exemple nombre de frères et soeurs, on a pas 4,5 frères et soeurs) *continue : variable qui va prendre un nombre infini de résultat (il y aura toujours un intermédiaire entre deux valeurs, genre la taille) Quel est le tableau le prof me donne, sous quelle forme il me donne les données -brut (on demande un par un pour donner les résultats, on les classe pas) chaque résultat de l’expérience correspond à Xi G1

-effectif Xi

G1

G2 1

2

1

2

1

10

G2

1

5

3

2

1

3

3

1

0

TP1 : Question scientifique : effet d’un milieu de culture sur la croissance bactérienne, donc quel milieu on va sélectionner pour cultiver nos bactéries. Variable : aléatoire, quantitative, discrete (soit la colonie est formée soit elle ne l’est pas) Tableau : de valeurs brutes —paramètres de position (PP) 1)nombre de réplicat par échantillon (n) 2)somme : nombre total de colonies 3)espérance (=moyenne) : E(X) 4)minimum 5)maximum 6)Mode (=valeur la plus représentée de la série de données) 7)Médiane (=valeur qui coupe la série de valeurs en 2) : en triant les données

—paramètres de dispersion (PD) 1)Variance : Sn^2 2)Ecart-type : Sn

Nombre de réplicat : n —> Fx : fonction NB et on sélectionne la colonne Pour écart-type : on veut un truc à 3 décimales donc on sélectionne la case Pour bloquer une colonne, on met le dollar devant la lettre $A$2 on bloque la ligne =NB.SI (plage de colonne : ligne) pour bloquer la colonne B de 1 à 10 : B$1: B$10 pour bloquer la ligne 3 : $I3 Nombre de réplicat sur un tableau effectif : somme

Graphe : -des moyennes : E(X) =moyenne de A et on tire

POIDS NAISSANCE question : est ce que être primipare ou multipare a une influence sur le poids du bébé à la naissance primipare : mère qui accouche pour la première fois multipare : mère qui accouche pour une autre fois que la première Variable : aléatoire quantitative continue Tableau : effectif Moyenne = somme divisée par le réplicat Somme : somme des produits 2x2100 + 4x2300

TP2 : population : ensemble des éléments qu’on est en train d’étudier échantillon : un nombre fini d’individu représentatif de la population Variable : qualitative —> nominative (couleur des yeux, genre on peut pas ordonner en disant bleu c’est plus grand que marron) —> ordinale (niveau de satisfaction bien, moyen..) série de données : ensemble de résultat avec tableau d’effectif ou tableau de données brutes Diagramme en cercle (camembert) pour les variables qualitatives Variable quantitative discrète : diagramme en barres/batons avec axe ordonnées = effectif axe abscisse = nbre frère et soeurs Variable quantitative continue : histogramme avec des classes jointives genre entre 160 et 170, entre 170 et 180 Les lois de probabilité -loi uniforme : la variable aléatoire X suit une loi uniforme de paramètre n U(n) avec P(X=x1) = 1/n —> le dé (on lance ça tombe sur 1, sur 2 etc.. ensemble des résultat possible) Xi=1,2,3,4,5,6 probabilité que ça tombe sur 1 = 1/6 -loi de Bernoulli : la variable aléatoire X suit une loin de Bernoulli de paramètre p B(p) —> lorsqu’on a 2 résultat possible : genre oui/non; ou succès/echec p = probabilité du succès q = 1-p -loi binomiale : la variable X suit une loi Binomiale de paramètres n et p : B(n,p) —> on répète plusieurs fois l’expérience afin d’avoir un nombre total de succès total k = «!n!» tentative -loi de poisson : la variable X suit une loi de Poisson de paramètre lambda —> généralisation de Bernoulli pour p petit et n (nombre de tentative) grand et lambda = n x p -loi exponentielle : la variable X suit une loi exponentielle de paramètre lambda -loi normale : variable X suit une loi normale avec une moyenne et un écart type —> moyenne = mu —> écart-type = sigma -loi du khi2 : loi normale mais au carré, avec un degré de liberté n-1 —> variance = (somme de la différence de X - moyenne) au carré) divisé par n -loi de Student : X suit une loi T de paramètre (moyenne, ecart-type) —> quand on a un faible nombre d’observations avec n faut sélectionner le n

Calcul de t pour A : loi.student.inverse(0,05 ; n$-1) —> et on doit trouver un truc autour de 2 Calcul de Q =erreur —> Q = t * (sigma/racine de n) ((sigma = Sn)) Borne inférieur : moyenne - Q Borne supérieur : moyenne + Q

Pour variance : erreur inf = Sn^2 - borne inférieur erreur sup = borne supérieur - Sn^2 borne inférieur = (n-1) * Sn^2 / b borne supérieur = (n-1) * Sn^2 / a Graphique de moyenne : barre d’erreurs uniquement positif —> valeur personnalisé —> Q Graphique de variance : barre d’erreurs positif ET négatif —> valeur personnalisé —> négatif = erreur inf —> positif = erreur sup

TP3 : Test d’hypothèse : H0 —> on cherche à affirmer ou à infirmer Cette hypothèse 0 est identique à la question de départ «!je rejette l’hypothèse H0!» —> si on ne rejette pas l’hypothèse : la différence entre les moyennes n’est pas significative —> si on rejette on doit caractériser la différence entre les valeurs (ex : moyenne du groupe B est significativement plus grande que la moyenne du groupe A) Quel test on utilise? (avec arbre de decision) Conclusion = résultat du test statistique correspond à la P-value Qu’on va comparer à des seuils alpha (alpha c’est le risque de se tromper si rejet de H0) «!si j’ai un faible risque de me tromper si je rejette H0 je rejette quand même!» Pour un alpha=0,01=1% SI on obtient une P-value < 1% on considère que le risque est faible de rejeter H0 donc on rejette SI on obtient une P-value > 5% on considère que le risque est fort SI 1% < P-value > 5% on est dans une zone de flou donc pour conclure il faut augmenter la taille de l’échantillon

Différents type de test d’hypothèses : -de conformité (lorsqu’on compare un échantillon à une population théorique) -d’homogénéité (on compare 2 échantillons entre eux) -paramétrique (porte sur un paramètre type la moyenne ou la variance; ils doivent vérifier certaines conditions d’application) -non paramétrique (pour variable qualitative ou effective) données peuvent être indépendantes soit elles seront appariées (par paire) *indépendante : quand ils sont distincts, qu’ils proviennent d’elements différents (taille échantillon différent) *appariés : lorsque chaque réplicat, à chaque fois qu’on fait les test, les données subit toutes les conditions, tous les test Test soit -bilatéraux : on regarde en même temps m1m1 -unilatéraux : on regarde que dans un sens, «!si moyenne du 1 est inférieur à moyenne du 2!» on regarde pas si c’est différent que quand c’est au dessus ou en dessous. Pour donné appariés avec grande variabilité = TEST DE SIGNE = signe (colonne 1A - colonne 1B) Si résultat +1 alors colonne A > colonne B donc si on a +1 c’est que quinidine est meilleur Ensuite on calcule le nombre de fois ou la quinidine est meilleur on compte le nombre de +1 avec la fonction NB.SI SI on a -1 c’est que aprimidine est meilleur Est-ce que les 2 médicaments ont la même efficacité ? —> H0 : les 2 médicaments ont la même efficacité *binomiale p=2*loi.binomiale (1er critère : effectif minimum ; n ; pH0 ; 1) pH0 = 0,5 vu que l’hypothèse c’est qu’elle sont égale donc on a 1 chance sur 2 d’avoir juste ou P(A)=0,33 et P(Q)=0,66 vu que entre 4 et 13 on est sur du 1/3 2/3"

*khi-2 : il faut déterminer des effectifs théorique (somme des données divisé par 2) sous l’hypothèse H0 donc si H0 dit que les medicaments ont la même efficacité si effectif observé = 4 13 total = 17 alors effectif théro = 8,5 8,5 et pour avoir P-value (plage réel = tout les effectif observé / plage attendue=tous les effectif theo) P : test.khideux (plage reel ; plage attendue)

TEST D’HOMOGENEITE On a 2 échantillons -> H0 : effectifs de la même population filles vs. garçons : est-ce qu’ils ont la même préférence de parfum de glace ? femmes

hommes

vanille

6

3

9

chocolat

8

0

8

14

L = ligne C=colonne Calculer effectif théorique : A = (LV*CF)/TOT B = (LV*CH)/TOT C = (CF*LC)/TOT D = (LC*CH)/TOT

-> Khi2 (obs; théorique) alpha obs = 0,07 > alpha seuil (alpha obs=p-value)

3

17

femmes

hommes

vanille

A

B

LV=9

chocolat

C

D

LC=8

CF=14

CH=3

TOT=17

femmes

hommes

vanille

A=7,4

B=1,6

LV=9

chocolat

C=6,6

D=1,4

LC=8

CF=14

CH=3

TOT=17

donc on ne peut pas rejeter H0

TEST DE NORMALITE -> si un échantillon suit une loi normale ? -description de la série de données : si moyenne E(X) est proche de la médiane si espace inter-quartile est symétrique autour de la médiane [E(X) - Sn ; E(X) + Sn] -distribution : allure gaussienne —> distribution normale si Variable continue —> création de classes (10+-5 classes; de même amplitude) on divise l’étendue au k classes

longueur = (Max - Min) / k pas de chevauchement -test d’hypothèses : shapiro wilk H0 : la distribution ne s’écarte significativement pas d’une loi normal W = grosse formule Si W>W seuil ==> on rejette pas H0 car pas de différence significative Si W on rejette H0 1) calcul de la fonction de fréquence classes : = concatener(borne inf ; «!_!» ; borne sup)

TEST DE SHAPIRO 1) on trie les valeurs du plus petit au plus grand -on identifie la médiane - on récupère toutes les valeurs au dessus de la médiane et on les copie ailleurs - on récupère toutes les valeurs en dessous de la médiane et on copie ailleurs et celles la on les trie du plus grand au plus petit 2) on calcul les écarts (x n-i+1 - xi ) xi = première partie (donc au dessus de la médiane) x n-i+1 = deuxième partie donc en dessous qu’on a trié dans l’autre sens et pour avoir x n-i+1 - xi on fait B1 - A1 3) on récupère les ai (ah yy) 4) numérateur : ai x (x n-i+1 - x) —> somme E n/k i=1 5) dénominateur : (xi - x barre)^2 —> somme E n i=1 x barre c’est la moyenne donc c’est E(X) 6) On calcule W ; W seuil table 7) Conclure

TP4 : Test de comparaison de moyennes : -student type 1 : *on vérifie que les données sont appariés (=chaque réplicat subit toutes les conditions) *si n on vérifie que le delta suit une loi normale delta = A1 - A2 *si n>=30 -student type 2 et student type 3 : si données indépendantes -student type 2 : *il faut au moins 1 n < 30 (donc au moins une moyenne est inférieur à 30) *prérequis : normalité des 2 échantillons et variance non significativement différentes 1)donc on compare les variances 2 à 2" —> TEST.F (1è série de données ; 2è série de données) 2)ensuite on compare les moyennes 3)on pose H0 : moyennes identiques —> ET on fait test de student -student type 3 : * les 2 n >= 30 donc les 2 moyennes sont supérieur ou égale à 30 Pour comparer 2 moyennes, on pose H0 («!les 2 moyennes sont identiques!») p-value => test.student (1ère série de données ; 2 ème série de données ; test bilatérale donc 2 ; 1 ou 2 ou 3) le 1 ou 2 ou 3 correspond au student type 1 ou 2 ou 3

ANOVA : permet de regarder l’effet d’un facteur dans leur globalité -variabilité résiduelle = ce qu’on explique pas -on compare la part du facteur avec la part qu’on explique pas variabilité = SCE (celle du facteur peut pas être plus grande que la variabilité totale) **Ni = nombre de replicat donc NB de la colonne **Ti = à la condition i c’est la somme de la colonne **E(Xi) = moyenne de la colonne **N tot = NB de toutes les valeurs **Tn = somme de tous ** E(x) = moyenne totale -SCE : *SCE TOTALE = SOMME.CARRE.ECART (on sélectionne toutes nos valeurs) *SCE totale = somme de ( Xij - E(X) )^2 Xij = chaque résultat de l’experience donc en gros à chaque valeur on retire la moyenne *SCE totale = somme des carrés des XIj - (TGg^2)/n = somme (Xij ^2) - (Tg^2)/n

= SOMME.CARRE (toutes valeurs du tableau) - (Tg^2/n) *SCE du facteur = ((somme des (Ti^2/ni))) - (Tg^2/n) *SCE du facteur = somme des ni (E(Xi) - E(X))^2 donc à chaque moyenne je soustrait à la moyenne générale et on met au carré *SCE résiduelle = SCE tot - SCE des facteurs -degré de liberté :

*ddl tot = n tot -1 *ddl facteur = nombre de conditions -1 *ddl résiduelle = ddl tot - ddl facteur

-carré moyen : = SCE/ddl -F observé : que pour le facteur (on ne regarde ni totale ni résiduelle) = carré moyen du facteur / carré moyen résiduel -P-value = alpha : H0 : le facteur milieu de culture n’a pas d’effet =loi.F (F obs ; ddl facteur ; ddl résiduel)

Anova à 2 facteurs Variabilité résiduelle

F1 F2

Jeune

Résiduelle

Vieux

Homme Femme Tabagisme Pas tabagisme

1- Titration : On transforme le tableau à 1 facteur en tableau à 2 facteurs Donc nouveau tableau Facteur —> Loi.F (F ; ddl facteur ; ddl résiduel) 2-NFS : Effet sur la personne? Effet sur la saison? en faisant comparaison de moyenne 3-Pomme de terre Anova à 2 facteurs et on veut caractériser les 2 facteurs...


Similar Free PDFs