Chapitre 2 - La méthode et les hypothèses des MCO dans le cas de la régression simple PDF

Title Chapitre 2 - La méthode et les hypothèses des MCO dans le cas de la régression simple
Author Guillaume Dewilde
Course Econométrie
Institution Université de Lille
Pages 13
File Size 465 KB
File Type PDF
Total Downloads 95
Total Views 293

Summary

Cours du sixième semestre de la Licence d'économie et de gestion. Présenté par Rémi Generoso....


Description

1

CHAPITRE 2 – LA METHODE ET LES HYPOTHESES DE MCO DANS LE CAS DE LA REGRESSION SIMPLE

INTRODUCTION Rappelons le modèle de régression linéaire : 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 (1) Comment estimer β0 et β1 pour reproduire au mieux le phénomène observé ? Nous pouvons utiliser l’estimateur de Moindres carrés observés (MCO) pour estimer les paramètres de l’équation (1). Cette méthode est attribuée à au mathématicien Allemand Carl Friedrich GAUSS et est devenue parmi les plus populaires de l’analyse de régression compte tenu de ses propriétés statistiques séduisantes.

LA METHODE DES MCO Eléments de rappel Propriétés des opérateurs de somme

Rappel sur les dérivées partielles La dérivée partielle d’une fonction est sa dérivée par rapport à l’une de ses variables, les autres étant maintenues constantes. Exemple : f(a, b) = [y-(ax+b)]² La fonction f(a, b) est de la forme un (la dérivée de un étant (un)’=nun-1u’ -

La dérivée de f par rapport à a est :

2 𝜕𝑓

𝜕𝑎 -

= 2[𝑦 − (𝑎𝑥 + 𝑏)](−𝑥 ) = −2𝑥[𝑦 − (𝑎𝑥 + 𝑏)]

La dérivée de f par rapport à b : 𝜕𝑓 = 2[𝑦 − (𝑎𝑥 + 𝑏)]( −1) = −2[𝑦 − (𝑎𝑥 + 𝑏)] 𝜕𝑏

Formulaire Exemple : On a deux sous-ensembles de taille N, l’un composé des xi et l′ autrecomposé des yi. Le problème de la régression linéaire est de trouver une méthode qui consiste à rechercher une relation entre y et x de la forme y = f(x). Quand cette relation est affine (y = β0 + β1 xi), alors on parle de régression linéaire. Mais le couple xi, yi ne vérifie pas toujours cette relation affine car il existe des erreurs.

𝑒𝑖 : Le résidu de la régression (Différence entre les vraies valeurs Mi et les valeurs ajustées Pi)

On va chercher une droite qui passe le plus près de ces points. Il existe un point moyen : 𝐺(𝑥; 𝑦). La méthode des MCO consiste à déterminer la droite Dy/x obtenue par  minimisation de ∑ 𝑃𝑖 𝑀𝑖 ², soit ∑ 𝑒𝑖 ² = 𝑚𝑖𝑛 ∑(𝑦𝑖 − 𝛽 1 𝑥𝑖 + 𝛽0)² = 𝑚𝑖𝑛 𝑆

Estimation des coefficients Nous pouvons définir les conditions pour obtenir un minimum de S. -

Première condition (CPO) :

3 En divisant pas 2N, on obtient :  𝛽1𝑥 𝛽0 = 𝑦 −  Avec 𝑥 et 𝑦 les moyennes des échantillons de y et de x. -

Deuxième condition (CSO) :

En divisant par 2N et en remplaçant son expression dans (4), on a :

L’estimateur de 𝛽1 par les MCO est :

Pourquoi élever au carré les résidus ? Pour tenir compte de la dispersion des points autour de la droite d’ajustement. Si la somme des ei est à la puissance 1 alors ∑(𝑦𝑖 − 𝑦) 𝑖 pourrait être minimisé sans tenir compte du fait que e1 est plus loin de 𝑦𝑖 que e2 et e3. C’est un critère déterminant pour juger de la qualité de la régression.

PROPRIETE DES MCO Quelques propriétés algébriques Les estimateurs des MCO ont trois propriétés statistiques : - ∑ 𝑒𝑖 = 0 → Les estimateurs des MCO sont déterminés afin que la somme des résidus soit égale à zéro. Cette propriété ne nécessite pas de démonstration  particulière, elle découle du fait que 𝑒𝑖 = 𝑦𝑖 − 𝛽 0 − 𝛽1𝑥𝑖 - ∑ 𝑥𝑖 𝑒𝑖 = 0 → La covariance entre les variables explicatives et les résidus des MCO est nulle. Et par conséquent, ∑ 𝑦𝑖 𝑒𝑖 = 0.

4 - Le point (𝑥 , 𝑦) est toujours sur la droite de régression des MCO, c’est-à-dire que la droite des MCO passera toujours par le point moyen du nuage de point, le point G. On peut également interpréter une régression par les MCO d’une autre façon, on peut partir du constat que la valeur observée yi est alors la somme de sa valeur 0 − 𝛽 1 𝑥𝑖 (10 (10)) ajustée et des résidus : 𝑦𝑖 = 𝛽 Les MCO permettent donc de décomposer chaque yi en deux parties, une valeur ajustée et un résidu (non corrélés) : 𝑦𝑖 = 𝑦𝑖 + 𝑒𝑖 (11 (11))

Dans le premier cas, la régression surestime la valeur réelle. Dans un second cas, le résidu est positif, la régression sous-estime donc les estimations de la valeur réelle. Si ei est positif, la droite de régression sous-estime yi et si ei est négatif, la droite surestime yi. L’idée est ici que si la somme des résidus est égale à zéro, on espère qu’elle soit le moins éloigné possible de la droite de régression. Dans le cas contraire, l’ajustement sera de mauvaise qualité. De plus, bien que la somme des résidus soit égale à zéro, dans la pratique, la valeur individuelle d’un résidu n’est jamais nulle.

Décomposition de la variance & R²

On part de l’équation (11) en exprimant y et 𝑦 sous la forme de déviations par rapport à leur moyenne : (𝑦𝑖 − 𝑦) = (𝑦 𝑖 − 𝑦) + 𝑒𝑖

(12 (12))

En élevant au carré et en sommant pour tout l’échantillon : 2

∑(𝑦𝑖 − 𝑦) = ∑[(𝑦𝑖  − 𝑦) + 𝑒𝑖 ]

2

𝑦𝑖 − 𝑦)² ∑ 𝑒𝑖2 = ∑(𝑦 𝑖 − 𝑦) ² + ∑ 𝑒𝑖2 + 2 ∑(𝑦𝑖 − 𝑦)𝑒𝑖 = ∑( A partir de l’équation (15), on va pouvoir définir trois quantités :

(15)

5 -

∑ ∆𝑦𝑖 ² = ∑(𝑦𝑖 − 𝑦)², la som somme me tota totale le d des es ca carré rré (S (STC) TC) : c’est une mesure de la variation totale dans les valeurs observées de y au sein de l’échantillon. ∑ ∆𝑦𝑖 ² = ∑(𝑦𝑖 − 𝑦)², la som somme me de dess ca carré rré rréss eexpli xpli xpliqué qué quéss (S (SCE) CE) : c’est une mesure de la variation des valeurs ajustées de y. ∑ 𝑒𝑖2 , la som somme me de dess ca carré rré rréss ré réssiduel iduelss (S (SCR) CR) : C’est la part de la variation inexpliquée dans le modèle.

On peut donc ré estimer l’équation (15) par : STC = SCE + SCR

(16 (16))

La variation totale des valeurs observées de y autour de leur valeur moyenne peut se scinder en deux éléments. L’un est attribuable à la droite de régression et l’autre à des forces aléatoires, les observations effectives de y ne figurant pas sur la droite d’ajustement. Déco Décompo mpo mposition sition de la vvarian arian ariance ce

Jusqu’à présent, on avait parlé d’une statistique qui nous permettait de juger de la qualité d’ajustement. Coefficient de détermination R² Divisions les deux membres de (16) par STC : 1=

𝑆𝐶𝐸

𝑆𝑇𝐶

+

𝑆𝐶𝑅

𝑆𝑇𝐶

=

∑(𝑦 𝑖 −𝑦)² ∑(𝑦𝑖 −𝑦)²

∑𝑢 ² 𝑖

+ ∑(𝑦

(17)

𝑖 −𝑦)²

Mesure de la qualité d’ajustement de la régression par la proportion de la variation totale expliquée par le modèle : 𝑅² =

𝑆𝐶𝐸

𝑆𝑇𝐶

=

∑(𝑦 𝑖 −𝑦)² ∑(𝑦𝑖 −𝑦)²

(18 (18))

Ce qui équivaut à : 𝑅² = 1 −

𝑆𝐶𝑅

𝑆𝑇𝐶

=1−

² ∑𝑢 𝑖 ∑(𝑦𝑖 −𝑦)²

(19)

6 Pour Rappel : -

01 R² = 1 indique un ajustement parfait, soit 𝑦𝑖 = 𝑦𝑖 1 = 0 R²=0 indique l’absence de relation entre yi et xi, soit 𝛽 Dans le cas de la régression simple : r = ∓√𝑅²

Deux points importants en économétrie : 1) Implications d’un changement d’unité de mesure de la variable dépendante et/ou indépendante sur les estimations des MCO. 2) Comment incorporer les formes fonctionnelles couramment utilisées en économie au sein d’une analyse économétrique.

FORME FONCTIONNELLE ET UNITE DE MESURES Changement d’unité de la variable dépendante

EXEMPLE :

Mod Modèle èle 1 : Salary = 𝛽0 + 𝛽1 𝑟𝑜𝑒 + 𝑢

(20 (20))

Le salaire est exprimé en milliers de $, et les rendements moyens des capitaux propres (reo) en %.  = 963.191 + 181.501 roe Mod Modèle èle 1 ((est est estimé imé imé)) : 𝑠𝑎𝑙𝑎𝑟𝑦

(21 (21))

Interprétation : Si roe = 0, alors le salaire prédit est de 963191$. Le changement prédit dans le salaire en fonction de ∆roe :  = 18.501(∆𝑟𝑜𝑒) ∆𝑠𝑎𝑙𝑎𝑟𝑦

(22 (22))

= 18.501, soit 18500$

(23 (23))

Pour interpréter ici 𝛽1 , quand roe augmente d’une unité (de 1%), alors le salaire augmente de 18500$. Nous mesurons maintenant le salaire en $. Pour cela, nous créons la variable salardol (salardol = 1000.salary), à partir de laquelle on crée un nouveau modèle : Mod Modèle èle 2 : salardol = 𝛽0 + 𝛽1 𝑟𝑜𝑒 + 𝑢

(24 (24))

Après estimation du modèle par les MCO :  = 963191 + 18501roe Mod Modèle èle 2 ((est est estimé imé imé)) : 𝑠𝑎𝑙𝑎𝑟𝑑𝑜𝑙

(25 (25))

7 Si la variable dépendante est multipliée par une constante c alors les coefficients estimés sont aussi multipliés par c . Si la variable dépendante est multipliée par un facteur d’échelle, alors tous les résultats de la régression seront également multipliés par ce même facteur c.

Changement d’unité de la variable indépendante

Soit roedec = roe/100, donc roedec = 0.23 est équivalent à un rendement moyen de 23%. Mod Modèle èle 3 : Salary = 𝛽0 + 𝛽1 𝑟𝑜𝑒𝑑𝑒𝑐 + 𝑢

(26 (26))

Après estimation du modèle par les MCO :  = 963.191 + 1850.1 roedec Mod Modèle èle 3 ((est est estimé imé imé)) : 𝑠𝑎𝑙𝑎𝑟𝑦

(2 (27) 7)

 = 1850.1(∆𝑟𝑜𝑒𝑑𝑒𝑐) = 1850.1(0.01) = 18.501 ∆𝑠𝑎𝑙𝑎𝑟𝑦

(28 (28))

Ce qu’on observe c’est que le coefficient associé à la nouvelle variable explicative est égal à celui trouvé dans le modèle 1, multiplié par 100. L’interprétation de l’équation est donc préservée.

Que Quelle lle eesst la rè règle gle ggéné éné énéra ra rale le ? Si la variable indépendante est divisée ou multipliée par un facteur c (c>0), alors seul le coefficient de la pente est multiplié par c.

Forme fonctionnelle et non linéarité Quid de la forme fonctionnelle La contrainte de linéarité entre la variable dépendante et indépendante est-elle trop simplificatrice ? Afin de modifier un modèle linéaire, on peut introduire des effets non-linéaires en redéfinissant les variables. Exemple : Relation salaire-éducation ou Y est le salaire et X le nombre d’années d’éducation. Envisager un modèle linéaire classique sans transformation au préalable des variables (sans non linéarité dans les variables) → Erreur de spécification. En effet, cela supposerait que chaque année d’éducation supplémentaire aurait un impact équivalent sur le salaire espéré, ce qui n’est pas raisonnable. Double transformation logarithmique (log-log)

8 Ce type de spécification est une transformation bi-logarithmique, on parle alors de double transformation logarithmique. Un modèle non linéaire mais 𝛽

𝑘 « intrinsèquement linéaire » est l’équation Cobb-Douglas : y = 𝑎 ∏ 𝐾 𝑘=1 𝑥𝑘 .

𝛽

Version stochastique, partiellement aléatoire (K=1) : y = 𝑎𝑥1 1 𝑒 𝜀 , 𝑜ù 𝜀 est le terme d’erreur. Ce modèle devient linéaire quand on transforme en logarithmes naturels : 𝑙𝑛𝑦 = 𝛽0 + 𝛽1 𝑙𝑛𝑥1 + 𝜀, avec 𝛽0 = 𝑙𝑛𝑎 Ce type de spécification présente un atout particulier car les coefficients estimés sont interprétables comme des élasticités. On parlera parfois de « modèles à élasticité constante ». 𝜕𝑦 ⁄ 𝑦 𝜕𝑥1 ⁄ 𝑥1

=

𝜕𝑙𝑛𝑦

𝜕𝑙𝑛𝑥1

= 𝛽1

(31 (31))

Ce type de spécification a deux avantages : - Les coefficients d’un modèle type log-log peuvent être comparés à travers plusieurs variables explicatives. - On peut tenir compte d’effets de non-linéarité et de plusieurs formes de nonlinéarité entre les variables en fonction du signe des coefficients. Par exemple posons 𝑙𝑛𝑦𝑖 = 𝛽0 + 𝛽1 𝑙𝑛𝑥𝑖 + 𝜀 Spécification semi-logarithmique Un autre modèle « intrinsèquement linéaire » est donné par : 𝑦 = 𝑒 𝛽0 +𝛽1 𝑥1 . Sa version stochastique est : 𝑦 = 𝑒 𝛽0 +𝛽1 𝑥1 +𝜀. Ici, on parlera de paramètre de semi élasticité, ils représentent la variation en pourcentage de la variable dépendante par rapport à une variation d’une unité de la variable indépendante. Le modèle devient linéaire quand on le transforme en logarithmes naturels : 𝑙𝑛𝑦 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀 Puisque pour estimer ce modèle on ne transforme que le variable dépendante, on parle de la « spécification semi-logarithmique ». 0 𝑒𝑡 𝛽   Les estimateurs 𝛽 1 sont souvent confondus, mais 𝛽1 est une variable aléatoire et est fonction du terme d’erreur. On a donc ici une variable aléatoire.

9

PROPRIETE DES ESTIMATEURS DE MCO 0 𝑒𝑡 𝛽 1 comme des paramètres de la population à priori inconnus. On considère 𝛽 On va étudier les propriétés de distribution de ces estimateurs sur la base d’échantillons aléatoires tirés au sein d’une population. On va devoir définir 4 hypothèses principales qui nous permettront de démontrer que ces estimateurs sont des paramètres sans biais des estimateurs de la population 𝛽0 𝑒𝑡 𝛽1 : Tout d’abord deux propriétés importantes : -

-

On va avoir un estimateur de variance minimale, c’est-à-dire qu’en moyenne on aura la vraie valeur de l’estimateur. Chacune des hypothèses sont propres à la régression linéaire simple. Les hypothèses seront donc précédées de « RLS ». On devra donc analyser si l’espérance de chaque estimateur est égale à la variable qu’il estime.

Commençons par établir le caractère non biaisé des estimateurs des OLS à partir d’un ensemble d’hypothèses : Hypothèses RLS.1 : définit le modèle de population. C’est l’hypothèse de linéarité dans les paramètres, la variable dépendante y est reliée à la variable indépendante x et au terme d’erreur 𝜀 de façon linéaire. 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀 Hypothèses RLS.2 : on suppose que les données sont issues d’un échantillon aléatoire représentatif de taille n. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 Hypothèse RLS.3 : il est indispensable que la variable indépendante affiche une variation non nulle au sein de l’échantillon. Dans le cas où l’écart-type n’est pas égal à 0, il y a violation de l’hypothèse RLS.3, on ne peut donc pas recourir aux MCO. ∑(𝑥𝑖 − 𝑥 )² ≠ 0 Hypothèse RLS.4 : c’est l’hypothèse de moyenne nulle conditionnelle. Pour obtenir les estimateurs sans biais, il faut ajouter cette hypothèse de nullité de l’espérance conditionnelle. Pour que cette hypothèse soit respectée, cela implique que le terme d’erreur ne soit pas corrélé à la variable indépendante. Un des moyens de tester de cette hypothèse est viable est de faire un test de robustesse. ∑(𝜀|𝑥) = 0

10

Sous les conditions que ces hypothèses soient respectées, on peut montrer que les estimateurs de 𝛽0 𝑒𝑡 𝛽1 sont sans biais. 1 = Formule de l’estimateur de 𝛽

∑(𝑥𝑖 −𝑥 )(𝑦𝑖 −𝑦) ∑(𝑥𝑖 −𝑥 )²

Avec 𝑆𝑆𝑇𝑥 la somme totale des carrés.

=

∑(𝑥𝑖 −𝑥 )𝑦𝑖

(32)

𝑆𝑆𝑇𝑥

 On étudie ici le comportement de 𝛽 1 dans tous les échantillons possibles, on la considère donc comme une variable aléatoire. On va donc chercher à montrer que 1 en fonction des cet estimateur est sans biais. Pour cela, on va réécrire 𝛽 coefficients valables pour la population et des termes d’erreurs : ∑(𝑥 −𝑥 )(𝛽0 + 𝛽1 𝑥𝑖 +𝜀)  𝛽1 = 𝑖 𝑆𝑆𝑇

(3 (33) 3)

𝑥

Caractère non biaisé des MCO 𝟏 est san 𝟏) = 𝜷 𝟏 ? Obje Objecctif : eest st st-ce -ce q que ue 𝜷 sanss b biais iais ? 𝑬( 𝜷 Le numérateur de l’équation (32) peut être réécrit : ∑(𝑥𝑖 − 𝑥 )𝛽0 + ∑(𝑥𝑖 − 𝑥 )𝛽1 𝑥𝑖 + ∑(𝑥𝑖 − 𝑥 )𝜀𝑖 = 𝛽0 ∑(𝑥𝑖 − 𝑥 ) + 𝛽1 ∑(𝑥𝑖 − 𝑥 )𝑥𝑖 + ∑(𝑥𝑖 − 𝑥 )𝜀𝑖

(35)

Par conséquent, ∑𝑑 𝜀 ∑(𝑥𝑖 −𝑥 )𝜀𝑖  = 𝛽1 + 𝑖 𝑖 𝛽1 = 𝛽1 + 𝑆𝑆𝑇 𝑆𝑆𝑇 𝑥

𝑥

(36)

 Le caractère aléatoire de 𝛽 1 dépend uniquement du terme d’erreur. On va donc  exprimer 𝛽 1 sous la forme : Donc,

11 1 ) = 𝛽1 + 1 ∑ 𝑑𝑖 𝑥𝑖 = 𝛽1 𝐸(𝛽 𝑆𝑆𝑇

(38 (38))

𝑥

=0

|𝑥) = 𝛽1 + ( 1 ) ∑ 𝑑 𝐸(𝜀 |𝑥) Car, 𝐸(𝛽 𝑖 𝑖 1 𝑆𝑆𝑇 𝑥

𝟎 est san 𝟎) = 𝜷 𝟎 ? Obje Objecctif : eest st st-ce -ce q que ue 𝜷 sanss b biais iais ? 𝑬( 𝜷  β0 = y − β1 x = β0 + β1 x + ε − β  = β0 + (β1 −  β1)x + ε 1x

(41)

En conditionnant aux valeurs xi :   𝐸(𝛽 0 )=β0 + 𝐸[(β1 − β1 )𝑥 ] + 𝐸[𝜀] = β0 + 𝐸[(β1 − β1 )𝑥 ]

(43 (43))

Comme E[𝜀] = 0 par hypothèse et E( 𝛽1 ) = 𝛽1 alors : 0) = 𝛽0 𝐸(𝛽

(44 (44))

Variance des estimateurs de MCO

On souhaite connaître la précision de l’estimateur en introduisant une hypothèse critique et fondamentale afin d’estimer la variance de notre estimateur. Hypothèse RLS.5 : c’est l’hypothèse d’homoscédasticité. Contrairement à l’hypothèse 4, qui concerne uniquement les valeurs attendues du terme d’erreur, l’hypothèse RLS.5 concerne la variance du terme d’erreur. Elle n’est pas nécessaire pour le calcul de l’estimateur sans biais, mais elle est toutes fois nécessaire lorsqu’on s’intéresse à la dispersion des estimateurs autour de leur valeur dans la population. Var(u|x) = 𝜎² Thé Théorè orè orème me : Sous les hypothèses RLS.1 – RLS.5, −1

2

0 ) = 𝜎²𝑛 ∑ 𝑥𝑖 𝑉𝑎𝑟(𝛽 ∑(𝑥 −𝑥 )² 𝑖

1 ) = 𝜎² 𝑉𝑎𝑟(𝛽 ∑(𝑥 −𝑥 )² 𝑖

(45 (45)) (46 (46))

L’hypothèse RLS.5 ne joue aucun rôle pour prouver le caractère non-biaisé des MCO.  Preuve pour 𝛽 1 : La variance de ces estimateurs dépend directement de la variance du terme 1 ) sera élevée et plus l’estimateur sera d’erreur 𝜎². Plus 𝜎²est grand, plus 𝑉𝑎𝑟(𝛽 peu précis.

12 Au niveau du numérateur : plus la variabilité dans les observations de la variable dépendante (la somme des carrés totaux) va augmenter, plus l’estimateur sera précis, plus sa variance est faible. Artificiellement, on ne peut pas modifier les valeurs de x. donc comment faire pour augmenter la variabilité dans les x ? Il suffit d’augmenter la taille de l’échantillon. → Comme SSTx = ∑(𝑥𝑖 − 𝑥 )², SSTx augmente avec n. Lorsqu’on fait une régression, il faut faire attention à avoir un échantillon assez grand car si l’échantillon est trop petit, la variance des estimateurs sera trop élevée. Il nous reste un problème, on ne connaît pas 𝜎², il faut donc l’estimer. Estimation de 𝜎² : 𝜎²est la variance du terme d’erreur de la population 𝜀𝑖 = 𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 . Après  estimation, on a 𝑒𝑖 = 𝑦𝑖 − 𝛽 0 − 𝛽1𝑥𝑖 . Ou encore, 0 − 𝛽   𝑒𝑖 = (𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ) − 𝛽 1 𝑥𝑖 = 𝜀𝑖 − (𝛽0 − 𝛽0 ) − (𝛽1 − 𝛽1 )𝑥𝑖

(54 (54))

On sait par définition que 𝜎²=E(𝜀 ²), mais 𝜀𝑖 n’est pas observé. On serait tenté de remplacer 𝜀𝑖 par 𝑒𝑖 , on aurait donc 𝜎² =

∑ 𝑒𝑖2 𝑛

=

𝑆𝑆𝑅 𝑛

. Mais le

problème ici est que cet estimateur est biaisé en raison de la méthode de calcul des résidus. En effet, lorsqu’on a estimé les résidus, on a dû tenir compte de deux contraintes qui proviennent de deux propriétés statistiques énoncées auparavant : -

∑ 𝑒𝑖 = 0 ∑ 𝑒𝑖 𝑥𝑖 = 0

Une manière de comprendre l’implication de ces deux contraintes est de considérer que nous perdons deux degrés de liberté pour pouvoir les remplir. Etant donné qu’on a perdu deux observations, ce n’est pas la somme des résidus au carré sur n qu’il faut prendre en compte mais : 𝝈 ² = biaisé de 𝜎².

∑ 𝒆𝒊𝟐

𝒏−𝟐

𝑺𝑺𝑹

= 𝒏−𝟐 , l’estimateur non

Nous obtenons donc les estimateurs : −1

2

0 ) = 𝜎²𝑛 ∑ 𝑥𝑖 𝑉𝑎𝑟(𝛽 ∑(𝑥 −𝑥 )² 𝑖

1 ) = 𝜎 ² 𝑉𝑎𝑟(𝛽 ∑(𝑥 −𝑥 )² 𝑖

(57) (58 (58))

On peut calculer l’éca l’écart rt rt--type de la rég régre re ression ssion ou également appelé RMSE (root mean squared error) ou SER (standard error of the regression) grâce à :

13 𝜎 = √𝜎² L’estimateur de l’écart-type des facteurs non observés (écart-type de y qui n’a pas pu être expliqué par x).    On peut utiliser 𝜎 pour estimer les écart-types de 𝛽 0 𝑒𝑡 𝛽1 dénotés 𝜎(𝛽0) et 𝜎(𝛽1). 1) est : L’estimateur de 𝜎(𝛽 ) = 𝜎 𝜎(𝛽 1 √𝑆𝑆𝑇

𝑥

(59)

 Cet estimateur est dénommé l’écart-type estimé de 𝛽 1 ou en anglais standard error 1 . Il joue un rôle fondamental pour construire les statistiques des tests of 𝛽

d’hypothèse (chapitre 4).

Attention, c’est une variable aléatoire car 𝜎 varie à chaque fois que nous utilisons un échantillon différent....


Similar Free PDFs