Chapitre 1 - Présentation du modèle de régression linéaire simple PDF

Title Chapitre 1 - Présentation du modèle de régression linéaire simple
Author Guillaume Dewilde
Course Econométrie
Institution Université de Lille
Pages 11
File Size 395.8 KB
File Type PDF
Total Downloads 40
Total Views 145

Summary

Cours du sixième semestre de la Licence d'économie et de gestion. Présenté par Rémi Generoso....


Description

1

CHAPITRE 1 – PRESENTATION DU MODELE DE REGRESSION LINEAIRE SIMPLE La régression linéaire est le socle de l’économétrie.

PRESENTATION DU MODELE DE REGRESSION LINEAIRE SIMPLE 1. Variables et terme d’erreur

Le modèle de régression linéaire simple peut être utilisé pour étudier la relation entre deux variables (maximum), c’est-à-dire qu’on va considérer deux variables (x et y) représentant une population en nous chercherons à expliquer y en termes de x. Cela revient à se demander comment varie y pout tout changement de x. Dans ce cas, la théorie économique (et l’intuition) nous amène à considérer la variable x comme potentiellement explicative des changements de y. EXEMPLE 1 : y contient des données sur les rendements céréaliers d’un échantillon d’une population d’agriculteurs au Ghana et x est la quantité d’engrais utilisée.

EXEMPLE 2 : y est le salaire d’un échantillon de la population française âgée de 25 à 45 ans et x est le nombre d’années d’études.

On n’a pas forcément besoin, pour estimer ces modèles (exemples), de la théorie économique, c’est assez intuitifs. Mais il faut tout de même utiliser la théorie économique dans chacune des questions qu’on se pose car sans elle le raisonnement est assez limité.

En écrivant un modèle qui cherche à expliquer y en fonction de x, nous faisons face à trois problèmes majeurs : - Il n’y a jamais de relation parfaite entre deux variables. Il faut tenir compte du fait que ces deux variables ne sont pas complétement liées et que leur lien varie d’une observation à l’autre. - La question de la forme fonctionnelle qu’on va choisir pour exprimer cette relation. Est-ce que la relation sera linéaire ou non-linéaire ? - Enfin, la question centrale en terme de RLS est : comment s’assurer que quand on cherche à expliquer y en terme de x, j’ai vraiment une relation ceteris paribus (toute chose égale par ailleurs) ? Comment faire pour isoler l’effet de x sur y ? En effet, dans la réalité des faits, de nombreuses variables influent sur y. Il est possible d’écrire la relation suivante afin de pallier à ces trois difficultés : Y = 𝜷𝟎 + 𝜷𝟏𝒙 + 𝜺

(1)

2 Avec 𝜺 les ter terme me mess d de e l’e l’errre reur ur (ou aléas), 𝜷𝟎 la ccons ons onsta ta tante nte du modè odèle le (valeur attendue de Y si toutes les variables explicatives sont fixées à 0), 𝜷𝟏 le coef coeffic fic ficien ien ientt aass ss ssocié ocié à x (ou paramètre du modèle économétrique). Dans ce modèle, il y a un seul terme que l’on connaît, c’est x. On est ici dans une relation probabiliste ou stoc stochas has hastiq tiq tique ue ue. Les variables : Y est la variable expliquée, endogène ou dépendante. C’est la variable qu’on va chercher à expliquer en termes d’une autre variable. Dans un modèle de fonction de consommation keynésienne, y est la consommation. x est la variable explicative, exogène ou indépendante. Il nous permet d’expliquer la variable endogène. Dans un modèle de fonction de consommation keynésienne, x sera le revenu. Supposons dans notre modèle que 𝛽1 = 0 et 𝜀 = 0, dans ce cas, 𝛽0 est l’ordonnée à l’origine, ou dans le cas du modèle de fonction keynésienne, la consommation incompressible. Si on pose 𝜀 = 0, on obtient une relation linéaire entre y et x, dans ce cas, 𝛽1 est le coefficient de la pente de la droite régression. 𝜀 va représenter les termes de l’erreur, c’est-à-dire tout ce que x ne comprend pas. Il traduit les perturbations qui affectent y et qui proviennent d’autres facteurs que x. Dans un modèle de RLS, on considère que toutes les variables qui influent sur y, hors x, sont inobservables. On appelle aussi 𝜀 l’erreur de la spécification. Mais 𝜀 représente aussi le fait que x n’explique pas totalement y, en effet les données qu’on utilise ne représentent pas totalement le phénomène. Enfin, ce terme d’erreur tient aussi compte des fluctuations d’échantillonnage, les résultats n’étant pas les mêmes d’un échantillon à l’autre. La prise en compte de ce terme d’erreur est sans doute la composante la plus importante de l’analyse économétrique.

2. L’effet ceteris paribus

L’objectif ultime de l’économiste est de tester si une variable a un effet causal sur une autre variable. On va donc chercher à vérifier si on a un lien de dépendance entre plusieurs variables. Il arrive souvent que cette notion de causalité soit floue (dans quel sens ?). Pour pouvoir déterminer ce lien causal, on fait appel au concept du ceteris paribus (« Toutes choses égales par ailleurs »). Cela nécessite de garder tous les facteurs constants autres que celui que nous cherchons à déterminer.

3 Ce qu’on va vite se poser comme question c’est : a-t-on tenu compte de suffisamment de facteurs pour expliquer Y ? Est-ce que je peux confirmer que 𝜀 ne varie pas ? EXEMPLE 1 : Rendement des terres agricoles. Supposons que je veuille exposer les rendements céréaliers en fonction des engrais. Si je veux faire une analyse causale, je vais devoir faire certaines hypothèses. Dans ce cas, l’hypothèse la plus importante sera de dire que l’engrais n’est pas la seule variable explicative, mais que les autres variables (la météo, etc.) ne sont pas observables ou pas observées, on les intègre donc dans 𝜀 . On cherche à isoler l’effet des engrais sur les rendements, mais si j’essaie de tenir compte de la réalité des choses, le modèle sera faut car 𝜀 sera corrélé avec x, c’està-dire que dans le modèle il y aura un sous-modèle et l’effet causal de x sur Y ne sera plus explicable. Dans le modèle qu’on étudie, x n’a p pas as d’imp d’impact act su surr 𝜺 eett inve inverseme rseme rsement nt nt. On suppose ici qu’on a un impact linéaire de x sur Y, c’est-à-dire un modèle de régression linéaire simple : 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀. Un modèle de régression simple traite tous les facteurs autres que x, affectant Y, comme observés. Donc si tous les facteurs inobservés dans 𝜀 sont constants, soit ∆𝜺 = 0 : ∆𝒀 = 𝜷𝟏 ∆𝑿

(2)

𝛽1 est un paramètre de pente : tout changement dans y est donné par 𝛽1 multiplié par la variation de x (effet linéaire). 𝛽0 est la constante du modèle.

Les deux principaux problèmes une fois qu’on a posé notre modèle de régression linéaire simple : -

Est-ce qu’on ne s’est pas trompé sur le fait qu’on a bien une relation linéaire entre les deux variables ? Mesure-t-on vraiment l’effet ceteris paribus de x sur y ? Comment être certain que ∆𝜀 = 0 ?

Pour répondre à cette question, il faut faire certaines hypothèses, qui ne seront pas toujours vérifiées / vérifiables. Hy Hypot pot pothè hè hèses ses : Pour estimer 𝛽1 et 𝛽0 et garder cette interprétation ceteris paribus, il faut faire certaines hypothèses : - ∆𝜀 = 0 : la valeur moyenne des 𝜀 , dans la population, est nulle. On s’attend à ce que, in fine, tous les termes d’erreur associés à un individu se compensent. - Pour toute valeur de x, la moyenne des 𝜀 correspondantes est la même → noncorrélation linéaire : E(𝜀|𝑥 ) = E(𝜀 ). Cette équation nous indique que la valeur moyenne des variables non-observées va être la même pour toutes les tranches

4 de la population. Elle nous dit également que la moyenne commune de ces échantillons est la même que la moyenne du terme d’erreur sur l’ensemble de cette population. En combinant ces deux hypothèses : E(𝜀|x) = E(𝜀 ) = 0 : hyp hypothè othè othèse se d de em moyen oyen oyenne ne con condition dition ditionne ne nelle lle n nulle ulle ulle. Quand on a posé la relation 𝑌 = 𝛽0 + 𝛽1 𝑥 + 𝜀, on peut écrire que E(𝑌|𝑥) = 𝛽0 + 𝛽1 𝑥 E(y|x) = 𝛽0 +𝛽1 x : Fonction de régression de la population.

Dans la réalité, il est très difficile de respecter l’hypothèse de moyenne conditionnelle nulle.

EXEMPLE : y est le salaire expliqué par x, le nombre d’années d’études et 𝜀 une capacité innée des individus jouant sur le niveau de salaire espéré. L’hypothèse de moyenne conditionnelle nulle requiert que le niveau moyen de capacité moyen soit équivalent pour tout niveau d’éducation. Soit E(𝜀|x = 1, 2, 3 …, N) = z où N est le nombre maximal d’années d’études observées et z>0.

Pour formaliser cette hypothèse de moyenne conditionnelle nulle, on suppose une relation linéaire entre x et y dans la population. Donc ici, on va poser la variable xi où i dénote une valeur donnée de x. La fonction de régression de la population est donc : E(y|xi) = 𝛽0 +𝛽1 . 𝑥𝑖

Supposons que dans cette population, on prenne plusieurs valeurs de xi, et qu’on regarde pour chacune de ces valeurs, les valeurs que prend y. Ce qu’on observe graphiquement, ce sont des déviations d’une valeur individuelle appelée yi autour de sa valeur espérée. 𝜀𝑖 = 𝑦𝑖 − 𝐸 (𝑦|𝑥𝑖 ) 𝑌𝑖 = 𝐸(𝑦|𝑥𝑖 ) + 𝜀𝑖 = 𝛽0 +𝛽1 . 𝑥𝑖 + 𝜀𝑖 𝐸(𝑦𝑖 |𝑥𝑖 ) = 𝐸(𝛽0 +𝛽1 . 𝑥𝑖 ) + 𝐸(𝜀𝑖 |𝑥𝑖 ) 𝐸(𝑦𝑖 |𝑥𝑖 ) − 𝐸(𝛽0 +𝛽1 . 𝑥𝑖 ) = 𝐸(𝜀𝑖 |𝑥𝑖 ) = 0

5

3. L’hypothèse de linéarité

Y = f( f(X) X)

Avec Y la variable expliqué et X la variable explicative. On dit que la fonction f est linéaire en X si : -

La puissance de X est égale à l’unité. X n’est pas multiplié ou divisé par une autre variable → Y est reliée linéairement à X si la dérivée de Y par rapport à X est indépendante de X.

La linéarité dans les paramètres : On dit qu’une fonction est linéaire dans ses paramètres si ces paramètres : -

Sont affectés d’une puissance égale à l’unité. Ne sont pas multipliés ou divisés par un ou plusieurs autres paramètres.

Exemple : 𝑌 = 𝛼 + 𝛽²𝑋 n’est pas linéaire dans le paramètre 𝛽 .

Un modèle linéaire implique donc une linéarité dans les paramètres ainsi qu’une linéarité dans les variables ou dans n’importe quelle transformation des variables. Liné Linéai ai aire re dan danss les va variabl riabl riables es Liné Linéai ai aire re dan danss les pa param ram ramètr ètr ètres es

Oui Non

Oui

Non

MRL MRNL

MRL MRNL

4. Exemple : Fn de consommation keynésienne

Supposons qu’on s’intéresse à la relation entre consommation et revenu. Selon Keynes (1936), « les Hommes tendent à accroître leur consommation à mesure que leur revenu croît, mais non d’une quantité aussi grande que l’accroissement du revenu. » 𝑑𝑥

y = f(x) avec 0 < 𝑑𝑦 < 1

6 𝑑𝑥

Où y est la consommation et x est le revenu et 𝑑𝑦 la propension marginale à consommer comprise entre 0 et 1 et constante. 𝑥

La propension moyenne à consommer 𝑦 diminue quand le revenu augmente. Si on veut tester cette théorie il faut : - Comprendre le modèle théorique et ses hypothèses pour le transposer en un modèle testable. - Préciser la forme fonctionnelle de la relation entre la consommation et le revenu. - Identifier les données à utiliser : Quel(s) pays ? Doit-on utiliser des données en coupe transversale ou en séries temporelles ? Dans le cas de la fonction de consommation keynésienne, on utilise la fonction affine. On va se servir du test économétrique pour avoir une base empirique nous permettant de confirmer ou non la théorie considérée, en testant les restrictions impliquées par le modèle.

On suppose que dans une population, on a une relation linéaire entre y et x : 𝑦 = 𝑎0 + 𝑎1 𝑥

Avec 0 < 𝑎1 < 1 𝑒𝑡

𝜕𝑦 𝜕𝑥

= 𝑎1

C’est un modèle mathématique qui précise une relation déterministe entre consommation et revenu. Il faut donc passer du modèle théorique au modèle économétrique qui soit stochastique, c’est-à-dire partiellement aléatoire. On introduit donc, de manière additive, un terme d’erreur aléatoire inobservable au modèle économique : 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝜀 (5)

7 L’introduction de 𝜀 nous permet de tenir compte du fait que la relation déterministe est dans la réalité inexacte car interviennent d’autres facteurs déterminants comme la taille du ménage, l’âge des membres du ménage, le niveau d’éducation, etc. Le choix des données : On cherche ici les données permettant d’estimer le modèle. C’est une phase critique car les données peuvent être imprécises ou en quantité limitées voire inexplicables (utilisation de proxy). Dans le cadre de notre exemple, nous utilisons les données de la Banque Mondiale (WorldBank Development Indicators) sur la consommation annuelle et le revenu annuel agrégés des ménages entre 1970 et 2000 en France. Le modèle s’écrit alors : 𝑦𝑡 = 𝑎0 + 𝑎1 𝑥1 + 𝜀𝑡 (6) Où t est le temps en années, comprises entre 1970 et 2000. Estimation : Après estimation du modèle théorique spécifié, celui-ci s’écrit : 𝑦𝑡 = 𝑎0 + 𝑎1 𝑥𝑡 Avec 𝒚𝒕 = 𝒆𝒕 + 𝒚𝒕 ↔ 𝑦𝑡 = 𝑎0 + 𝑎1 𝑥𝑡 + 𝑒𝑡

(7) (8)

𝑦𝑡 est la valeur estimée de yt et 𝑎0 𝑒𝑡 𝑎1 sont les valeurs estimées de 𝑎0 𝑒𝑡 𝑎1 .

𝑒𝑡 représente les résidus de la régression observés. C’est la différence entre les valeurs réellement observées de la variable à expliquer, et les valeurs ajustées à l’aide des estimations de coefficients du modèle (valeur estimées). C’est donc, ni plus ni moins, la valeur estimée du terme d’erreur 𝜀𝑡 . Coe Coeffi ffi fficien cien cients ts

St Stan an andar dar dard d. Err Error or

t (Student)

P>| P>|t| t| (P associée à Student) 0,005159 102,93 0,000 x 𝑎1 = 0,53103 𝑎0 = 21,65075 Con Const. st. 7,878722 2,75 0,010 Les coefficients estimés montrent que le modèle s’applique à la France entre 1970 et 2000. La PmC donnée par 𝑎1 est de 0,53 (0...


Similar Free PDFs