Statistique exploratoire multivariée - TPACMchiens PDF

Title Statistique exploratoire multivariée - TPACMchiens
Author Anaïs Heraud
Course Statistiques
Institution Université d'Aix-Marseille
Pages 4
File Size 93.1 KB
File Type PDF
Total Downloads 44
Total Views 126

Summary

MASTER MASS - MIASHS Saint-charles...


Description

Aix-Marseille Universit´ e M1: Master MASS

Statistique exploratoire multivari´ ee

TP : Analyse des Correspondances Multiples (1 ) Tout d’abord cr´eer dans le r´epertoire TPSE un nouveau r´epertoire au nom de TPACM.

1

Les donn´ ees

Les donn´ees sont extraites de Br´efort (1982). Elles d´ecrivent les caract´eristiques de 27 races de chiens: • taille, poids, v´elocit´e et int´elligence cod´ees sur trois modalit´es (1=faible, 2=moyen, 3=fort), • affection et agressivit´e cod´ees sur 2 modalit´es (1=faible, 2=forte) • la fonction avec trois modalit´es 1=compagnie, 2= chasse, 3=utilit´e. Le fichier chiens.dat contenant les donn´ees est t´el´echargeable `a partir du bureau virtuel dans les documents du groupe ”Promotion M1MASS”, r´epertoire ”StatExploratoire/TP/data”

2

Lecture, ´ ecriture des donn´ ees

Visualiser le fichier Lancer SAS et cr´eer une table SAS permanente dans le r´epertoire TPACM au nom de chiens `a partir du fichier ext´erieur chiens.dat en utilisant la d´eclaration input suivante : input race $ taille $ poids $ velocite $ intellig $ affect $ agress $ fonction $; Visualiser la table cr´e´ee en utilisant ”Explorateur” de SAS ou en ´ex´ecutant : options linesize=80 pagesize=60 nodate; title ’Au choix’; footnote ’TP ACM: ´ etude du fichier chiens.dat’; proc print data=TPACM1.chiens; run; 1- Sous quelle forme les donn´ees sont-elles? Mise en forme Solution 1: Donner plus de lisibilit´e aux donn´ees en cr´eant une table sas permanente chiens2 `a partir de la table chiens en ex´ecutant les instructions suivantes (utilisez les possibilit´ es du copier/coller de l’´ editeur) select(taille); when(’1’)taille=’T-’; when(’2’)taille=’T+’; when(’3’)taille=’T++’; otherwise; end; select(poids); when(’1’)poids=’P-’; when(’2’)poids=’P+’; 1 Ce TP est une reprise d’un TP de Philippe Besse, Professeur ` a l’Universit´ e de Toulouse 1, http://www.lsp.upstlse.fr/Besse/enseignement.html

1

when(’3’)poids=’P++’; otherwise; end; select(velocite); when(’1’)velocite=’V-’; when(’2’)velocite=’V+’; when(’3’)velocite=’V++’; otherwise; end; select(intellig); when(’1’)intellig=’I-’; when(’2’)intellig=’I+’; when(’3’)intellig=’I++’; otherwise; end; select(affect); when(’1’)affect=’Af-’; when(’2’)affect=’Af+’; otherwise; end; select(agress); when(’1’)agress=’Ag-’; when(’2’)agress=’Ag+’; otherwise; end; select(fonction); when(’1’)fonction=’Com’; when(’2’)fonction=’Cha’; when(’3’)fonction =’Uti’; otherwise; end; Solution 2: Donner plus de lisibilit´e aux donn´ees en utilisant les formats. Assignation de la librairie des formats: libname Form ”chemin de la librairie o` u vous souhaitez que les formats soient enregistr´ es”; Puis on indique au logiciel SAS que les formats sont `a chercher dans la biblioth`eque Form : options fmtsearch=(Form); Cr´eation des formats: Proc format library=Form; value $taillef ”1” =”T-” ”2”=”T+” ”3”=”T++”; value $poidsf ”1” =”P-” ”2”=”P+” ”3”=”P++”; value $velocitef ”1” =”V-” ”2”=”V+” ”3”=”V++”; value $intelligf ”1” =”I-” ”2”=”I+” ”3”=”I++”; ` a compl´ eter . . . run; 2- Donner les avantages et les inconv´enients des deux solutions? Dans quelle situation est-il pr´ef´erable d’utiliser la solution 2? On opte dans la suite pour la solution 2.

3

ACM

Voir le polycopi´e sur la proc´edure corresp. 2

Ex´ecutez le programme suivant: proc corresp data=TPACM.chiens mca out=resul ; tables taille- -fonction; format taille $taillef. poids $poidsf. velocite $velocitef. intellig $intelligf. affect $affectf. agress $agressf. fonction $fonctionf. ; title ”ACM a ` partir de la table de Burt”; run; Lancer `a nouveau la proc´edure mais en ajoutant d’une part les identificateurs des races des chiens et d’autre part la variable fonction en suppl´ementaire. proc corresp data=TPACM.chiens out=resul ; tables race,taille- -fonction; format taille $taillef. poids $poidsf. velocite $velocitef. intellig $intelligf. affect $affectf. agress $agressf. fonction $fonctionf. ; supplementary fonction; title ”ACM a ` partir du tableau disjonctif complet et la variable fonction en suppl´ ementaire”; run; Remarque : si on ajoute l’option observed sur la premi`ere ligne, on obtient en sortie la table `a partir de laquelle l’ACM a ´et´e effectu´e. Sauvegarder la fenˆetre output dans un fichier resultTPACM.lst et utiliser l’instruction ODS pour sauvegarder vos r´esultats dans un fichier pdf. 3- Ecrire les instructions SAS pour faire une ACM `a partir de la table de Burt puis du tableau disjonctif complet en prenant pour variable suppl´ementaire la variable fonction lorsque les donn´ees ont ´et´e mis en forme selon la solution 1. La suite du TP porte sur l’analyse des r´esultats de l’ACM effectu´ee `a partir du tableau disjonctif complet avec la variable fonction en suppl´ementaire et en utilisant les formats(Solution 2). 4- A propos de la sortie Contengency Table: En fait ici il ne s’agit pas d’une table de contingence. A quoi correspond ce tableau? 5- A propos de l’inertie : Les valeurs singuli`eres sont les racines carr´ees des valeurs propres. Quelle est l’inertie totale? Donner un calcul direct de cette quantit´e. A-t-elle une signification statistique? Interpr´etez ce tableau. Pourquoi obtient-on 10 axes factoriels? 6- A propos du tableau “Summary Statistics for the Row Points”: Quels sont les individus mal repr´esent´es dans le premier plan factoriel? 7- A propos du tableau “Summary Statistics for the Column Points”: Quelles sont les modalit´es mal repr´esent´ees dans le premier plan factoriel? Expliquez le calcul du poids et de l’inertie de la modalit´e “v´elocit´e faible”. 8- A propos du tableau des contributions partielles des points colonnes: Ecrire la contribution relative d’une modalit´e i `a l’axe k. Expliquer le calcul de la contribution relative de la modalit´e “v´elocit´e faible” `a l’axe 1. Indiquez les modalit´es qui contribuent le plus `a la formation des axes 1 et 2.

3

Repr´ esentations Graphiques La proc´edure corresp est complete et ne demande donc pas de calculs compl´ementaires. Seuls les graphiques ont ´et´e d´evelopp´es avec la convention suivante : les codes des modalit´ es d’une mˆ eme variable doivent commencer par la mˆ eme lettre. Cela autorise des graphiques plus lisibles car associant une couleur aux modalit´es d’une mˆeme variable. Pour les correspondances multiples avec couleurs et repr´esentation simultan´ee des modalit´es et des individus si l’ACM est calcul´ees par AFC du tableau disjonctif complet, on peut utiliser la macro gafcix propos´ee par P. Besse. Cette macro est accessible sur le bureau virtuel dans les documents du groupe ”Promotion M1MASS”, r´epertoire ”StatExploratoire/TP/macros” Le chemin d’acc`es aux macro-commandes doit ˆetre sp´ecifi´e au cours d’une session SAS par la commande suivante: options mautosource sasautos=’chemin du r´ epertoire contenant la macro’; proc options option=sasautos; run; 9- Tracez la repr´esentation simultan´ee dans le premier plan factoriel en utilisant la macro suivante: %gafcix(ident=− name− ,x=1,y=2,nc=10,tp=0.8); run; o` u ident= identificateur, nc= nombre max de caracteres et tp=un facteur de taille de repr´esentation des points. Cette macro utilise la table sas resul et on v´erifiera que les noms de race et des modalit´es apparaissent dans la colonne − name− . Pour rendre ce graphique plus lisible, on pourra l’´editer: Edit − > Edit Current Graph Puis changer par exemple d’´echelle en s´electionant le graphique `a l’aide de la souris et faire : Edit − > Scale Si dans cette rep´esentation vous souhaitez ne faire apparaˆıtre que les identificateurs des modalit´es et repr´esenter les individus par des points, utilisez la macro suivante: %gafcix0(ident=− name− ,x=1,y=2,nc=10,tp=0.8); run; 10- Etude de la variable supl´ementaire 10-a) Expliquez le calcul de la coordonn´ee sur l’axe 1 de la modalit´e suppl´ementaire utilit´ e. 10-b) Calculez les trois valeurs-tests des 3 modalit´es de la variable suppl´ementaire fonction pour les axes 1 et 2. Que peut-on en d´eduire? 11- Interpr´etez la repr´esentation simultan´ee dans le premier plan factoriel.

4...


Similar Free PDFs