Introducción al SAS PDF

Title	Introducción al SAS
Course	Estudio Y Depuración De Datos
Institution	Universidad Complutense de Madrid
Pages	18
File Size	1.2 MB
File Type	PDF
Total Downloads	26
Total Views	119

Preview

CLICK TO PREVIEW PDF

Summary

Download Introducción al SAS PDF

Description

Introdución al sas Entorno y manipulación de datos. Juana M. Alonso Revenga

Complementos de formación en Mineria de Datos

1. INICIO DE LA SESIÓN. Cuando iniciamos nuestra sesión en el programa sas aparece la siguiente pantalla con

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

la que trabajaremos normalmente.

El programa SAS ® básicamente es encuentra dividido en dos grandes ventanas: - Ventana izquierda "Explorer": contiene accesos directos a los ficheros que interesen, información sobre las librerías (que estudiaremos más adelante) y una ventana de resultados dónde aparece la información obtenida de las diferentes ejecuciones desglosadas. - Ventana derecha: Contiene las ventanas principales LOG, OUTPUT, EDITOR. El

modo de trabajo que utiliza SAS ® se basa en éstas tres ventanas: 1. Ventana EDITOR: Esta ventana corresponde a la ventana de sintaxis, por lo tanto es editable. Para poder ejecutar la sintaxis, se debe pulsar el botón:

.

Para ejecutar una parte de la sintaxis, primero se selecciona dicha parte y después se pulsa el botón.

Complementos de formación en Mineria de Datos

2. Ventana LOG: En esta ventana se consulta y revisa todo lo que se ha ejecutado, aparecen mensajes de advertencia y de error. Es muy importante revisar en cuanto algo falla. 3. Ventana OUTPUT: Cuando se ejecutan procedimientos de SAS, en esta ventana se muestran los listados, tablas y/o resultados. Si utilizamos el modo HTML aparecerán también en la ventana: Result View. Botones superiores. Los más utilizados son:

Por orden de izquierda a derecha los tres primeros: Borrar,

Abrir, y Guardar el

contenido de la ventana activa. Para consultar la ayuda de SAS. Ventanas de diálogo desplegables: SAS es un programa adaptado para trabajar bajo Windows, de forma que la mayoría de ventanas desplegables tienen básicamente las mismas opciones que en cualquier otro programa para Windows: FILE: abrir, guardar, imprimir,…tanto programas sas, como ficheros de datos.

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

Especialmente utilizaremos las opciones abrir y guardar programa e importar datos.

EDIT: deshacer, copiar, pegar, borrar, buscar, reemplazar, ... VIEW: Nos permite abrir una ventana que ha sido cerrada.

Complementos de formación en Mineria de Datos

TOOLS: Lo utilizaremos para cambiar opciones en la visualización de resultados o gráficos. WINDOW: permite cambiar de ventana (Log, Output, Editor,...). HELP: SAS ® SYSTEM HELP (ayuda de SAS ®),

2. EL PASO DATA. Básicamente, todos los programas de sintaxis elaborados con SAS contienen tan sólo dos tipos de instrucciones: DATA y PROC.

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

Con la instrucción DATA nombre se crea un conjunto de datos nuevo (o bien se reemplaza). "nombre" es el nombre del nuevo conjunto. Cualquier operación a realizar con un conjunto de datos sas: lectura de datos, creación de variables nuevas, recodificación, cambio de etiquetas, selección de casos, etc.. se hace dentro de la instrucción DATA. 2.1. COMO OBTENER DATOS CON SAS. Los conjuntos de datos sas se pueden crear de diferentes formas, a continuación veremos las más frecuentes. 2.1.1. LEER DATOS DIRECTAMENTE DESDE TECLADO. * DATOS CORRESPONDIENTES A UN ESTUDIO SOBRE ENFERMOS CON FIEBRE; * LOS CUÁLES TOMARON DOS TRATAMIENTOS DIFERENTES; DATA PACTIVO1; INPUT NUM_PAC TRATAM INIC $ SEXO EDAD; CARDS; 1 1 JPP 1 53 2 2 JDA 1 47 3 1 RRA 0 81 4 2 HSB 0 29 ; RUN; PROC PRINT; RUN;

Complementos de formación en Mineria de Datos

Observemos que: 

Después de cada instrucción es necesario el signo " ; ".



Los comentarios van precedidos por un signo " * ".



Después de un paso DATA o de un PROC es útil escribir RUN;



La instrucción INPUT declara como se leen las variables: nombres de las variables y " $ " a continuación si se trata de una variable alfanumérica.



La instrucción CARDS ó DATALINES sirve para iniciar la lectura de los datos.



El procedimiento PROC PRINT es el procedimiento que lista los datos en la pantalla de resultados.



Observando la ventana LOG, se consultan los errores cometidos en la sintaxis del EDITOR.

Para visualizar los datos creados iremos a la librería donde se han guardado (en la ventana Explorer, en este caso librería work) y pinchamos sobre su icono que aparece cuando se ha creado el conjunto de datos. De esta forma abrimos el visor de tabla de datos de sas (Viewtable). El resultado es el fichero PACTIVO que está en la librería

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

temporal work.

Con el procedimiento PRINT podemos ver dichos datos en el visor de resultados.

Complementos de formación en Mineria de Datos

2.1.2. LEER DATOS EXTERNOS MEDIANTE LA SENTENCIA INFILE. La instrucción INFILE se utiliza para la lectura de datos externos (normalmente en ficheros .dat) y en ella se menciona la ruta dónde se encuentra el fichero que contiene los datos. En la instrucción INPUT se declara las variables que se van a leer. Se escriben las columnas dónde se encuentran las variables si el fichero de datos externo es de formato fijo. En el caso en qué el fichero de datos está delimitado, no tiene sentido especificar las columnas. Por defecto, el separador que lee SAS es el espacio, pero con la opción DLM se define el delimitador que deseado, por ejemplo: DLM='09'x si el fichero es encuentra delimitado por tabuladores o DLM=';' si el fichero es encuentra delimitado por el símbolo " ; ". Por ejemplo si queremos crear un conjunto de datos sas a partir del siguiente fichero

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

que contiene el número de nacimientos en España desde 1946 (en miles):

Escribiremos la siguiente sintaxis. DATA nacidos; INFILE 'C:\Users\Ani Alonso\Desktop\MASTER\EJERCICIOS\NACIDOS.DAT' ; INPUT YEAR NACIMIENT; RUN;

Cuando lo ejecutemos se creará un fichero en la librería Work.

Complementos de formación en Mineria de Datos

2.1.3. IMPORTAR FICHEROS EXCEL Y CREACIÓN DE LIBRERÍAS. Para importar ficheros desde Excel lo mejor previamente es crear una librería en donde guardaremos nuestro fichero de datos para así acceder a él cuando queramos. Para crear la librería, en la ventana Explorer, pinchamos con el botón derecho del ratón en librerías:

Seleccionar nueva y crearla en alguna carpeta de nuestro ordenador o dispositivo de almacenamiento extraíble. Asignamos un nombre a la librería (SERIES por ejemplo) y con la opción Browse

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

seleccionamos la carpeta que alojará librería, donde luego se guardarán nuestros datos.

Complementos de formación en Mineria de Datos

OK y ya está creada. Si pinchamos en librerías aparece la nueva:

Ahora importamos los datos que guardaremos aquí. Si no hemos creado esta librería cuando hagamos una importación de datos se guardarán en la librería WORK que es la que viene por defecto y al final de la sesión sas desaparecerán. Mientras que, si creamos nuestra propia librería los datos se guardarán automáticamente en esta dirección

siempre

que

los

creemos

con

nombre

de

fichero

de

datos

LIBRERÍA.CONJUNTO en nuestro Ejemplo SERIES.TRIGO .

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

Nota: Los nombres de los datasets y de las variables no pueden tener más de 8 caracteres. También se puede crear una librería con la instrucción LIBNAME especificando el nombre y la ruta dónde ubicarla a continuación. Por ejemplo la siguiente sintaxis asigna la librería de nombre SERIES en el subdirectorio A: LIBNAME SERIES 'A:\';

Para importar los datos del fichero Excel, podemos utilizar el procedimiento IMPORT o bien en la barra mediante la opción File. La sintaxis del procedimiento IMPORT es la siguiente: proc import datafile="C:\Asignaturas\MASTER\EJERCICIOS\TEMA 0 Y 1\LLUVIA.xlsx"

out=SERIES.LLUVIA dbms=xlsx;

run;

Observemos que la opción dbms=xlsx está indicando el tipo de fichero y out=SERIES.LLUVIA la librería y el nombre de fichero sas que se va a crear.

Complementos de formación en Mineria de Datos

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

Mediante la opción File seleccionar

Seleccionar siguiente, Con Browse buscamos donde esté nuestro fichero Excel y seleccionamos abrir

Complementos de formación en Mineria de Datos

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

Presionar Abrir y en la siguiente Next

Elegir nuestra librería pinchando en la flecha

Complementos de formación en Mineria de Datos

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

Asignar un nombre a nuestro fichero de datos.

Siguiente y en la última pantalla finish

Complementos de formación en Mineria de Datos

Si ahora hacemos doble click en la librería de datos aparece nuestro fichero de datos cuyo nombre para utilizar en cualquier programa sas será SERIES.TRIGO

Y si queremos ver como se han creado hacemos doble click en el icono del fichero

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

de datos

¡Cuidado! Hay que tener cerrada la hoja de datos (viewtable) cuando ejecutemos un programa sas que manipula dichos datos! En el visor de datos de sas no podemos manipular los datos como en una hoja de cálculo, pero si obtener información sobre las variables. Si pinchamos en el icono se abre una ventana donde aparece el nombre de la variable, que será el que tenemos que usar en la programación, su etiqueta y el tipo

Complementos de formación en Mineria de Datos

2.2.

CREACIÓN Y MODIFICACION DE DATOS A PARTIR DE OTROS.

Si queremos crear nuevas variables o modificar alguna existente en un fichero lo haremos en el paso DATA y con la opción SET. La instrucción SET asigna al conjunto de datos del paso DATA los mismos datos, variables y propiedades que el conjunto de la instrucción SET. Código ejemplo: DATA B; SET A; RUN; Con el código anterior, se crea una copia del dataset A llamado B. En estos momentos, los datasets A y B son idénticos y ambos temporales (librería work). Código ejemplo: DATA B; SET B; VAR_A=1; RUN; Con el código anterior se crea una copia del dataset B llamado también B.

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

Simultáneamente se añade la variable VAR_A y se asigna para todos los casos el valor 1. De hecho se ha reemplazado el dataset B por otro idéntico pero con una variable más.

3. ORDENAR UN CONJUNTO DE DATOS. Los procedimientos PROC se emplean para trabajar con los datos anteriormente creados sin modificar su estructura: análisis, tablas, listados, cálculos, estadísticos, ... Uno de los más utilizados es el procedimiento SORT que ordena el conjunto de datos según las variables requeridas en la instrucción BY. PROC SORT DATA=SERIES.PACTIVO1; BY NUM_PAC; RUN;

4. MEZCLAR CONJUNTOS DE DATOS. 4.1. AÑADIR VARIABLES. Si tenemos dos conjuntos de datos que contienen información sobre los mismos individuos, es decir lo que queremos es añadir variables (columnas) a nuestro fichero utilizaremos la sentencia MERGE del paso DATA.

Complementos de formación en Mineria de Datos

Si queremos unir en un mismo archivo información sobre los mismos individuos, por ejemplo los pacientes del fichero activo1 tienen su peso en el fichero activo2. DATA PACTIVO2; INPUT NUM_PAC PESO; CARDS; 1 60 3 75 4 54 2 83 ; RUN;

Como los pacientes están desordenados y las columnas se añadirán en este orden previamente ordenamos el fichero pactivo2 para estar seguros de que a cada paciente se le asigna su peso.

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

PROC SORT DATA=PACTIVO2; BY NUM_PAC; RUN;

DATA PACTIVO3; MERGE PACTIVO1 PACTIVO2; BY NUM_PAC; RUN;

Con esta sintaxis estamos creando un nuevo fichero PACTIVO3 que es el pacativo1con la columna de peso de pactivo2. Si los datasets que contienen las diferentes variables no tienen el mismo número de observaciones, es recomendable utilizar la instrucción BY variables. Las variables referidas en la instrucción BY, tienen que estar presentes en ambos datasets, permitiendo identificar los diferentes casos dentro de cada dataset y asignarles una cierta correspondencia. En caso de utilizar esta última opción, los dos datasets deben estar ordenados por las variables mencionadas en BY antes de realizar la fusión. Este es el nuevo fichero pactivo3.

Complementos de formación en Mineria de Datos

4.2. AÑADIR CASOS. Para añadir casos, se utiliza el procedimiento APPEND. El conjunto de datos resultante es el fichero especificado en la opción BASE, y a éste se le añaden todos los casos del fichero de la opción DATA. Cuando ambos conjuntos no tienen idéntica estructura (por ejemplo una misma variable está definida cómo Alfanumérica de 5 posiciones en un fichero y de 8 posiciones en otro) se requiere la opción FORCE al final de la instrucción. Si creamos el fichero PACTIVO4 que contiene los datos de los individuos 5 al 8 de la

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

siguiente forma: DATA PACTIVO4; INPUT NUM_PAC TRATAM INIC $ SEXO EDAD; CARDS; 5 1 JPP 1 41 6 2 JDA 1 56 7 1 RRA 1 76 8 2 HSB 0 54 ; RUN;

Creamos un nuevo fichero PACTIVO5 que va a contener el 1 y el 4. DATA PACTIVO5; SET PACTIVO1; RUN; PROC APPEND BASE= PACTIVO5 DATA= PACTIVO4 FORCE; RUN;

Cuando existe una variable identificativa común en ambos datasets también se puede usar la instrucción SET en un paso DATA, obteniendo exactamente el mismo resultado que con PROC APPEND, de la siguiente forma:

Complementos de formación en Mineria de Datos

DATA PACTIVO6; SET PACTIVO4 PACTIVO1; BY NUM_PAC; RUN;

4.3. SELECCIONAR UN SUBCONJUNTO DE VARIABLES. La instrucción KEEP permite guardar en el dataset creado sólo las variables allí mencionadas. Las demás variables son eliminadas del dataset resultante. El fichero Pactivo6 contiene los siguientes datos Obs 1 2 3 4 5 6 7 8

NUM_PAC 1 2 3 4 5 6 7 8

TRATAM 1 2 1 2 1 2 1 2

INIC JPP JDA RRA HSB JPP JDA RRA HSB

SEXO 1 1 0 0 1 1 1 0

EDAD 53 47 81 29 41 56 76 54

Si queremos crear un fichero (Pactivo7) con solo las variables Num_pac y Edad,

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

utilizaríamos la siguiente sintaxis: DATA PACTIVO7; SET PACTIVO6; keep NUM_PAC edad; RUN;

5. LOS PROCEDIMENTOS La sintaxis de los diferentes procedimientos suele ser muy similar. La mayoría de opciones sirven para casi todos los procedimientos, pero con prudencia, ya que cada procedimiento tiene sus particularidades y no siempre estas opciones tienen sentido

Complementos de formación en Mineria de Datos

en cualquier PROC. En líneas generales, la estructura de un procedimiento puede ser la siguiente: PROC NOM_PROC DATA=nombre_dataset OPCIONES ESPECÍFICAS; WHERE CONDICIÓN; BY VARIABLES; OUTPUT OUT=dataset_salida; RUN; Después del nombre del procedimiento se pueden escribir las opciones específicas que usualmente son diferentes para cada procedimiento, excepto la opción DATA=nombre_dataset que ya ha sido comentada anteriormente. Esta opción permite especificar cuál es el dataset de trabajo. Las instrucciones específicas de cada procedimiento son un requisito indispensable para el funcionamiento del mismo, y suelen estar relacionadas con las variables que se analizan. Generalmente, después de escribir la lista de variables, se escribe el símbolo ' / ' seguido de otras opciones más concretas que debe realizar el procedimiento.

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

La instrucción BY se utiliza para partir los datos del dataset en diferentes grupos según los valores que toma la variable allí mencionada. El procedimiento repite su análisis para cada uno de estos subgrupos. BY es una opción imprescindible en el procedimiento SORT aunque no tiene este sentido. La instrucción OUTPUT OUT=dataset_salida es una opción muy útil que permite guardar los estadísticos calculados por el procedimiento en un dataset que se llama dataset_salida. En algunos casos, también se pueden almacenar los datos que ha generado el procedimiento para calcular los estadísticos, pero este paso se menciona dentro de las instrucciones específicas del procedimiento después del símbolo ' / ' por ejemplo. Para cualquier duda en la sintaxis de un procedimiento, consultar el HELP. Allí se describen todas las instrucciones que son imprescindibles y todas las opciones que permite el procedimiento. Como ejemplo de procedimiento veamos el proc means. Este procedimiento calcula algunos de los estadísticos más sencillos para tener así una idea aproximada de cómo son las variables analizadas. Esta información también puede ayudar a detectar posibles errores de los datos. La siguiente calcula la media, desviación estándar , mínimo y máximo de la variable Edad en el fichero pactivo5 con los datos divididos en dos grupos por la variable sexo.

Complementos de formación en Mineria de Datos

PROC MEANS DATA=activo5; VAR EDAD; CLASS SEXO; RUN;

Facultad de Estudios Estadísticos

Juana María Alonso Revenga

SEXO 0 1

Analysis Variable : EDAD N Obs N Mean Std Dev Minimum Maximum 3 3 54.6666667 26.0064095 29.0000000 81.0000000 5 5 54.6000000 13.2778010 41.0000000 76.0000000...