Estudio SAS - Apuntes programa sas PDF

Title	Estudio SAS - Apuntes programa sas
Course	Programación I
Institution	Instituto Politécnico Nacional
Pages	16
File Size	287.4 KB
File Type	PDF
Total Downloads	10
Total Views	158

Preview

CLICK TO PREVIEW PDF

Summary

apuntes de sas...

Description

Guía de estudio de SAS SAS Base y Enterprise Guide

1. SAS Base tiene una interfase más vieja 2. El flujo de proceso.- Básicamente es una especie de árbol con diferentes ramas que ayuda a entender qué código se ejecutó en qué fase, qué conjunto de datos se abrió primero o después. Esto resulta muy útil cuando alguna otra persona ejecuta código creado por otra persona. 3. Auto-completar.- Esta característica permite la auto-finalización de código al igual que todas las otras herramientas de software como Net beans para JAVA o HTML Sublime, etc. Esto realmente ahorra tiempo cuando usted tiene que escribir un montón de código y también con precisión. 4. Query Builder.- Cualquier consulta se puede ejecutar directamente con el generador de consultas y genera automáticamente código SAS en el backend, produciendo resultados instantáneos y ahorrando tiempo. Esto se utiliza generalmente para comprobar el valor perdido en el conjunto de datos ya creado, para encontrar la frecuencia, las condiciones, la clasificación y mucho más. Una de las tareas más potentes es el Query Builder. El Query Builder le permite manipular tablas de datos de varias maneras, incluyendo unir tablas, seleccionar variables, filtrar datos, ordenar datos, cambiar fuentes de datos, calcular columnas, configurar avisos, quitar observaciones duplicadas, agregar títulos y notas a pie de página, limitar Salida, cambio de opciones de consulta y más. El Generador de consultas en Enterprise Guide genera código PROC SQL detrás de las escenas. El usuario no necesita codificar SQL porque el constructor de consultas hará el trabajo pesado. 5. SAS Base: a. Tiene una mejor visualización, añadiendo notas al proyecto y muchas más. b. Es mucho más fácil codificar en SAS Base en caso de que la lógica del código sea muy compleja. c. SAS Base es mucho más rápido en comparación a EG. d. Es mucho más fácil modificar un código en SAS Base que en EG. e. El uso de macros hace que la codificación en SAS Base sea mucho más fácil. f. Tanto SAS Base y EG tienen sus propios pros y contras. La mejor estrategia recomendada es usar ambos. Si desea realizar una consulta tradicional, use SAS EG para generar código automatizado. Ahora copia este código para hacerlo, mediante SAS Base, macronizado y generalizado. g. La macro añade una nueva dimensión a los códigos que le ayuda a generalizar el código y evitar los datos ingresados.

6. SAS Enterprise Guide (EG): a. La sugerencia de bibliotecas, la autocompleción de palabras clave, etc. son características útiles de SAS EG. b. SAS EG es más amigable, te proporciona ayuda de sintaxis de código, puedes acceder a datos de diferentes fuentes.

Preguntas 1. ¿Qué procedimientos sirven para análisis descriptivo y cuáles para análisis más a detalle? ❖ Estadísticos descriptivos univariantes: i. MEANS, Ofrece resumen de los datos y estadísticas descriptivas para cada una de las variables. ii. UNIVARIATE, Explora la distribución de las variables, momentos, percentiles, tablas de frecuencia, histogramas, diagramas de tallo y hoja, diagramas de caja, percentiles, test de normalidad. iii. CORR, Matrices de correlación entre variables iv. CHART, Gráficos sectoriales, en estrella, de barras, de bloques, visualización gráfica de varias variables simultáneamente. v. PLOT, Gráficos bidimensionales ❖ Muchos de los estadísticos que produce el procedimiento UNIVARIATE también se obtienen con el procedimiento MEANS. El procedimiento UNIVARIATE incorpora estadísticos tales como los resultados de diferentes tests no paramétricos, tests de normalidad, y estadísticos descriptivos como percentiles, moda y valores más extremos. ❖ Análisis más a detalle: vi. TTEST, Aplicación del test de Student. vii. NPAR1WAY, Análisis no paramétrico de comparación de grupos. viii. ANOVA, Análisis de varianza en diseños balanceados. Proporciona también diversos test de comparación múltiples. ix. GLM, Análisis de modelos lineales, usando métodos de mínimos cuadrados. Proporciona análisis de varianza univariante y multivariante en diseños balanceados o no. x. Existen varias más… ❖ Análisis de datos cualitativos: xi. FREQ, Construcción de tablas de contingencia: Medidas de asociación, análisis estratificado y estimación de riesgo relativo. xii. CORRESP, Análisis de correspondencias binarias y múltiples. xiii. PRINQUAL, Análisis de componentes principales para datos cualitativos xiv.LOGISTIC, Análisis de regresión logística para respuesta binaria y ordinal mediante máxima verosimilitud. xv. PROBIT, Regresión probit, logística y ordinal logística. ❖ Análisis Cluster: xvi. CLUSTER, Análisis de cluster jerárquico de observaciones. Distancia

euclidea o matrices de disimilaridad. xvii. FASTCLUS, Análisis cluster para observaciones por el método de kmedias usando el criterio Lp. xviii. TREE, Muestra la interpretación visual de un análisis cluster jerárquico, mediante dendogramas. ❖ Análisis de supervivencia: xix. LIFEREG, Análisis de supervivencia. Métodos paramétricos. xx. LIFETEST, Análisis de supervivencia. Métodos no paramétricos. xxi. PHREG, Análisis de la regresión de supervivencia, basado en el modelo de azar de Cox. ❖ Scoring: xxii. STANDARD, Estandarización de variables. xxiii. SCORE, Construcción de nuevas variables que son combinación lineal de otras. xxiv. RANK, Asignación de rangos. ❖ Otros procedimientos multivariables: xxv. CANCORR, Análisis de correlación canónica. xxvi. PRINCOMP, Análisis de componentes principales. xxvii. FACTOR, Análisis factorial, incluyendo rotaciones. El procedimiento UNIVARIATE realiza tres tipos diferentes de representaciones de los datos si se especifica la opción PLOT: un diagrama de tallo y hojas, un diagrama de cajas y una gráfica para comparar la función de probabilidades empírica de los datos con la función de probabilidades de una variable aleatoria con distribución Normal con la misma media y desviación que la variable descrita. Especificando la opción NORMAL en la instrucción PROC UNIVARIATE, se presentan dos estadísticos nuevos para testar si los datos provienen o no de una distribución normal, y en este caso también es posible incluirlos en el dataset_salida: W PROBW: Estadístico para testar si los datos provienen de una variable Normal. Significación del test de normalidad bajo la hipótesis nula que los datos provienen de una variable Normal. El procedimiento UNIVARIATE posibilita el contraste en las diferencias entre medias de dos variables relacionadas (datos apareados o medidas repetidas) o bien el contraste para ver si la media de una cierta variable es igual a una determinada constante (en estos casos sólo existe un grupo de observaciones y no dos) estudiando la variable generada a partir de la diferencia (de las dos variables de medidas repetidas o bien de la variable y el valor de contraste) y observando el resultado del t-Test que proporciona. Ejemplo: PROC UNIVARIATE DATA=FIEBRE.GRADOS; VAR EDAD; HISTOGRAM; RUN;

Preguntas sobre Macros: 2. Te ponen una macro y piden que salida esperas (ver preguntas más adelante). 3. La programación Macro es una herramienta muy útil para estandarizar y extender la programación clásica en código SAS. Entre otras virtudes, permite reducir en gran medida la cantidad de código necesario para las tareas más frecuentes. 4. La programación Macro tiene dos componentes principales: ❖ El procesador Macro, encargado de “traducir”. ❖ El lenguaje Macro, la sintaxis que se debe utilizar para comunicarse con el procesador Macro. 5. Existen dos caracteres que activan al procesador Macro: ❖ & : &nombre, nombre que se designará a las variables Macro. ❖ % : %nombre, nombre que se designará a las Macros creadas por nosotros o ya residentes en el sistema. ❖ %let, Permite asignar a un nombre un conjunto de caracteres utilizando la sintaxis: i. % let nombre = literal; ❖ Si se usa comillas, éstas deben ser dobles para obtener la asignación deseada. ❖ Así van las macros: o

%macro nombre_de_la_macro; Se agrega el procedimiento; Run; %mend; >> Otro ejemplo: data test2; input id1 $ id2 $ extra; cards; (o linecards;) aa ab 3 aa ab 3 aa ab 2 aa ab 1 ; proc sort nodup data=test2; by id1 id2; run; options nocenter; proc print data=test2; run; PROC SORT DATA=auto OUT=auto6 NODUPLICATES; BY _all_; RUN;

Para identificar duplicados y guardarlos en una ruta de salida: PROC freq data=From1 noprint; Table ID/out = Form_duplids (keep = ID Count where=(Count > 1));

Run;

20. ¿Cómo leer un archivo de texto para importarlo en SAS? PROC import datafile=”rutadelarchivo.csv” dbms=dlm out=work.test replace; delimiter=”,”; getnames=yes; guessingrows=500; run;

21. ¿lista para determinar con cual haces frecuencias de datos y con cuales análisis entre las que me acuerdo son annova, cluster, list repor, add in for office, freq etc..? Preguntas fotografas 1. ¿Cuáles son las capas de arquitectura de SAS? ● Data Sources, SAS Servers, Middler tier, Clients 2. En la terminología de SAS, un server se refiere a un equipo (hardware) específico y no a un programa que espera cumplir con las peticiones de los programas cliente para los datos o servicios. ● Verdadero/Falso In the SAS Intelligence Platform, the term server refers to a process or processes that wait for and fulfill requests from client programs for data or services. The term server does not necessarily refer to a specific computer, since a single computer can host one or more servers of various types. 3. Todas las fuentes de datos que se utilizan en la plataforma SAS están controladas centralmente y se almacenan en: ● SAS Metadata repository ● SAS Data Integration ● SAS Content Server ● SAS Workspace Server (Un servidor SAS que proporciona acceso a las funciones de SAS Foundation, como el lenguaje de programación SAS y las librerias SAS) 4. Un data library (librería) es una colección de archivos de SAS que es reconocida como una unidad de SAS. ● Verdadero/Falso 5. Cuando se invoca a SAS, automáticamente se tiene acceso a la librería work (librería temporal) ● Verdadero/Falso 6. Para crear un data set permanente, primero se crea una librería con la instrucción LIB especificando el nombre y la ruta donde ubicarla. A partir de ese momento, para crear un conjunto permanente que pertenezca a esa librería, se utiliza el nombre compuesto: “nombre_dataset.nombre_libreria” ● Verdadero/Falso > INFILE ● Permite añadir variables >>> MERGE ● Permite añadir casos a un dataset >>> APPEND ● Permite guardar en el dataset creado solo las variables allí mencionadas. Las demás variables son eliminadas del dataset resultante >>> KEEP ● Algunos de los estadísticos sencillos para tener una idea aproximada de cómo son las variables analizadas. Esta información también puede ayudar a detectar posibles errores de los datos >>>> MEANS 12. ¿Cuantos data step contiene la siguiente estructura? ● Uno...