SAS Graficas

48
Tema: GRAFICAS DE DATOS MULTIVARIADOS Instituto Tecnológico de Ciudad Madero Materia: Análisis Multivariado Profesor: Dra. Laura Cruz Reyes

Transcript of SAS Graficas

Page 1: SAS Graficas

Tema: GRAFICAS DE DATOS

MULTIVARIADOS

Instituto Tecnológico de Ciudad MaderoMateria: Análisis Multivariado

Profesor: Dra. Laura Cruz Reyes

Page 2: SAS Graficas

Dra. Laura Cruz Reyes ITCM 2

Introducción a los procedimientos gráficos en SAS:

GPLOT: gráfica de líneas

Page 3: SAS Graficas

Dra. Laura Cruz Reyes ITCM 3

Biblioteca de datos • Para crear un biblioteca que almacene de manera permanente

conjuntos de datos (dataset), primero se utiliza la instrucción LIBNAME especificando el nombre y la ruta dónde ubicarla. A partir de ese momento, para ingresar un dataset a dicha librería se utiliza el nombre compuesto: "nombre_libreria.nombre_dataset".

LIBNAME PESO 'C:\...\Librerias\';

DATA PESO.FRUTA;INPUT PESO ZUMO;CARDS;0.61 0.250.52 0.230.46 0.260.63 0.320.56 0.220.61 0.360.6 0.350.54 0.310.39 0.3……0.54 0.36;RUN;

Page 4: SAS Graficas

Dra. Laura Cruz Reyes ITCM 4

GPLOT

• GPLOT permite crear gráficas de diferente tipo:

– Gráficas de dispersión (scatter) de dos-dimensiones,– Gráficas de línea (una curva suave, sin puntos),– Gráficas de burbuja (el tamaño de la burbuja es

proporcional a la tercera variable).

• Para gráficas de dispersión, PROC GPLOT también puede ajustarse para dibujar una curva de regresión (linear, cuadrática o cúbica) junto con un intervalo de confianza para la curva de regresión.

Page 5: SAS Graficas

Dra. Laura Cruz Reyes ITCM 5

Sintaxis de GPLOTGOPTION <options>; ----optionalPATTERNn <options>; ----optionalSYMBOLn <options>;----optionalAXISn <options>;----optional

PROC GPLOT DATA=... <options>;PLOT y-vars*x-var/<options>;PLOT2 y-vars*x-var/<options>; ----optionalRUN;QUIT;

PLOT permite especificar las variables x y y. Se puede utilizar (Y1 Y2 Y3)*(X1 X2) para indicar 3*2=6 gráficas.

/<options> Las opciones que siguen al símbolo “/” permiten especificar la configuración de la gráfica: color, ancho, sobreposición, entre otras.

Page 6: SAS Graficas

Dra. Laura Cruz Reyes ITCM 6

Sintaxis de GPLOTGOPTION <options>; ----optionalPATTERNn <options>; ----optionalSYMBOLn <options>;----optionalAXISn <options>;----optional

PROC GPLOT DATA=... <options>;PLOT (y-vars)*x-var/<options>;PLOT2 (y-vars)*x-var/<options>; ----optionalRUN;QUIT;

PLOT2 permite general las gráficas YY-X. Esto permite traslapar dos gráficas con la misma variable x pero diferentes variables y.

Page 7: SAS Graficas

Dra. Laura Cruz Reyes ITCM 7

Sintaxis de GPLOTGOPTION <options>; ----optionalPATTERNn <options>; ----optionalSYMBOLn <options>;----optionalAXISn <options>;----optional

PROC GPLOT DATA=... <options>;PLOT (y-vars)*x-var/<options>;PLOT2 (y-vars)*x-var/<options>; ----optionalRUN;QUIT;

GOPTION se utiliza para especificar las opciones de gráficación globales, incluyendo dispositivos (DEVICE), colores por omisión, fuentes y altura para títulos (TITLES). El manejador de dispositivos WIN permite desplegar una gráfica ajustada a la pantalla.

Page 8: SAS Graficas

Dra. Laura Cruz Reyes ITCM 8

Sintaxis de GPLOTGOPTION <options>; ----optionalPATTERNn <options>; ----optionalSYMBOLn <options>;----optionalAXISn <options>;----optional

PROC GPLOT DATA=... <options>;PLOT (y-vars)*x-var/<options>;PLOT2 (y-vars)*x-var/<options>; ----optionalRUN;QUIT;

PATTERN, SYMBOL, y AXIS se utilizan para personalizar las gráficas. La letra n es un entero positivo. Se pueden especificar símbolos especiales para curvas sobrepuestas.

Page 9: SAS Graficas

Dra. Laura Cruz Reyes ITCM 9

REG: Regresión Lineal

• El procedimiento REG ajusta modelos de regresión lineal por el método de los mínimos cuadrados.

• El procedimiento REG requiere la instrucción MODEL, en la cual se especifica el modelo y las variables que se van a utilizar, escribiendo la variable dependiente seguida de un signo igual y la variable independiente.

PROC REG DATA=PESO.FRUTA;MODEL ZUMO=PESO;OUTPUT OUT=O_PESO P=PREDI;RUN;

Page 10: SAS Graficas

Dra. Laura Cruz Reyes ITCM 10

REG-GPLOT

• El procedimiento REG junto con GPLOT permite obtener representaciones gráficas de datos originales y predichos por el modelo de regresión.

• En el ejemplo, los dos tipos de datos se grafican con la instrucción PLOT.

PROC REG DATA=PESO.FRUTA;MODEL ZUMO=PESO;OUTPUT OUT=O_PESO P=PREDI;RUN;

PROC SORT DATA=O_PESO;BY PESO;RUN;

PROC GPLOT DATA=O_PESO;PLOT ZUMO*PESO; /*grafica sólo los datos originales */SYMBOL1 INTERPOL=JOIN VALUE=DIAMOND COLOR=GREEN;RUN;

Page 11: SAS Graficas

Dra. Laura Cruz Reyes ITCM 11

• Para cambiar la representación de los puntos que aparecen se emplea la instrucción SYMBOLn. Dado que es posible representar varias gráficas al mismo tiempo,cuando ' n ' es 1, se refiere a la primera gráfica, cuando ' n ' es 2, la segunda, y así sucesivamente.

• En la instrucción SYMBOL, INTERPOL=JOIN, une los puntos representados mediante rectas, y especificando VALUE=DIAMOND o VALUE=STAR, los puntos aparecen representados con un pequeño diamante o bien un asterisco.PROC REG DATA=PESO.FRUTA;MODEL ZUMO=PESO;OUTPUT OUT=O_PESO P=PREDI; /*en O_PESO se guardan datos originales y de regresión*/ /*PREDI es el nombre de la variable que predice el PESO*/RUN;

PROC SORT DATA=O_PESO;BY PESO;RUN;

PROC GPLOT DATA=O_PESO;PLOT ZUMO*PESO; /*grafica sólo los datos originales */SYMBOL1 INTERPOL=JOIN VALUE=DIAMOND COLOR=GREEN;RUN;

REG-GPLOT: gráficas continuas

Page 12: SAS Graficas

Dra. Laura Cruz Reyes ITCM 12

REG-GPLOT: gráficas continuas

Page 13: SAS Graficas

Dra. Laura Cruz Reyes ITCM 13

REG-GPLOT:Gráfica superpuestas

• Para representar diversas gráficas superpuestas, se indica mediante la opción '/OVERLAY '.

PROC REG DATA=PESO.FRUTA;MODEL ZUMO=PESO;OUTPUT OUT=O_PESO P=PREDI;RUN;

PROC SORT DATA=O_PESO;BY PESO;RUN;

PROC GPLOT DATA=O_PESO;

PLOT ZUMO*PESO PREDI*PESO /OVERLAY; /*grafica los datos originales y predichos*/SYMBOL1 INTERPOL=JOIN VALUE=DIAMOND COLOR=GREEN;SYMBOL2 INTERPOL=JOIN VALUE=STAR COLOR=BLUE;RUN;

Page 14: SAS Graficas

Dra. Laura Cruz Reyes ITCM 14

REG-GPLOT:Gráfica superpuestas

Page 15: SAS Graficas

Dra. Laura Cruz Reyes ITCM 15

REG-GPLOT: Recta de regresión e intervalo de confianza

• Para que aparezca la recta de regresión y el intervalo de confianza del 95 %, se debe utilizar en la instrucción SYMBOL, la opción INTERPOL=RLCLM95.

PROC REG DATA=PESO.FRUTA;MODEL ZUMO=PESO;OUTPUT OUT=O_PESO P=PREDI;RUN;

PROC SORT DATA=O_PESO;BY PESO;RUN;

PROC GPLOT DATA=O_PESO;PLOT ZUMO*PESO; /*grafica sólo los datos originales */SYMBOL1 INTERPOL=RLCLM95;RUN;

Page 16: SAS Graficas

Dra. Laura Cruz Reyes ITCM 16

REG-GPLOT: Recta de regresión e intervalo de confianza

Page 17: SAS Graficas

Dra. Laura Cruz Reyes ITCM 17

Gráficas de datos multivariados

Page 18: SAS Graficas

Dra. Laura Cruz Reyes ITCM 18

Presentación gráfica de datos multivariados

• Verificar anormalidades en datos

• Verificar hipótesis sobre los datos:– Tipo de relación (¿lineal?)– Calidad de los programas de agrupación– Distribución de probabilidad– Etc.

Page 19: SAS Graficas

Dra. Laura Cruz Reyes ITCM 19

Gráficas bidimensionales

Page 20: SAS Graficas

Dra. Laura Cruz Reyes ITCM 20

Gráfica de dispersión

Gráfica de dispersión en la que se muestra un dato outlier

Page 21: SAS Graficas

Dra. Laura Cruz Reyes ITCM 21

Gráfica de dispersión

Page 22: SAS Graficas

Dra. Laura Cruz Reyes ITCM 22

proc format;value sex0='Females'1='Males';run;

data lung;input patient age sex height tlc;format sex sex.;Label /*etiquetas para los ejes*/height='Height (cm)'tlc='Total lung capacity';cards;1 35 0 149 3.402 11 0 138 3.41…………………;run;symbol1 color=black interpol=none height=2.5 value=circle;symbol2 color=black interpol=none height=2.5 value=dot;legend1 frame label=none position=inside;proc gplot data=lung;title1 h=3.0 'Total lung capacity vs height';title2 h=2.5 'A different plot symbol for each sex';plot tlc*height=sex

/ frame haxis=axis1 vaxis=axis2 legend=legend1; /*para el marco, ejes=tlc*altura y leyenda (sexo)*/run;quit;

Page 23: SAS Graficas

Dra. Laura Cruz Reyes ITCM 23

Gráficas tridimensionales

Page 24: SAS Graficas

Dra. Laura Cruz Reyes ITCM 24

Gráfica burbujas• Datos de alojamiento para oficiales solteros de la armada de estados

unidos: (x) promedio de registros de entrada por mes, (y) ocupación diaria promedio de un alojamiento, (z) horas-hombre mensuales requeridas para operar la instalación. El análisis gráfico revela que las 3 variables están intensamente relacionadas entre si. (FIG3_2.SAS)

x

y

z

Page 25: SAS Graficas

Dra. Laura Cruz Reyes ITCM 25

options nodate ps=60 PAGENO=1 LINESIZE=75;dm 'log;clear;out;clear;';TITLE 'U.S. NAVY BACHELOR OFFICERS'' QUARTERS';TITLE2 'Bubble and/or Blob Plot';DATA USNAVY; INPUT SITE 1-2 ADO MAC WHR CUA WNGS OBC RMS MMH; LOGADO=LOG(ADO); LOGMAC=LOG(MAC); LABEL ADO = 'AVERAGE DAILY OCCUPANCY' MAC = 'AVERAGE NUMBER OF CHECK-INS PER MO.' WHR = 'WEEKLY HRS OF SERVICE DESK OPERATION' CUA = 'SQ FT OF COMMON USE AREA' WNGS= 'NUMBER OF BUILDING WINGS' OBC = 'OPERATIONAL BERTHING CAPACITY' RMS = 'NUMBER OF ROOMS' MMH = 'MONTHLY MAN-HOURS' LOGADO = 'LOG AVERAGE DAILY OCCUPANCY' LOGMAC = 'LOG AVERAGE NUMBER OF CHK-INS/MO.';CARDS; 1 2 4 4 1.26 1 6 6 180.23 2 3 1.58 40 1.25 1 5 5 182.61 3 16.6 23.78 40 1 1 13 13 164.38………..goptions device=win;proc gplot; bubble LOGADO*LOGMAC=MMH/bsize=15;run;

Page 26: SAS Graficas

Dra. Laura Cruz Reyes ITCM 26

Gráfica dispersión 3D• Datos de alojamiento para oficiales solteros de la armada de estados

unidos: (x) ocupación diaria promedio de un alojamiento, (y) promedio de registros de entrada por mes, (z) horas-hombre mensuales requeridas para operar la instalación. El análisis gráfico revela que las 3 variables están intensamente relacionadas entre si. (FIG3_4.SAS)

x

y

z

Page 27: SAS Graficas

Dra. Laura Cruz Reyes ITCM 27

options nodate ps=60 PAGENO=1 LINESIZE=75;dm 'log;clear;out;clear;';

TITLE 'U.S. NAVY BACHELOR OFFICERS'' QUARTERS';DATA USNAVY; INPUT SITE 1-2 ADO MAC WHR CUA WNGS OBC RMS MMH; LOGADO=LOG(ADO); LOGMAC=LOG(MAC); LABEL ADO = 'AVG DAILY OCCUPANCY' MAC = 'AVG NUMBER OF CHECK-INS PER MO.' WHR = 'WEEKLY HRS OF SERVICE DESK OPERATION' CUA = 'SQ FT OF COMMON USE AREA' WNGS= 'NUMBER OF BUILDING WINGS' OBC = 'OPERATIONAL BERTHING CAPACITY' RMS = 'NUMBER OF ROOMS' MMH = 'MONTHLY MAN-HOURS' LOGADO = 'LOG OCCUPANCY' LOGMAC = 'LOG CHK-INS';CARDS; 1 2 4 4 1.26 1 6 6 180.23 2 3 1.58 40 1.25 1 5 5 182.61 3 16.6 23.78 40 1 1 13 13 164.38……………………………goptions device=win;

PROC G3D; SCATTER LOGADO*LOGMAC=MMH; TITLE2 '3-D Plot';run;

Page 28: SAS Graficas

Dra. Laura Cruz Reyes ITCM 28

Gráficas de más de tres dimensiones

Page 29: SAS Graficas

Dra. Laura Cruz Reyes ITCM 29

Dispersión 3D+Burbuja• Datos de solicitudes de empleo (APPLICANT): G1, G2, G2 y AA. El análisis

gráfico revela posibles datos outliers (FIG3_4.SAS).

Page 30: SAS Graficas

Dra. Laura Cruz Reyes ITCM 30

options nodate nonumber ps=60;dm 'log;clear;out;clear;';

goptions device=win;

data APPLICAN;infile 'C:\Documents and Settings\Laura Cruz Reyes\Mis documentos\Laura Cursos\AnalisisMultivariado\NotasLaura\Libro Jonhson\Cap3_codes\applican.txt';INPUT ID FL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT; G1=(SC+LC+SMS+DRV+AMB+GSP+POT)/7; G2=(FL+EXP+SUIT)/3; G3=(LA+HON+KJ)/3;

DATA; SET APPLICAN; AA=AA/5;PROC G3D; SCATTER G1*G2=G3/SIZE=AA SHAPE='BALLOON'; SCATTER G1*G3=G2/SIZE=AA SHAPE='BALLOON'; SCATTER G2*G3=G1/SIZE=AA SHAPE='BALLOON';

RUN;

Page 31: SAS Graficas

Dra. Laura Cruz Reyes ITCM 31

Caras de Chernoff• Datos de solicitudes de empleo (APPLICANT): usando las quince

respuestas de 48 solicitantes. Las caras 28, 29, 41, 42, 47 y 48 revelan posibles anomalías.

Page 32: SAS Graficas

Dra. Laura Cruz Reyes ITCM 32

Gráficas de Andrews

• Cada unidad experimental produce una curva que es una combinación de senos y cosenos.

• La estandarización y el orden de las variables afecta a su interpretación.

• Una curva muy diferente a las demás puede ser un dato outlier (solicitantes 28, 29, 32, 33, 41, 42.

• (FIG3_13.SAS)

Page 33: SAS Graficas

Dra. Laura Cruz Reyes ITCM 33

Gráficas de Andrews

Page 34: SAS Graficas

Dra. Laura Cruz Reyes ITCM 34

options nonumber nodate ps=60;dm 'log;clear;out;clear;';goptions device=win;

data mv;input id g1-g5;pi=3.14159265;

do t=-pi to pi by pi/10; f=g1/(sqrt(2))+g2*cos(t)+g3*sin(t)+g4*cos(2*t)+g5*sin(2*t);output;end;cards; 1 7.4 6.3 6.7 2.0 7.0 2 9.0 8.0 8.3 5.0 10.0……………………………..;symbol1 w=1 c=black l=3 i=spline;symbol2 w=1 c=black l=1 i=spline;symbol48 w=1 c=black l=1 i=spline;

proc gplot; plot f*t=id/vaxis=-20 to 40 by 10 vm=0 /*eje vertical del marco de graficación*/ haxis=-3.14,-1.57,0,1.57,3.14 hm=0; /*eje horizontal*/run;

Page 35: SAS Graficas

Dra. Laura Cruz Reyes ITCM 35

Gráficas de dispersión lado a lado• Datos de solicitudes de empleo (APPLICANT): usando las variables del

grupo 1. Todos los pares de variables muestran una relación aproximadamente lineal.

Page 36: SAS Graficas

Dra. Laura Cruz Reyes ITCM 36

Cargar un conjuntos de datos con formato excel (xls)

• Seleccionar la opción de importaciónFile > Import Data > Microsoft Excel 97

• Buscar el archivo deseado usando el botón Browse (cereal_data.xls)

• Indicar en Library la biblioteca donde se guardará (Library: Work)

• Indicar en Library el nombre que quiere dar al conjunto

Member: CEREAL)

• Visualizar el conjunto de datos ventana Explorer > Libraries > Work

Page 37: SAS Graficas

Dra. Laura Cruz Reyes ITCM 37

Crear gráfica de dispersión lado-a-lado

• Cargar el conjunto de datos en caso requerido

• Seleccionar el tipo de análisisSelect Solutions > Analysis > Interactive Data Analysis

• Seleccionar el conjunto de datos a analizarLibrary: Work; Data set: cereal_data.xls

• Seleccionar las variables de interés:sugar, fat, and sodium

• Producir la matriz de gráficasAnalyze > Scatter Plot (Y X)

Page 38: SAS Graficas

Dra. Laura Cruz Reyes ITCM 38

Las gráficas muestran que aparentemente no existe una relación lineal entre las variables

Page 39: SAS Graficas

Dra. Laura Cruz Reyes ITCM 39

Gráficas para determinar si una muestra es normal multivariada

Page 40: SAS Graficas

Dra. Laura Cruz Reyes ITCM 40

Grados de libertad

• Los grados de libertad de un estadístico es un estimador del número de categorías independientes en un experimento. Se encuentran mediante la fórmula n-r, donde n=número de observaciones utilizadas en el cálculo y r es el número de restricciones que ligan las observaciones y el estadístico.

• Supongamos que tenemos que elegir un par de números cuya suma es 5. Es claro que sólo un número puede elegirse libremente, pues el segundo queda fijado por la restricción de la suma, en este ejemplo se tiene un grado de libertad.

Page 41: SAS Graficas

Dra. Laura Cruz Reyes ITCM 41

Gráficas de probabilidad Ji-cuadrada

• Se transforma la muestra que se supone es normal multivariada en una muestra con distribución de probabilidad ji-cuadrada con dos grados de libertad

• Los valores estimados de la nueva muestra se ordenan y se sitúan en una gráfica, si éstos puntos situados tienden a caer a lo largo de una recta, se concluye que los datos son normales multivariados, en otro caso se concluye lo contrario.

• Código SAS EX3_1.IML

Page 42: SAS Graficas

Dra. Laura Cruz Reyes ITCM 42

Prueba de normalidad multvariada

• Un examen de esta figura parece indicar que los datos no son multivariados porque no se ajustan a la recta, posiblemente tres de ellos sean outliers

Page 43: SAS Graficas

Dra. Laura Cruz Reyes ITCM 43

Prueba de normalidad multvariada

Page 44: SAS Graficas

Dra. Laura Cruz Reyes ITCM 44

OPTIONS LINESIZE=75 PAGESIZE=54 NODATE PAGENO=1;TITLE 'U.S. NAVY BACHELOR OFFICERS'' QUARTERS';DATA USNAVY; INPUT SITE 1-2 ADO MAC WHR CUA WNGS OBC RMS MMH; LABEL ADO = 'AVERAGE DAILY OCCUPANCY' MAC = 'AVERAGE NUMBER OF CHECK-INS PER MO.' WHR = 'WEEKLY HRS OF SERVICE DESK OPERATION' CUA = 'SQ FT OF COMMON USE AREA' WNGS= 'NUMBER OF BUILDING WINGS' OBC = 'OPERATIONAL BERTHING CAPACITY' RMS = 'NUMBER OF ROOMS' MMH = 'MONTHLY MAN-HOURS' ;CARDS; 1 2 4 4 1.26 1 6 6 180.23 2 3 1.58 40 1.25 1 5 5 182.61 3 16.6 23.78 40 1 1 13 13 164.38……………………RUN;

TITLE2 'MULTIVARIATE NORMALITY PLOT';

DATA USNAVY2; SET USNAVY; DROP SITE MMH;

Page 45: SAS Graficas

Dra. Laura Cruz Reyes ITCM 45

PROC IML ; WORKSPACE=50; RESET NOLOG LINESIZE=75 PAGESIZE=54; USE USNAVY2; READ ALL INTO X ; N= NROW(X); P= NCOL(X); MEAN=( X[+,])/N; MEAN=MEAN`;

PRINT "The Sample Mean is equal to" MEAN;

SUMSQ=X`*X-N#MEAN*MEAN`; S=SUMSQ/(N-{1});

PRINT, "The Sample Covariance Matrix is equal to" S;

DIST = (X - J(N,{1})*MEAN`)* INV(S)*(X - J(N,{1})*MEAN`)`;

D = VECDIAG(DIST); CNAME={"DIST"}; CREATE DIST FROM D[COLNAME=CNAME]; APPEND FROM D[COLNAME=DIST];QUIT;

Page 46: SAS Graficas

Dra. Laura Cruz Reyes ITCM 46

PROC PRINT DATA=DIST;

DATA ; SET DIST; X=DIST;

PROC RANK OUT=RANKS; VAR X; RANKS R;

DATA PLOTDATA; SET RANKS;

/* NOTE: The following two numbers need to be changed in order for every new data set. */

NN = 25 ; * THIS IS THE NUMBER OF OBSERVATIONS IN THE DATA SET; P = 7 ; * THIS IS THE NUMBER OF RESPONSE VARIABLES; RSTAR=(R-.5)/NN; ETA=P/2; V=GAMINV(RSTAR,ETA); V=2*V;

Page 47: SAS Graficas

Dra. Laura Cruz Reyes ITCM 47

PROC PRINT;PROC SORT; BY R;

PROC PRINT;VARIABLES X R V;FORMAT X 6.2 R 3.0 V 6.3;

PROC PLOT DATA=PLOTDATA; PLOT X*V='*' V*V = '+' /OVERLAY VZERO HZERO;

GOPTIONS DEVICE=win;

SYMBOL1 V=DIAMOND; SYMBOL2 V=NONE I=RL0;

PROC GPLOT DATA=PLOTDATA; PLOT X*V=1 V*V=2/VZERO HZERO OVERLAY;RUN;

Page 48: SAS Graficas

Dra. Laura Cruz Reyes ITCM 48

Bibliografía

• Dallas E. Johnson: Métodos multivariados aplicados al análisis de datos. International Thompson Editores, 2000.

• Christopher R. Bilder: Notas del curso “Applied Multivariate Statitistics”. Universidad de Nebraska, 2005 http://statistics.unl.edu/faculty/bilder/stat873/index.htm

• Ronald P. Cody, Jeffrey K. Smith: Applied Statistics and the Programming Language SAS. Prentice Hall, 1997.