Problem as Re Sueltos Stat Graphics Centurion

29
PROBLEMAS RESUELTOS CON STATGRAPHICS CENTURION XVI 1) Explique qué es el Análisis de Correlación Simple, Múltiple y Parcial. Cuál es el coeficiente de correlación según la naturaleza de las variables. Graficar. Correlación es la medida del grado de relación entre dos o más variables. Cuando analizamos variables nominales suele utilizarse el término asociación para indicar el grado de relación entre las variables. 1.1. Análisis de correlación Simple: Se le llama así a la correlación entre dos variables cuantitativas para verificar su relación. Donde se involucra solo una variable independiente. 1.2. Análisis de correlación Múltiple: Se le llama así a la correlación entre varias variables independientes con una dependiente. 1.3. Análisis de correlación Parcial: Se le llama así a la correlación de dos variables manteniendo el resto constante. Coeficiente de correlación según la naturaleza de las variables: El grado de relación entre variables depende de la naturaleza de las variables involucradas en la investigación; de esta manera las relaciones descritas que se conocen son: Con el estadístico Ji-cuadrado: Si ambas variables son nominales

Transcript of Problem as Re Sueltos Stat Graphics Centurion

PROBLEMAS RESUELTOS CON STATGRAPHICS CENTURION XVI

1) Explique qué es el Análisis de Correlación Simple, Múltiple y Parcial. Cuál es el coeficiente de correlación según la naturaleza de las variables. Graficar.

Correlación es la medida del grado de relación entre dos o más variables.

Cuando analizamos variables nominales suele utilizarse el término asociación

para indicar el grado de relación entre las variables.

1.1. Análisis de correlación Simple: Se le llama así a la correlación entre

dos variables cuantitativas para verificar su relación. Donde se involucra

solo una variable independiente.

1.2. Análisis de correlación Múltiple: Se le llama así a la correlación entre

varias variables independientes con una dependiente.

1.3. Análisis de correlación Parcial: Se le llama así a la correlación de dos

variables manteniendo el resto constante.

Coeficiente de correlación según la naturaleza de las variables: El grado de

relación entre variables depende de la naturaleza de las variables

involucradas en la investigación; de esta manera las relaciones descritas que

se conocen son:

Con el estadístico Ji-cuadrado: Si ambas variables son nominales

Con el Coeficiente de correlación de Spearman: Si ambas variables

son ordinales.

Con el coeficiente de Pearson: Si ambas variables son intercalares.

Con el coeficiente Omega Cuadrado: Si una variables es nominal y

la otra intervalar.

Con el coeficiente de Phi: Si ambas variables son dicotómicas o

binarias.

Graficar:

La correlación tiene las mismas propiedades de los vectores: Magnitud, dirección y sentido, es así que se habla de:

Correlación positiva o Directa: Ambas variables presentan la misma tendencia porque a medida que aumente se espera que la otra también aumente. Aunque en el caso de los seres humanos cuando hablamos de características o variables como la talla y el peso aparece una variable reguladora como la edad.

Correlación positiva o Indirecta: Se da a la inversa de la anterior mientras una variable aumenta, la otra tiende a disminuir, mostrando tendencias claramente opuestas; un ejemplo claro es el de la oferta y el precio (la oferta aumenta, el precio tiende a bajar).

En este caso los diagramas de dispersión son de gran ayuda al analizar visualmente el grado de relación; en este caso las tendencias son muy claras.

Así es como nos ayudaran estas graficas a analizar y sacar resultados acerca de las tendencias que encontraremos en problemas resueltos con STATGRAPHICS CENTURION XVI

2) Desarrolle adecuadamente si la Correlación es una medida de confiabilidad de un instrumento de medición o test.

La correlación es la base utilizada para evaluar la confiabilidad de un instrumento de medición o test.

Variables independientes entre sí; no existe correlación.

Por ejemplo:

Si los puntajes de un test fueron medidos en base a una escala tipo Likert (escala psicométrica utilizada en cuestionarios, que se usa mayormente en encuestas para la investigación); se utilizará el Coeficiente Croan Bach.Pero si los puntajes provienen de alternativas dicotómicas o binarias (si, no) se utilizara el coeficiente de Kuder-Richardson.

Una interrogante que salta a la mente de inmediato es ¿Cómo analizar un Test que tiene preguntas en escala (si, no) y en escala Likert?

Esta situación nos conduce a trabajar en el sentido que se pueden aplicar dos tipos de correlación:

Coeficiente de correlación de Pearson: En este caso debe aplicarse el test en dos oportunidades diferentes y luego correlacionar mediante coeficiente de correlación de Pearson, la relación de los puntajes totales de la primera aplicación con los de la segunda. Si se mantiene entre las dos aplicaciones una correlación que por lo menos es mayor que 0.7 se concluye que el test es confiable.

Coeficiente de partición por mitades o correlación de Sparman Brown: Mide el grado de la segunda mitad del test, o entre pares e impares es lo más elevada posible y en todo caso mayor que 0.7, se concluye igualmente el test es confiable.

La correlación también hace posible el cálculo del coeficiente de determinación R2 que se utiliza como medida de la bondad de ajuste de un modelo de regresión.

En general, si el valor de R-cuadrado es mayor en comparación a otro modelo, el modelo que posea un R-cuadrado mayor será el de mayor ajuste. El R-cuadrado, comienza a ser importante si sobrepasa el valor 0.70. Ya que este coeficiente siempre es positivo.

3) Desarrolle 10 ejemplos de correlación con Statgraphics Centurión XVI

Para hallar las correlaciones con Statgraphics Centurión XVI en los diferentes ejemplos seguiremos los siguientes pasos:

Para un factor:

Relacionar Un factor Regresión Simple Variables (x, y) Modelo Lineal

Para dos o más factores:

Relacionar Varios factores Análisis Multivariado (Correlaciones)

Ejercicio 1: Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los siguientes datos:

X 189 190 208 227 239 252 257 274 293 308 316

Y 402 404 412 425 429 436 440 447 458 469 469

X representa la renta nacional en millones de euros e Y representa las ventas de la compañía en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive). Calcular:

1. La recta de regresión de Y sobre X.

2. El coeficiente de correlación lineal e interpretarlo.

Como podemos observar en la tabla de análisis de varianza hallado las variables poseen un índice de correlación lineal de 0.9984

Así mismo, si se decide realizar el análisis como datos multivariados optemos además de una recta para cada variable que demuestra a simple

vista la relación directa positiva y muy fuerte, casi perfecta que existe de acuerdo a las definiciones de cada autor.

Hernández, 2003, p.532 y encontraremos otros parámetros de interpretación:

3. Si en 2001 la renta nacional del país fue de 325 millones de euros. ¿Cuál será la predicción para las ventas de la compañía en este año?

Ahora con el grafico de regresión obtenido para la pregunta 1, daremos solución a esta interrogante:

VENTAS2001= 301.654 + 0.534982 (325)

VENTAS2001= 117.0346 millones de euros

Ejercicio 2: La información estadística obtenida de una muestra de tamaño 12 sobre la relación existente entre la inversión realizada y el rendimiento obtenido en cientos de miles de euros para explotaciones agrícolas, se muestra en el siguiente cuadro:

Inversión (X) 11 14 16 15 16 18 20 21 14 20 19 11Rendimiento (Y) 2 3 5 6 5 3 7 10 6 10 5 6

Calcular:

1. La recta de regresión del rendimiento respecto de la inversión.

2. El coeficiente de correlación lineal e interpretarlo.

El coeficiente de correlación hallado fue de 0,6184; lo que de acuerdo a Hernández, 2003; representa una correlación positiva media y cómo podemos observar de la manera gráfica los puntos se encuentran con

cierta tendencia que en varios puntos cambia. Es por esto que analizamos de esa manera la relación de nuestras variables.

3. La previsión de inversión que se obtendrá con un rendimiento de 1 250 000 €.

Como ya nos generó una ecuación del rendimiento en función de la inversión y lo que nosotros queremos hallar él lo contrario; seguimos el mismo análisis y obtenemos una nueva ecuación que modela la regresión entonces hallamos;

INVERSIÓN= 11.4636 + 0.84466 (1.25)

INVERSIÓN= 12.5194 cientos de millones de €.

Ejercicio 3: El número de horas dedicadas al estudio de una asignatura y la calificación obtenida en el examen correspondiente, de ocho personas es:

Horas (X) 20 16 34 23 27 32 18 22Calificación (Y) 6.5 6 8.5 7 9 9.5 7.5 8

Se pide:

1. Recta de regresión de Y sobre X.

2. El coeficiente de correlación múltiple

En este caso el coeficiente de relación múltiple muestra cierta tendencia en los datos además podemos verificar que el 0,7924 lo que según Hernández, 2003; refiere que la correlación de nuestras variables (Calificación y horas) es una correlación positiva considerable.

3. Calificación estimada para una persona que hubiese estudiado 28 horas.

CALIFICACIÓN: 4.13903 + 0.153061 (28)

CALIFICACIÓN= 8.43

Ejercicio 4: En la tabla siguiente se indica la edad (en años) y la conducta agresiva (medida en una escala de cero a 10) de 10 niños.

Edad 6 66.7

7 7.4 7.9 8 8.2 8.5 8.9

Conducta agresiva 9 6 7 8 7 4 2 3 3 1

1. Obtener la recta de regresión de la conducta agresiva en función de la edad.

Según lo que nos bota el análisis tenemos un coeficiente de correlación de-0.86 lo que nos indica una correlación fuerte negativa

2. A partir de dicha recta, obtener el valor de la conducta agresiva que correspondería a un niño de 7.2 años.

CONDUCTA= 22.5121 - 2.34747 (7.2)CONDUCTA= 5.61

EDAD

CONDUCTA

Ejercicio 5: Los valores de dos variables X e Y se distribuyen según la tabla siguiente:

Y/X 100 50 2514 1 1 018 2 3 022 0 1 2

Se pide:

1. Calcular la covarianza.

2. Obtener e interpretar el coeficiente de correlación lineal.

Ejercicio 6: Las puntuaciones obtenidas por un grupo de alumnos en una batería de test que mide la habilidad verbal (X) y el razonamiento abstracto (Y) son las siguientes:

Y/X 20 30 40 50(25-35) 6 4 0 0(35-45) 3 6 1 0

(45-55) 0 2 5 3(55-65) 0 1 2 7

Se pide:

1. ¿Existe correlación entre ambas variables?

La correlación entre variables se da en:

La correlación entre habilidad verbal y el primer razonamiento abstracto es una correlación negativa fuerte considerable ya que es -0.9439.

La correlación entre habilidad verbal y el segundo razonamiento abstracto es una correlación negativa considerable ya que es -0.7569.

La correlación entre habilidad verbal y el tercer razonamiento abstracto es una correlación considerable fuerte positiva ya que es 0.9342.

Ejercicio 7: En una empresa de transportes trabajan cuatro conductores. Los años de antigüedad de permisos de conducir y el número de infracciones cometidas en el último año por cada uno de ellos son los siguientes:

Años (X) 3 4 5 6Infracciones (Y) 4 3 2 1

Calcular el coeficiente de correlación lineal e interpretarlo.

Como tenemos un coeficiente de correlación igual a -1.00 diremos que es una correlación perfecta negativa

Ejercicio 8: Una persona rellena semanalmente una quiniela y un boleto de lotería primitiva anotando el número de aciertos que tiene. Durante las cuatro semanas del mes de febrero, los aciertos fueron:

Quiniela (X) 6 8 6 8Primitiva (Y) 1 2 2 1

Obtener el coeficiente de correlación lineal e interpretarlo. ¿Ofrecerían confianza las previsiones hechas con las rectas de regresión?

En este caso el coeficiente de correlación es 1.00 lo que nos indica que la relación de las variables es una relación positiva perfecta.

Ejercicio 9: Sea la determinación de la correlación entre los órdenes de llegada 14por dos jueces en 8 competencias de natación.

Nadador 1 2 3 4 5 6 7Juez 1 10 11 9 13 7 14 6Juez 2 11 13 8 10 9 15 7

¿Existe relación entre los puntajes puestos por los jueces?

El coeficiente de correlación es 0.8030 lo que quiere decir que la decisión de los jueces acerca de las 7 competencias tiene una relación positiva considerable.

Ejercicio 10: De una muestra de 50 estudiantes se registró sus actitudes para éxito y fracaso, ¿Tienen relación estos datos?

Estudiantes 1 2 3 4 5Éxito 19 15 18 13 20

Fracaso 1 5 6 7 0

Nuestro coeficiente de correlación es de 0.3879 lo que quiere decir que nuestras variables poseen una relación positiva débil. Ciertamente poseen un mínimo de relación.

4) Se puede analizar con Statgraphics Centurion XVI la Correlación entre una Variable Nominal de varias categorías y una Variable Intercalar (u ordinal).

En los casos que se requiera la asociación entre una variable nominal y otra (intervalar u ordinal). Aparece el coeficiente de asociación según Weimer (1996, p.624), el Omega cuadrado (ω2).

En este caso puede presentarse en el ámbito de un ANOVA cuyo valor F haya dado significativo y sabiendo según este valor F que hay una relación entre las dos variables ahora nuestro interés radica en conocer el grado de intensidad de la asociación.

De esta manera, el estadístico omega cuadrado(ω2¿ es un estimador común de la fuerza de las asociaciones entre las variables del tratamiento y la dependiente en un arreglo de ANOVA de un solo criterio de clasificación. Fue derivado por Hays y tiene la siguiente formula:

Dónde:

ω2= Omega cuadrado de Hays

SCTRAT= Suma de cuadrados entre tratamientos

CMERROR = Cuadrado medio del error

SCT=Suma de cuadrados totales

K= es el número de tratamientos

El estadístico (ω2) omega cuadrado de Hays no esta incorporado todavía en algunos software pero la mayoría de ellos provee los insumos necesarios para poder determinarlo en forma indirecta.

Para su interpretación debe utilizarse el siguiente parámetro:

Rango (ω2¿ de omega cuadrado Intensidad de relación

0.00 a 0.29 Débil

0.30 a 0.69 Moderada

0.70 a 1.00 Fuerte

Con el estadístico omega cuadrado de Hays no debe hablarse de direccionalidad positiva o negativa porque no hay forma de saber la direccionalidad.

De la siguiente manera podemos hallar un ANOVA simple para el ejemplo siguiente:

Se realizó un experimento para determinar:

A) Si son distintas las medidas del número de cirugías de pacientes externos realizadas (por semana) en tres hospitales: General del sur, Universitario y Coromoto.

B) La intensidad de la relación entre el número de cirugías por semana y el tipo de hospital.

Hospital General del Sur

Hospital Universitario de Maracaibo

Hospital Coromoto

1919181412

2523222122

2523231314

En STATGRAPHICS CENTURION XVI

A pesar de tener la F de Fisher no significativa, utilizamos el cálculo del omega cuadrado como ejemplo didáctico:

ω2=96.13−(3−1 )14.8273.733+14.8

ω2= 125.73288.533

ω2=0.4357

Entonces tenemos que el 43.57% de la varianza en el número de cirugías puede ser atribuido a la variable del tipo de hospital. Las variables poseen una intensidad moderada.

Cabe resaltar que el cálculo del omega cuadrado se realiza cuando el estadístico F halla resultado significativo.

5) Se aplica el Análisis de Regresión no Lineal en el Diseño de Experimentos. Explique y grafique con ejemplos en Software.

REGRESION NO LINEAL CON UNA VARIABLE

Para este capítulo se trabajara sobre el StatFolio nonlinear reg.sgp recuerde esta es la forma de acceder al mismo

RECUERDE: El procedimiento Regresión No Lineal ajusta una función especificada por el usuario relacionando una sola variable dependiente Y con una o más variables independientes X. El modelo se estima usando cuadrados mínimos no lineales

El modelo sobre el cual trabajaremos en esta ocasión es:

Una vez accede al modelo no lineal se despliega la siguiente ventana, en ella debe tener presente los siguientes conceptos:

• Variable Dependiente: columna numérica que contiene los n valores de Y.• Función: una expresión de STATGRAPHICS que representa la función a

ajustar. Debe incluir uno o más nombres de columnas numéricas, que representen

a las variables independientes. También puede incluir funciones tales como

RAIZ o EXP. Cualquier nombre desconocido se considera que representa parámetros del modelo que tienen que ser estimados.

• Peso: una columna numérica opcional que contiene los pesos o ponderadores que se aplicarán al cuadrado de los residuos cuando se realice un ajuste por mínimos cuadrados ponderados.

• Selección: selección de un subgrupo de datos. En caso que no desee realizar el análisis con el total de datos.

Una vez establecidos las condiciones STATGRAPHICS, el siguiente paso es establecer los lineamientos de los parámetros establecidos en el modelo (valores presentes en la determinación del mismo pero no como un continuo de datos sino como un valor preestablecido).

Por ejemplo en este caso, tenemos dos parámetros, a y b. Cada uno lo hemos hecho valer 0.1 (Recuerde que en este caso, como en el caso de los intervalos de confianza a mayor valor de los parámetros mayor margen de error, es decir 0.1

implica 0.9 de confiabilidad). Finalmente y tras aceptar en esta última ventana de dialogo obtenemos el análisis:

RESUMEN DE ANALISIS

Este contiene seis elementos principales de su interés:

5.2.1 Resumen de los Datos: un resumen de los datos que fueron ingresados.5.2.2 Función a Estimar: la función que se ha de estimar y las estimaciones iníciales de los parámetros.5.2.3 Estadísticas de la Estimación: el método empleado en la estimación así como el número de iteraciones y llamadas de la función que se llevaron a cabo.5.2.4 Estimaciones de los Parámetros: los parámetros estimados con sus respectivos intervalos de confianza aproximados. De esta manera intervalos que no contienen al 0 indican que el parámetro del modelo es estadísticamente significativo al nivel de confianza establecido.5.2.5 Análisis de Varianza: Este incluye descomposición de la variabilidad de la variable dependiente Y en una suma de cuadrados del modelo y una suma de cuadrados residual o del error.5.2.6 Estadísticas: estadísticas de resumen para el modelo ajustado, incluyendo:

• R-Cuadrada - representa el porcentaje de la variabilidad en Y que ha sido explicado por el modelo de regresión ajustado, que va de 0% a 100%

• R-Cuadrada Ajustada – el estadístico R-cuadrada, ajustado para el número de coeficientes en el modelo. Error Estándar de Est. – La desviación estándar estimada de los residuos (las desviaciones alrededor del modelo). Este valor se usa para crear límites de predicción para nuevas observaciones.

• Error Medio Absoluto – el valor absoluto promedio de los residuos.• Estadístico Durbin-Watson – una medida de la correlación serial en los

residuos. Si los residuos varían aleatoriamente, este valor debiera ser cercano a Un valor-P pequeño indica un patrón no aleatorio en los residuos. Para datos registrados en el tiempo, un valor-P pequeño podría indicar que alguna tendencia en el tiempo no ha sido explicada.

• Autocorrelación Residual de Retardo 1 – la correlación estimada entre residuos consecutivos, en una escala de –1 a 1. Valores alejados del 0 indican que en el modelo queda estructura significativa sin explicar.

GRAFICA DEL MODELO AJUSTADO:

La ventana Gráfico del Modelo Ajustado grafica el modelo ajustado versus cualquiera de las variables independientes, dándole a las otras variables los valores establecidos en la caja de dialogo de opciones de ventana (Recuerde acceder a él a través del click derecho sobre el gráfico).

De esta manera podemos ver cómo es que se aplica el modelo de regresan no lineal al diseño de experimentos.

REGRESION NO LINEAL CON DOS O MAS VARIABLES EN DISEÑO DE EXPERIMENTO: