Clase 1 (10 Febrero 2014) Correlacion y Regresion Lineal

37
Laboratorio Análisis Cuantitativo II Modelos lineales Correlación y Correlación y Regresión Lineal (Simple) Regresión Lineal (Simple) Dr. Mauricio Padrón Innamorato

Transcript of Clase 1 (10 Febrero 2014) Correlacion y Regresion Lineal

Laboratorio Análisis Cuantitativo IIModelos lineales

Correlación yCorrelación y

Regresión Lineal (Simple)Regresión Lineal (Simple)

Dr. Mauricio Padrón Innamorato

CorrelaciónCorrelación

• Dos variables cuantitativas están relacionadas entre sí

cuando los valores de una de ellas varían de forma

sistemática con respecto a los valores de la otra.

• Si tenemos dos variables, A y B, existe relación entre ellas

si al aumentar los valores de A también lo hacen los de B, o

por el contrario si al aumentar los valores de A disminuyen

los de B.

CorrelaciónCorrelación

• Para variables métricas, el gráfico de dispersión es la

manera más sencilla de comprobar la relación entre las dos

variables, pudiendo esta adoptar diferentes formas.

• El método más usual para medir la intensidad de la

relación lineal entre dos variables métricas, es la

correlación de Pearson.

CorrelaciónCorrelación

CorrelaciónCorrelación

Los componentes fundamentales de una relación entre dos

variables cuantitativas son:

• La Fuerza

• El Sentido

• La Forma

CorrelaciónCorrelación

• La fuerza mide el grado en que la línea representa

a la nube de puntos. Si la nube es estrecha y

alargada una línea recta representará adecuadamente

a la nube de puntos y a la relación, y por tanto ésta

será fuerte.

CorrelaciónCorrelación

•El sentido de la relación se refiere a cómo varían

los valores de B con respecto a A. Si al crecer los

valores de la variable A lo hacen los de B, será una

relación positiva o directa. Si al aumentar A,

disminuye B, será una relación negativa o inversa.

CorrelaciónCorrelación

• La forma establece el tipo de línea a emplear para

definir el mejor ajuste. Se pueden emplear tres tipos

de líneas: una línea recta, una curva monotónica y

una curva no monotónica.

CorrelaciónCorrelación

• En el caso de usar una recta, se admite que existe una

proporción entre la diferencia entre dos valores A y la

diferencia entre dos valores de B.

•A ese factor de ajuste entre ambas series se le llama

pendiente de la recta, y se asume que es constante a lo largo

de toda la recta.

Correlación

Correlación

• En el caso de usar una curva monotónica, ese

factor de proporción entre las dos variables no es

constante a lo largo de toda la recta, y por lo tanto la

pendiente de la misma es variable en su recorrido.

• Se dice que la línea de ajuste es no lineal puesto

que es una curva.

CorrelaciónCorrelación

• En el caso de usar una curva no monotónica varía

tanto la pendiente de la curva como el sentido de la

relación, que en unos sectores puede ser positiva

(ascendente) y en otros negativa (descendente).

CorrelaciónCorrelación

Curva Monotónica Curva No Monotónica

CorrelaciónCorrelación

• Dadas dos variables X y Y tomadas sobre el mismo

elemento de la población, el diagrama de dispersión es

simplemente un gráfico de dos dimensiones, donde en un

eje (la abscisa) se grafica una variable, y en el otro eje (la

ordenada) se grafica la otra variable.

CorrelaciónCorrelación

• Si las variables están correlacionadas, el gráfico mostraría

algún nivel de correlación (tendencia) entre las dos

variables.

• Si no hay ninguna correlación, el gráfico presentaría una

figura sin forma, una nube de puntos dispersos en el gráfico.

CorrelaciónCorrelación

Correlación y la Recta de regresiónCorrelación y la Recta de regresión

• La relación entre dos variables métricas puede ser

representada mediante la línea de mejor ajuste a los datos.

• Esta recta se le denomina recta de regresión, que puede

ser negativa o positiva, la primera con tendencia decreciente

y la segunda creciente.

Correlación y Regresión Lineal

• La ecuación general de la recta es: y = α + βx

• A partir de esta sencilla ecuación se puede calcular para

cualquier punto de una recta, el valor estimado que tomaría

y a partir del conocimiento de su valor x, de la pendiente de

la recta (β) y del punto de corte sobre las ordenadas (α).

La recta de regresión

La recta de regresión

• Para el cálculo de la recta de regresión se aplica el método

de mínimos cuadrados entre dos variables.

• Esta línea es la que hace mínima la suma de los cuadrados

de los residuos, es decir, es aquella recta en la que las

diferencias elevadas al cuadrado entre los valores

calculados por la ecuación de la recta y los valores reales de

la serie, son las menores posibles.

Regresión Lineal Simple

y = α + βx

Regresión LinealRegresión Lineal

Regresión LinealRegresión Lineal

• Dada una variable dependiente y un conjunto de una o más

variables independientes, todas ellas cuantitativas, la

regresión lineal consiste en obtener una función lineal de las

variables independientes que permita explicar o predecir el

valor de la dependiente.

Regresión LinealRegresión Lineal

• A partir de (y1, x1, …, xp), …, (yn, xn, …, xnp), muestra de n

observaciones de las variables Y, X1, …, Xp, se trata de

aproximar los valores de Y, mediante una función de las

variables X1, …, Xp, que exprese la asociación lineal entre Y

y X1, …, Xp:

Regresión LinealRegresión Lineal

Y = β0 + β1X1 +…+ βpXp + e

donde β0,…, βp son parámetros desconocidos a

estimar y e es una variable error N(0,σ2)

Antes de continuar…Antes de continuar…

Regresión LinealRegresión Lineal

Origen histórico del termino

A pesar de una tendencia en la que los padres de estatura

alta tenían hijos altos y viceversa, la estatura promedio de

los niños nacidos de padres de una estatura dada tendían a

moverse o “regresar” hacia la estatura promedio de la

población total, regreso a la “mediocridad” (Francis

Galton).

Regresión LinealRegresión Lineal

Origen histórico del termino

La Ley de regresión universal de Galton fue confirmada por

Karl Pearson, quien a partir de mil registros de estaturas de

miembros de grupos familiares encontró que la estatura

promedio de los hijos de un grupo de padres de estatura alta

era menor que la estatura de sus padres y a la inversa.

Regresión LinealRegresión Lineal

Interpretación moderna de la regresión

El análisis de la regresión trata del estudio de la

dependencia de Y, respecto a una o mas variables X´s, con

el objetivo de estimar y/o predecir la media o valor

promedio poblacional de Y en términos de los valores

conocidos o fijos (en muestras repetidas) de las X´s.

Regresión LinealRegresión Lineal

Galton estaba preocupado por averiguar las razones por las cuales existía estabilidad en la distribución de estaturas dentro de una población.

En el enfoque moderno la preocupación no esta dirigida a esta explicación sino en averiguar la manera en que cambia la estatura promedio de los hijos, dada la estatura de los padres.

Se esta interesado en predecir la estatura promedio de los hijos conociendo la estatua de sus padres.

Regresión LinealRegresión Lineal

Regresión LinealRegresión Lineal

En la figura se ve que para cualquier estatura dada de un

padre existe un rango (distribución) de estaturas de los

hijos.

Sin embrago, a pesar de la naturaleza variable e la estatura

de los hijos, dado un valor de la estatura de los padres, el

promedio de la estatura de aquellos por lo general se

incrementa en la misma medida que lo que se acrecienta la

de los padres.

Regresión LinealRegresión Lineal

De la anterior queda claro que cada medida condicional

E(Y,X) es función de X, donde X, es un valor dado de X.

Simbólicamente,

E (Y / Xi) = f(Xi)

Regresión LinealRegresión Lineal

Regresión LinealRegresión Lineal

La ecuación anterior se conoce como la función de

expectativa condicional o función de regresión poblacional.

Esta función denota únicamente que el valor esperado de la

distribución de Y dada X, esta relacionada funcionalmente

con X.

Dice como la media o respuesta promedio de Y varia con X.

Regresión LinealRegresión Lineal

Dados los supuestos del modelo de regresión clásico, se

cumple que al tomar la esperanza condicional de Y a ambos

lados de la ecuación, se obtiene

E (Y / X1, X2) = β0 + β1X1 + β2X2

Así se obtiene, la media condicional o el valor esperado de

Y condicionado a los valores dados o fijos de las variables

X1 y X2.

Regresión LinealRegresión Lineal

Entonces el análisis de regresión es el análisis de regresión

condicional, sobre los valores fijos de las variables

explicativas, y lo que obtenemos es el valor promedio o la

media de Y, o la respuesta media de Y a valores dados de las

regresoras X.