Regresión y correlación simple y regresión múltipleCapítulo 5. Distribuciones de frecuencia...
Transcript of Regresión y correlación simple y regresión múltipleCapítulo 5. Distribuciones de frecuencia...
Capítulo 5. Distribuciones de frecuencia bidimensionales (II)
Regresión y correlación simple y regresión múltiple
JOSÉ JAIME NOGUERA
1
Introducción a la Estadística (ADE-ECONOMÍA)
Correlación
• Indica el grado de dependencia lineal entre dos variables
• Si las representamos con una nube de puntos, nos indica si se parece a una recta.
𝑟𝑥𝑦 =𝑆𝑥𝑦
𝑆𝑥·𝑆𝑦 -> Coeficiente de correlación lineal
𝑆𝑥𝑦 = 𝑛𝑖𝑗·𝑥𝑖·𝑦𝑗
𝑠𝑗=1
𝑟𝑖=1
𝑁 − 𝑥 · 𝑦 ,
𝑆𝑋 = 𝑥𝑖
2·𝑛𝑖·𝑟𝑖=1
𝑁− 𝑥 2, 𝑆𝑌=
𝑦𝑖2·𝑛·𝑗
𝑠𝑖=1
𝑁− 𝑦 2
2
Propiedades • Es adimensional.
• Si 𝑟𝑥𝑦 = 1 o 𝑟𝑥𝑦 = −1, la relación lineal es perfecta (directa o inversa)
• Si 𝑟𝑥𝑦 = 0, no hay ninguna relación lineal entre las variables.
• Si −1 < 𝑟𝑥𝑦< 1 hay dependencia estadística:
– Si 0 < |𝑟𝑥𝑦| < 0.25, no hay correlación suficiente
– Si 0.25 < |𝑟𝑥𝑦| < 0.5, correlación baja/moderada
– Si 0.5 < |𝑟𝑥𝑦| < 0.75, correlación moderada/buena
– Si 0.75 < |𝑟𝑥𝑦| < 1, correlación muy buena
– En Economía se acepta solo si 0.9 < |𝑟𝑥𝑦| < 1
3
Ejemplo
4
𝑟𝑥𝑦 =𝑆𝑥𝑦
𝑆𝑥 · 𝑆𝑦=−0.22
2.58 · 1.20= −0.1250
Regresión
• Se busca una función que refleje lo mejor posible la relación entre X e Y
𝑌 = 𝑓 𝑋
– X es la variable independiente o variable efecto o regresor o explicativa.
– Y es la variable dependiente o variable respuesta o explicada.
Lo más simple es utilizar una función lineal.
5
Método de los mínimos cuadrados
El problema es el siguiente: tenemos una serie de datos:
Queremos encontrar una recta: 𝑦 = 𝑎 + 𝑏 · 𝑥
que cuya distancia a dichos puntos sea la menor posible.
J.J. Noguera
𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝒏
𝒚𝟏 𝒚𝟐 𝒚𝟑 𝑦𝑛
• Ejemplo: Hallar la recta de mínimos cuadrados que ajuste:
J.J. Noguera
t 𝑦𝑡
1 52
2 29
3 27
4 11 y = -12,5x + 61
0
10
20
30
40
50
60
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
y
y
Lineal (y)
Residuos
• Si llamamos 𝑦𝑖 a los valores reales e 𝑦𝑖∗ a los
aproximados, llamamos residuos a: 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖
∗
• Lo que queremos es minimizar:
𝑒2𝑛
𝑖=1
Derivando e igualando a 0, obtenemos las ecuaciones normales, cuya solución es:
8
Solución:
La recta de regresión de y sobre x es:
𝑦 − 𝑦 =𝑆𝑥𝑦
𝑆𝑥2 (𝑥 − 𝑥 )
O dicho de otra manera:
𝑦 = 𝑎 + 𝑏𝑥
Con
• b =𝑆𝑥𝑦
𝑆𝑥2 pendiente
• 𝑎 = 𝑦 − 𝑏𝑥 ordenada en el origen
9
Solución:
La recta de regresión de y sobre x es:
𝑦 − 𝑦 =𝑆𝑥𝑦
𝑆𝑥2 (𝑥 − 𝑥 )
donde:
𝑆𝑥𝑦 = 𝑚11 = 𝑥𝑖∙𝑦𝑖𝑁𝑖=1
𝑁 − 𝑥 · 𝑦 ,
𝑆𝑥2 = 𝑚20 = 𝑎20 − 𝑎10
2 = 𝑥𝑖
2𝑁𝑖=1
𝑁 - 𝑥 2
10
Bondad del ajuste: Varianza residual o
(medida de dispersión absoluta)
𝑆𝑒2 = 𝑒𝑖
2𝑛𝑖=1
𝑛
• Se cumple que 0 ≤ 𝑆𝑒2 ≤ 𝑆𝑦
2
• Además 𝑆𝑦2 = 𝑆𝑦∗
2 + 𝑆𝑒2
• El objetivo es que la varianza residual sea pequeña
11
Bondad del ajuste: coeficiente de determinación, 𝑹𝟐 (o medida de dispersión relativa)
• Como más próximo a la unidad, mejor ajuste. • Coincide con el Coeficiente de Correlación lineal de Pearson al
cuadrado:
𝑅2 = 𝑟𝑥𝑦2 =
𝑆𝑥𝑦2
𝑆𝑥2 · 𝑆𝑦2
• También se define como 𝑅2 =𝑆𝑦∗2
𝑆𝑦2 o 𝑆𝑒
2 = 𝑆𝑦2(1 − 𝑅2)
• 𝑆𝑦∗2 mide la variación de la variable y que queda explicada por
la ecuación de regresión y 𝑅2 es la proporción de las variaciones de la variable y explicadas por la ecuación de regresión
12
Ejemplo
𝒙𝒊 𝒚𝒊 𝒙𝒊𝟐 𝒚𝒊
𝟐 𝒙𝒊 · 𝒚𝒊
7 4 49 16 28
15 8 225 64 120
18 10 324 100 180
20 13 400 169 260
Totales 60 35 998 349 588
13
𝒙𝒊 7 15 18 20
𝑦𝑖 4 8 10 13
𝑆𝑥𝑦 = 𝑥𝑖∙𝑦𝑖𝑁𝑖=1
𝑁 − 𝑥 · 𝑦 =
588
4−60
4·35
4= 15.75
𝑆𝑥2 = 𝑥𝑖
2𝑁𝑖=1
𝑁 - 𝑥 2 =
988
4− 152 = 24.5
Por tanto,
𝑦 −35
4=15,75
24,5(𝑥 −60
4)
Es decir 𝑦 = 0,643𝑥 − 0,893
𝑆𝑦2 =349
4 −35
4
2=10,69
Coeficiente de determinación,
𝑅2 =𝑆𝑥𝑦2
𝑆𝑥2𝑆𝑦2 =
15.752
24.5 · 10.69= 0,95
Varianza residual: 𝑆𝑒2 = 𝑆𝑦
2 1 − 𝑅2 = 10,69 1 − 0,952 = 1,04
Luego el ajuste es muy bueno.
14
RESUMEN: Pag. 112 Libro (Economía)
15
RESUMEN: Pag. 112 Libro
16
RESUMEN: Pag. 112 Libro
17
Tabla de doble entrada
x y 1 2 3 4 𝒏 𝒊 ·
2 2 0 1 7 10
4 1 5 3 4 13
6 2 6 3 8 19
𝒏 · 𝒋 5 11 7 19 N =42
18
𝑆𝑥𝑦 = 𝑎11 − 𝑥 · 𝑦 = 𝑛𝑖𝑗 · 𝑥𝑖· 𝑦𝑗
𝑠𝑗=1
𝑟𝑖=1
𝑁 − 𝑥 · 𝑦 = −𝟎, 𝟐𝟏
𝑆𝑥2 = 2,58 𝑆𝑦
2 = 1,20
𝑏 =𝑆𝑥𝑦
𝑆𝑥2 =−0,21
2,58=-0,081 𝑎 = 𝑦 − 𝑏𝑥 = 2,95 − 𝑏4,43 =3,31
y = 3,31 − 0,081𝑥 𝑅2 =
−0,21 2
2,58 · 1,20= 0,014
𝑥 = 4,43
𝑦 = 2,95
A tener en cuenta
• La recta de regresión de x sobre y es:
𝑥 − 𝑥 =𝑆𝑥𝑦
𝑆𝑦2 (𝑦 − 𝑦 )
• Ajustes no lineales: Hay otras posibilidades de ajuste que no sean una recta, como por ejemplo: – Polinómicos
– Potenciales
– Exponenciales
19
AJUSTES NO LINEALES
• Se puede realizar un ajuste partiendo de una función no lineal
• Se puede linealizar la función a ajustar: aplicar una transformación previa para que podamos trabajar con una función lineal.
• Para linealizar debemos recordar: log𝑎 𝑥 · 𝑦 = log𝑎 𝑥 + log𝑎 𝑦 log𝑎 𝑥
𝑛 = 𝑛 · log𝑎 𝑥
20
Función potencial
𝒚 = 𝒂𝒙𝒃 ln 𝑦 = ln(𝑎𝑥𝑏) ln 𝑦 = ln 𝑎 + ln 𝑥𝑏 ln 𝑦 = ln 𝑎 + 𝑏 · ln 𝑥
𝑦′ = 𝑎′ + 𝑏 · 𝑥′ Pasos: 1) Calculo 𝑦𝑖
′ = ln 𝑦𝑖 , 𝑥𝑖′ = 𝑥𝑖
2) Realizo el ajuste y obtengo a’ y b → 𝑎 = 𝑒𝑎′
3) El ajuste será 𝑦 = 𝑎𝑥𝑏
21
Cuadro resumen, pag 119
22
Aplicaciones en Economía
• En 𝑦 = 𝑎𝑥𝑏 → b′ =𝑑 ln 𝑦
𝑑 ln 𝑥, mide la elasticidad de y
respecto de x (cambio porcentual de y respecto a un cambio porcentual de x)
• En 𝑦 = 𝑎𝑥𝑏 si b representa el tiempo, tenemos que b’ es la tasa de crecimiento anual o mensual, etc.
• En 𝑦 = 𝑎 +𝑏
𝑥 , se utiliza el cambio 𝑧 =
1
𝑥. Se utiliza en
microeconomía para describir la demanda del artículo y en ingreso (curva de Engel) y también en macroeconomía para medir la tasa de variación de salarios y tasa de desempleo (curva de Phillips).
23
REGRESIÓN MÚLTIPLE
24
Regresión múltiple
𝑦 = 𝑓(𝑥2, 𝑥3, … , 𝑥𝑘) • Buscamos una relación de tipo lineal:
𝑦 = 𝑏1 + 𝑏2𝑥2 + 𝑏3𝑥3 +⋯+ 𝑏𝑘𝑥𝑘 • Si 𝑦∗ es el valor ajustado y llamamos
𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖∗
• Buscamos minimizar
𝑒2𝑛
𝑖=1
Derivando e igualando a 0, obtenemos las ecuaciones normales.
25
MATRICIALMENTE
Datos iniciales:
𝑋 =
1 𝑥21 … 𝑥𝑘11 𝑥22 … 𝑥𝑘2⋮ ⋮ ⋱ ⋮1 𝑥2𝑛 … 𝑥𝑘𝑛
y =
𝑦1𝑦2⋮𝑦𝑛
Buscamos 𝑦∗ = 𝑋𝑏, donde
b =
𝑏1𝑏2⋮𝑏𝑛
26
SOLUCIÓN
𝑏 = 𝑋′𝑋 −1𝑋′𝑦 • Recta ajustada:
𝑦∗ = 𝑋𝑏 • Varianza residual:
𝑆𝑒2 =𝑦′𝑦 − 𝑏′𝑋′𝑦
𝑛
• Coeficiente de determinación:
𝑅2 = 1 −𝑆𝑒2
𝑆𝑦2 = 1 −
𝑆𝑒2
𝑦′𝑦𝑛− 𝑦
27
EJEMPLO
Ventas 2 5 8
Publicidad en redes sociales 3 4 7
Publicidad en TV 8 16 24
28
𝒚𝒊 𝒙𝟐𝒊 𝒙𝟑𝒊
𝒚𝟏 𝒙𝟐𝟏 𝒙𝟑𝟏
𝒚𝟐 𝒙𝟐𝟐 𝒙𝟑𝟐
𝒚𝟑 𝒙𝟐𝟑 𝒙𝟑𝟑
k = 3 𝑛 = 3
EJEMPLO
29
𝒚𝒊 𝒙𝟐𝒊 𝒙𝟑𝒊
𝒚𝟏=2 𝒙𝟐𝟏=3 𝒙𝟑𝟏=8
𝒚𝟐=5 𝒙𝟐𝟐=4 𝒙𝟑𝟐=16
𝒚𝟐=8
𝒙𝟐𝟑=7 𝒙𝟑𝟑=24
• 𝑋′ =1 1 13 4 78 16 24
• 𝑦 =258
EJEMPLO 𝒃 = 𝑿′𝑿 −𝟏𝑿′𝒚
𝑏 =1 1 13 4 78 16 24
1 3 81 4 161 7 24
−1
·1 1 13 4 78 16 24
·258
𝑏 =3 14 4814 74 25648 256 896
−1
·1 1 13 4 78 16 24
·258
𝑏 =3 −1 0.125−1 1.5 −0.3750.125 −0.375 0.10156
·1 1 13 4 78 16 24
·258
=−1
−3,9 · 10−14
0.375
Ventas = -1+ 0·PubRRSS+ 0.375·PubTV
𝑅2 ≈ 1
30
31
32
33
34
35