Copyright©2005. Métodos Estadísticos
Modelos LinealesModelos Lineales
Tema 4Tema 4
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Contenido programáticoContenido programático
Modelos basados en datos Entrada-Modelos basados en datos Entrada-SalidaSalida
Modelos linealesModelos lineales Regresión Lineal SimpleRegresión Lineal Simple Regresión MultivariadaRegresión Multivariada Etapas para la construcción de un Etapas para la construcción de un
modelomodelo Test de hipótesisTest de hipótesis
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Naturaleza de los ModelosNaturaleza de los Modelos Los modelos considerados están Los modelos considerados están
caracterizados por un conjunto de caracterizados por un conjunto de datos de entrada-salidadatos de entrada-salida
x1
CAJA NEGRA y
x2
x...
xp
Ausencia de un Ausencia de un modelo físico o modelo físico o matemáticomatemático
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Datos de entrada-salidaDatos de entrada-salida
OBSERVACIONES
Variables de entrada Variables de entrada Variable de Variable de salidasalidaX1 X2.......Xp Y
2 7 12
3 5 2 8 2 7
15
1932
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
PropósitosPropósitos PredicciónPredicción
Comprender mejor el procesoComprender mejor el proceso
Identificar variables significativasIdentificar variables significativas
Visualizar la naturaleza de la relación Visualizar la naturaleza de la relación
entre variables de entrada y salidaentre variables de entrada y salida
Determinar el impacto individual de las Determinar el impacto individual de las
variables de entrada en la respuestavariables de entrada en la respuesta
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Estrategias del ModeladoEstrategias del Modelado
ETAPAS: ETAPAS:
Identificación de la estructura
Estimación de parámetros
Validación del modelo
y = b0+ b1 x1+ b2 x2
Test de validación
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
¿Qué es regresión simple? ¿Qué es regresión simple? Cuantificar el efecto de una variable Cuantificar el efecto de una variable independienteindependiente
X sobre unaX sobre una dependientedependiente Y Y
Ajustar una recta a la nube de datos Ajustar una recta a la nube de datos
Intensidad del efecto está dada por la pendiente de Intensidad del efecto está dada por la pendiente de la recta la recta
Yi=0+1x+i
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5 6
X Y
1 1
2 1
3 2
4 2
5 4
EjemploEjemplo
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
-1
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
-1
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8
E(y)=0+1x
0=Punto en el que la línea corta al eje Y
1=pendiente(intensidad del efecto. Cambio por cada unidad de X)
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s Errores positivos
Errores negativosMatriz de covarianza de = I2
~ N(0,I2).
•Generalmente la distribución de probabilidad de es normal•Los errores asociados a cualquier par de observaciones distintas son independientes
i ~ N(0,2)
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Se quiere estudiar la asociación entre el consumo de sal y la tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. Se obtienen los siguientes datos:
SalSal
(grs (grs diarios)diarios)
Presión Presión arterialarterial
1,81,8 100100
2,22,2 9898
3,53,5 110110
4,04,0 110110
4,34,3 112112
5,05,0 120120
¿Cuáles serían las matrices X, Y y ?
Y = 0 + 1X
0: presión media de los que no toman nada de sal1: cambio de la presión arterial por aumentar un gramo el consumo de sal
¿Qué representan ¿Qué representan 00 y y 11??
??
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Y = X +
E(Y) = X
Var(Y) = I2
Y ~ N(X,I2)
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
¿ Cómo se determina la ¿ Cómo se determina la recta?recta?
Método de mínimos Método de mínimos cuadrados cuadrados
Minimiza la suma de Minimiza la suma de cuadrados de las cuadrados de las diferencias entre las diferencias entre las observaciones y las observaciones y las predicciones del predicciones del modelo es decir modelo es decir minimiza la suma de minimiza la suma de residuales residuales
22 )ˆ(min iiii
YY Residual: i i iY Y
X
Y i
Yi
Yi
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
EstimaciónEstimación
b
X X Y Y
Cov X Y
i ii
N
X Xii
N
X
( )( )
( , )
( )
1
2
1
2
rCov X Y
X Y
( , )
r b X
Y
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Supuestos del modeloSupuestos del modelo Los residuales son independientesLos residuales son independientes
Su valor esperado es 0Su valor esperado es 0
Para algunas pruebas se suponen distribuidos NormalesPara algunas pruebas se suponen distribuidos Normales
La varianza de los residuales es igual para todos lo xLa varianza de los residuales es igual para todos lo x ii (homoscedasticidad).(homoscedasticidad).
Las X son determinísticasLas X son determinísticas
La aleatoriedad de Y se debe a la del residualLa aleatoriedad de Y se debe a la del residual
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
EjemploEjemplo
Age SBP Age SBP Age SBP
22 131 41 139 52 128 23 128 41 171 54 105 24 116 46 137 56 145 27 106 47 111 57 141 28 114 48 115 58 153 29 123 49 133 59 157 30 117 49 128 63 155 32 122 50 183 67 176 33 99 51 130 71 172 35 121 51 133 77 178 40 147 51 144 81 217
X = Edad (AGE) e Y = presión sistólica (SBP)
33 mujeres adultas
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Minimizar suma de Minimizar suma de cuadrados de residualescuadrados de residuales
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
sDescomposición de la suma Descomposición de la suma
de de cuadrados totalescuadrados totales
Total SS SS debido al modelo
( )Y Yii
N
1
2 ( )Y Yii
N
1
2 ( )Y Yii
N
i
1
2
Y
Y
= +
Total SS SS debido al modelo SS residuales
= +
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Si suponemos que x no contribuye con información a la predicción de y, la mejor predicción de y será la media de la muestra
Descomposición de la suma de Descomposición de la suma de cuadrados totalescuadrados totales
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
sDescomposición de la suma de Descomposición de la suma de
cuadrados totalescuadrados totales
150
160
170
180
190
200
210
50 60 70 80 90 100 110
( )Y Yii
N
1
2 ( )Y Yii
N
1
2 ( )Y Yii
N
i
1
2
Total SS SS debido al modelo SS residuales (SSE)
= +
SS Total SS Residual
SS Modelo
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales
Si x contribuye con información a la predicción de y, entonces
SSE < SStotal
De hecho, ¿qué pasa si todos caen en la línea de mínimos cuadrados? SSE = 0
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
sPunto Punto de datosde datos
Valor de Valor de yy
x1x1 x2x2 . . .. . . xpxp Error Error aleatorio no aleatorio no observableobservable
11 yy11 xx1111 xx2121 xx1p1p εε11
22 yy22 xx2121 xx2222 xx2p2p εε22
.. .. .. .. .. ..
.. .. .. .. .. ..
.. .. .. .. .. ..
nn yynn xxn1n1 xxn2n2 xxnpnp εεnn
yy11
yy22
..
..
..
yynn
Y=
εε11
εε 2 2
..
..
..
εε n n
εε =
11 xx1111 xx2121 xx1p1p
11 xx2121 xx2222 xx2p2p
.. .. .. ..
.. .. .. ..
.. .. .. ..
11 xxn1n1 xxn2n2 xxnpnp
X=
β0
β 1 1
..
..
..
β p p
β =
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
yy11
yy22
..
..
..
yynn
Y
εε11
εε 2 2
..
..
..
εε n n
εε
11 xx1111 xx2121 xx1p1p
11 xx2121 xx2222 xx2p2p
.. .. .. ..
.. .. .. ..
.. .. .. ..
11 xxn1n1 xxn2n2 xxnpnp
X β
= * +
β0
β 1 1
..
..
..
β p p
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Medidas de ajuste globalMedidas de ajuste global
2
1
2
12
)(
)ˆ(1
YY
YYR N
ii
i
N
ii
RR22=1-(SS RESIDUAL / TOTAL =1-(SS RESIDUAL / TOTAL SS)SS)
R cuadradoR cuadrado
El valor de R2 aumenta conforme se agregan más variables al modelo. R2 es 1 cuando el número de términos del modelo es igual al número de puntos de datos.
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Medidas de ajuste globalMedidas de ajuste global
R cuadrado R cuadrado ajustadoajustado
1
)(
)ˆ(
12
1
2
1
2
N
YY
pN
YY
AdjR N
ii
i
N
ii
Toma en cuenta tanto el tamaño de la muestra (N) como el número de parámetros del modelo (p)
SS RESIDUALSS RESIDUAL
TOTAL SSTOTAL SS
Grados de libertad totalGrados de libertad total
Grados de libertad del errorGrados de libertad del error
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Aproximadamente el R2 % de la variación total en los valores de y, es explicada por la regresión.
Interpretación de RInterpretación de R22
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
¿¿Cómo se estimaCómo se estima??
pnSSE
MSE
yyXySSE
PyXy
yXXX TT
2
22
1
ˆ
ˆˆ
ˆˆ
ˆ
2min
XySSE
Se minimiza la suma de cuadrados de los Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del errores y se determinan los parámetros del modelomodelo
Operaciones Operaciones matriciales con las matriciales con las matrices de datos matrices de datos arrojan los arrojan los siguientes siguientes estimadores: estimadores: ¿Es computacionalmente costoso calcular esta inversa?
¿De qué depende?
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
El objetivo de una proyección es transformar Y en un espacio n dimensional a un vector tal que esté lo más cerca posible de Y.
= PY donde P es la matriz de proyección.Y
Ejemplos de matrices de proyección:
1/3 1/3 1/31/3 1/3 1/31/3 1/3 1/3
1 0 00 1 00 0 1
Matrices de Matrices de proyecciónproyección
Propiedades: Idempotencia y Simetría
Y Y
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Nivel de hidrocarburo (%) Pureza (%)
X Y
0,99 90,01
1,02 89,05
1,15 91,43
1,29 93,74
1,46 96,73
1,36 94,45
0,87 87,59
1,23 91,77
1,55 99,42
, ,
, ,
, ,
Porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilación
Pureza del oxígeno producido en un proceso de destilación químico
Ejemplo 1
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
86
88
90
92
94
96
98
100
102
0,8 1 1,2 1,4 1,6
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,937155851
Coeficiente de determinación R^2 0,878261088
R^2 ajustado 0,871497816
Error típico 1,08367414
Observaciones 20
ANÁLISIS DE VARIANZA
Grados de
libertadSuma de
cuadradosPromedio de los
cuadrados
Regresión 1 152,498001 152,4980014
Residuos 18 21,138293 1,174349642
Total 19 173,636295
Coeficientes Error típico Estadístico t
Intercepción 74,267 1,589 46,729
Variable X 1 14,966 1,313 11,395
SS residuales (SSE)SS debido al modelo (SSR)
Error cuadrático medio (MSE)
¿Cuál sería la estimación del nivel de pureza si el porcentaje de hidrocarburo es 1%?
Y=74.26+14.97*1= 89.23
n – número de parámetros
n-1
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
70737679828588919497
100103
-1 -0,5 0 0,5 1 1,5 2
Y = 74.26 + 14.97X
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Y x1 x2 x3 x4
240 25 24 91 100
236 31 21 90 95
290 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98
Se piensa que la potencia eléctrica consumida al mes por una planta química está relacionada con la temperatura ambiente promedio (x1), el número de días del mes (x2), la pureza promedio del producto (x3) y las toneladas de producto producidas (x4). Los datos correspondientes al años pasado son las siguientes:
Ejemplo 2
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
sEstadísticas de la regresión
Coeficiente de correlación múltiple 0,86298887
Coeficiente de determinación R^2 0,74474978
R^2 ajustado 0,59889252
Error típico 15,5793327
Observaciones 12
ANÁLISIS DE VARIANZA
Grados de
libertadSuma de
cuadradosPromedio de los
cuadrados
Regresión 4 4957,240744 1239,310186
Residuos 7 1699,009256 242,7156081
Total 11 6656,25
Coeficientes Error típico Estadístico t
Intercepción -102,713236 207,8588509 -0,494148967
Variable X 1 0,60537054 0,368896954 1,641028833
Variable X 2 8,9236442 5,300522238 1,683540564
Variable X 3 1,43745673 2,391620508 0,601038806
Variable X 4 0,01360931 0,733821444 0,018545803
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Prediga el consumo de potencia para un mes en el que x1 = 75oF, x2 = 24 días, x3 = 90% y x4 = 98 toneladas
-102.71+0.60*75+8.92*24+1.43*90+0.0136*98
= 287,5618328
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s Una muestra aleatoria simple de 15 niños aparentemente sanos con edades entre 6 meses y 15 años produjo los siguientes datos con respecto a la edad (X), y el volumen del hígado por unidad de peso corporal (ml/kg), Y:
EdadEdadVol. del Vol. del HigadoHigado
0,50,5 4141
0,70,7 5555
2,52,5 4141
4,14,1 3939
5,95,9 5050
6,16,1 3232
77 4141
8,28,2 4242
1010 2626
10,110,1 3535
10,910,9 2525
11,511,5 3131
21,121,1 3131
14,114,1 2929
1515 2323
Ejemplo 3
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,704398266
Coeficiente de determinación R^2 0,496176917
R^2 ajustado 0,457421296
Error típico 6,770916984
Observaciones 15
ANÁLISIS DE VARIANZA
Grados de
libertadSuma de
cuadradosPromedio de los
cuadrados
Regresión 1 586,9442148 586,9442148
Residuos 13 595,9891185 45,84531681
Total 14 1182,933333
Coeficientes
Intercepción 45,822078
Variable X 1 -1,14589796
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
0
10
20
30
40
50
60
0 5 10 15 20 25
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
0
10
20
30
40
50
60
-10 0 10 20 30
Coeficientes
Intercepción 45,822078
Variable X 1 -1,14589796
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Tipos de ResidualesTipos de Residuales
Ausencia de Ausencia de patronespatrones
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Tendencias en los Tendencias en los residualesresiduales
Re
sid
ua
lX
Y
ComportamientComportamiento cuadráticoo cuadrático
¿Qué hacer?¿Qué hacer? Incluir una variable Incluir una variable
cuadrática en el cuadrática en el modelomodelo
Modelo
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Análisis de residualesAnálisis de residuales
¿¿Homoscedasticidad?Homoscedasticidad?
Predicción
Re
sid
ua
l Grupo 1
Grupo 2Grupo 3
Variabilidad residual Variabilidad residual crecientecreciente
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Intervalos de confianzaIntervalos de confianza Se separan a Se separan a
medida que la medida que la
variable se aleja del variable se aleja del
centro de la centro de la
distribucióndistribución
La extrapolación es La extrapolación es
imprecisaimprecisa
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Modelos LinealesModelos Lineales El modelo lineal (análisis de regresión) es una El modelo lineal (análisis de regresión) es una
metodología para examinar la asociación metodología para examinar la asociación
cuantitativa entre una variable de respuesta cuantitativa entre una variable de respuesta yy
con otras con otras pp variables de predicción variables de predicción xxjj
Donde existen Donde existen nn mediciones de la respuesta mediciones de la respuesta yyii
observadas bajo un conjunto de condiciones observadas bajo un conjunto de condiciones
experimentales de las variables de predicción experimentales de las variables de predicción xxjj
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
FormulaciónFormulación
Los errores Los errores ii son variables aleatorias son variables aleatorias independientes de media 0independientes de media 0
La varianza de los errores La varianza de los errores ii es constante es constante para todas las observacionespara todas las observaciones
La linealidad se establece sobre los La linealidad se establece sobre los parámetros no sobre las variablesparámetros no sobre las variables
2
1
0
ii
p
ji
jiji V E xy
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Modelos lineales y no Modelos lineales y no linealeslineales
)cos()sin(
)sin(
)1(
122
122
212121
2
2
tt dcbtay
btay
exxdxcxbxay
xcbay
xbxay
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
sDos modelos alternativos Dos modelos alternativos
para una data de la población para una data de la población de EEUUde EEUU
2
21
10
añoañoPob cuadrático
añoPob lineal
0
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Etapas para construir Etapas para construir un buen Modeladoun buen Modelado
1.1. Identificación de la estructura de entradaIdentificación de la estructura de entrada
2.2. Formulación y estimación del modeloFormulación y estimación del modelo
3.3. Análisis globalAnálisis global
4.4. Análisis individual de los parámetrosAnálisis individual de los parámetros
5.5. Reformulación del modeloReformulación del modelo
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Etapas del ModeladoEtapas del Modelado
6.6. Seleccionar los mejores modelos alternativosSeleccionar los mejores modelos alternativos
7.7. Estudio de residualesEstudio de residuales
8.8. Coherencia con la realidadCoherencia con la realidad
9.9. Elección del mejor modelo e interpretación del mismoElección del mejor modelo e interpretación del mismo
10.10. PredicciónPredicción
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Identificación de la Identificación de la estructura estructura de entradade entrada
Identificar variables candidatasIdentificar variables candidatas Experiencia experta (tormenta de ideas)Experiencia experta (tormenta de ideas) Correlación de las variables causales con la Correlación de las variables causales con la
respuestarespuesta Estudio de interacción entre las variables Estudio de interacción entre las variables
seleccionadasseleccionadas Análisis de correlación múltiple entre las Análisis de correlación múltiple entre las
variables causalesvariables causales Componentes principalesComponentes principales
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Formulación: Resultados Formulación: Resultados FundamentalesFundamentales
Formulación vectorialFormulación vectorial
20 V E con Xy
Las dimensiones de y, X, Las dimensiones de y, X, , y , y son: son:
YY n*1n*1
XX n*pn*p
p*1p*1
n*1n*1
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Estimación de Parámetros Estimación de Parámetros por mínimos cuadradospor mínimos cuadrados
2ˆvar
ˆ
estimadaianzaLa
estimadosparámetrosLos
¿Qué se estima?¿Qué se estima?
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
¿¿Cómo se estimaCómo se estima??
pn
SSE
ypyXySSE
PyXyp
yXXX TT
2
22
1
ˆ
ˆ
ˆ
ˆ
2min
XySSE
Se minimiza la suma de cuadrados de los Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del errores y se determinan los parámetros del modelomodelo
Operaciones Operaciones matriciales con las matriciales con las matrices de datos matrices de datos arrojan los arrojan los siguientes siguientes estimadores: estimadores:
¡El Software lo ¡El Software lo
Hace por Uds!Hace por Uds!
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Ajuste Global del ModeloAjuste Global del Modelo
SS Y Yii
N
Total ( )
1
2
SS Y Yii
N
model ( )
1
2
SS Y Yii
N
ierror ( )
1
2
X2
X1
Y
Modelo SS
Total SS
Residual SS
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Ajuste Global del ModeloAjuste Global del Modelo
Error medio cuadrático MSE (mean square error)Error medio cuadrático MSE (mean square error)
El coeficiente de determinación R-SquareEl coeficiente de determinación R-Square
El coeficiente de determinación ajustado ADJR-El coeficiente de determinación ajustado ADJR-
SquareSquare
El número de parámetrosEl número de parámetros
1
11 22
2
nSST
pnSSE
AdjRSSTSSE
R
yySSTpn
SSEMSE
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Análisis Individual de los Análisis Individual de los ParámetrosParámetros
i
ii
T
ˆ
ˆtratio XXdiagRMSEˆ
1
Pruebas de hipótesis para determinar si cada Pruebas de hipótesis para determinar si cada
uno de los parámetros es distinto de 0 uno de los parámetros es distinto de 0
Eliminar la que tenga menor tratio Eliminar la que tenga menor tratio mayor p-mayor p-
valuevalue
Las variables en un modelo de regresión Las variables en un modelo de regresión
deben ser deben ser eliminadas de una en unaeliminadas de una en una::
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Estimación del modelo de poblaciónEstimación del modelo de población
añolineal 10Pob
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Estimación del modelo de poblaciónEstimación del modelo de población
2210Pob añoañocuadrático
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Seleccionar los Mejores Seleccionar los Mejores Modelos AlternativosModelos Alternativos
En función de:En función de: Error medio cuadrático MSEError medio cuadrático MSE
El coeficiente de determinación R-SquareEl coeficiente de determinación R-Square
El coeficiente de determinación AdjR-El coeficiente de determinación AdjR-SquareSquare
El número p de variables en el modeloEl número p de variables en el modelo
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
El principio de ParsimoniaEl principio de Parsimonia
““.... everything should be made as .... everything should be made as simple as possible but not simple as possible but not simpler”simpler”
Albert Einstein
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Estudio de ResidualesEstudio de Residuales Graficar los residuales contra cada una de las Graficar los residuales contra cada una de las
variables de entrada en busca de patronesvariables de entrada en busca de patrones La ausencia de patrones es una buena señalLa ausencia de patrones es una buena señal
Comportamiento cuadráticoComportamiento cuadrático
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Estudio de ResidualesEstudio de Residuales
Graficar los residuales contra las prediccionesGraficar los residuales contra las predicciones La ausencia de patrones es una buena señalLa ausencia de patrones es una buena señal
RResiduales del modeloesiduales del modelo
cuadrático decuadrático de
poblaciónpoblación
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
EjemploEjemplo
Age SBP Age SBP Age SBP
22 131 41 139 52 128 23 128 41 171 54 105 24 116 46 137 56 145 27 106 47 111 57 141 28 114 48 115 58 153 29 123 49 133 59 157 30 117 49 128 63 155 32 122 50 183 67 176 33 99 51 130 71 172 35 121 51 133 77 178 40 147 51 144 81 217
X= Edad (AGE) e Y=presión sistólica (SBP)
33 mujeres adultas
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Modelo Lineal de Presión SistólicaModelo Lineal de Presión Sistólica
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
ResidualesResiduales
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Modelo Cuadrático de Presión SistólicaModelo Cuadrático de Presión Sistólica
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
ResidualesResiduales
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Coherencia con la Coherencia con la realidadrealidad
Interpretación de los coeficientes: Interpretación de los coeficientes: jj representa el representa el incremento de la respuesta por unidad de cambio de incremento de la respuesta por unidad de cambio de la variable de entrada la variable de entrada xxjj
El signo de El signo de jj debe corresponder con el tipo de debe corresponder con el tipo de asociación esperada.asociación esperada.
1
p
ji
jiji xy
Condición aeróbica = 00+ + 11 BMI + BMI + 22 pulso pulsoreposoreposo + +
¿Qué signo esperamos de los coeficientes?
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
sComparación final de Comparación final de
modelos posiblesmodelos posibles
síok5.88322.01 II
síok3.87324.73 I
coherenciaresidualesParámetrosAdjR2MSEModelo
Criterios
min minmax
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
sConsumo de oxigeno por unidad de Consumo de oxigeno por unidad de tiempo y peso en una carrera de 2 tiempo y peso en una carrera de 2
kmkm
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Se excluyó RSTPULSESe excluyó RSTPULSE
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Se excluyó WEIGHTSe excluyó WEIGHT
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
Se excluyó MAXPULSESe excluyó MAXPULSE
¿Es un modelo coherente?¿Es un modelo coherente?
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
OKOK33.7901.79012.44062.4406--MAXPULSMAXPULSEE
??44.8117.81172.31162.3116-WEIGHT-WEIGHT
??55.8176.81762.27522.2752--RSTPULSERSTPULSE
??66.8108.81082.31692.3169fullfull
Cohe_Cohe_
renciarencia
Número Número variablevariabless
Ad-jRAd-jR22RMSERMSEmodelmodeloo
Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos
Tem
a 4
. M
odelo
s Li
neale
sTem
a 4
. M
odelo
s Li
neale
s
PredicciónPredicción Se estima la predicción Se estima la predicción Intervalos de confianza de la predicciónIntervalos de confianza de la predicción