Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

download Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

of 78

Transcript of Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    1/78

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    2/78

    Exploración de los datos

    )ntes de realizar cualquier análisis estad5stico formal, primero debemos utilizar un diarama dedispersión para explorar los datos de manera visual. (odemos examinar el diarama de dispersión

     para ver si existen patrones diferentes y valores at5picos, que son los puntos que se alejan muc6ode los demás valores. 7i los puntos raficados muestran un patrón distintivo, podemos concluir que existe una correlación entre las dos variables en una muestra de datos pareados

    /.// /.0/ .// .0/ 4.// 4.0/

    /.//

    /.0/

    .//

    .0/

    4.//

    4.0/

    /.0

    /.20

    .//

    .20.0/

    4.//

    Pizza

    Metro

    FIGURA 2-1. 8iarama de dispersión de los preciosde la pizza y del boleto del metro.

    Coefciente de correlación lineal(uesto que las conclusiones que se basan en el examen visual de los diaramas de dispersión sonmuy subjetivas, necesitamos medidas más objetivas. Empleamos el coeficiente de correlación

    lineal r ,  que sirve para detectar patrones lineales.

    D EF I N I C I Ó N

    El coeficiente de correlación lineal  r  mide la fuerza de la relación lineal entre los valores

    cuantitativos pareados  x   y  y   en una muestra. El coeficiente de correlación lineal

    también se conoce como coeficiente de correlación prodcto !o!ento de Pear"on, en

    6onor de Karl Pearson &301−-2', quien lo desarrolló oriinalmente.

    2

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    3/78

    (uesto que el coeficiente de correlación lineal r  se calcula utilizando datos muestrales, se trata

    de un estadístico muestral empleado para medir la fuerza de la correlación lineal entre  x  y

     y . 7i tuviéramos cada par de los valores poblacionales de  x   y  y , el resultado de la

    fórmula de correlación lineal r   ser5a un parámetro poblacional , representado por  ρ   &laletra riea r6o'.Objetivo

    8eterminar si existe una correlación lineal entre dos variables.

    Notación para la ecuación de regresión

    n=¿ número de pares de datos muestrales.

     Σdenota la suma de los elementos indicados.

     Σ x=¿ suma de todos los valores de  x .

     Σ x2=¿ indica que cada valor de  x  debe elevarse al cuadrado y que después deben

    sumarse.

    ( Σ x )2=¿ indica que los valores de  x   deben sumarse para lueo elevar el total al

    cuadrado. Es sumamente importante evitar confundirse entre  Σ x2

     y ( Σ x )2

    .

     Σ xy=¿ indica que cada valor de  x   debe multiplicarse primero por su valor 

    correspondiente de  y . 8espués de obtener todos estos productos, se calcula la

    suma.

    r=¿ coeficiente de correlación lineal para datos muestrales.

     ρ=¿ coeficiente de correlación lineal para una población de datos pareados.

    Requisitos

    9uando nos enfrentamos a un conjunto de datos cuantitativos muestrales pareados, siempre se

     puede calcular el coeficiente de correlación lineal r , pero se deben satisfacer los siuientes

    requisitos al utilizar los datos muestrales para llear a una conclusión acerca de una correlaciónen la población.

    3

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    4/78

    1. !a muestra de datos pareados ( x , y )  es una muestra aleatoria simple de datos cuantitativos.

    &Es importante que los datos muestrales no se 6ayan reunido por alún método inadecuado,como una muestra de respuesta voluntaria'.

    2. El examen visual del diarama de dispersión debe confirmar que los puntos se acercan al patrón de una l5nea recta.

    #. 9omo los resultados se pueden ver muy afectados por la presencia de valores at5picos, esnecesario eliminar cualquier valor at5pico, si se sabe que se trata de un error. !os efectos de

    cualquier otro valor at5pico deben tomarse en cuenta calculando r   con y sin el valor 

    at5pico incluido.

    órmulas para calcular r

    Fórmula 2-1

    r=Corr ( x , y )=Cov ( x , y )S x S y

    =   Σ ( x i−´ x ) ( y i−´ y )√ [ Σ ( xi−´ x )2 ][ Σ ( y i− ́y )2 ]

    Fórmula 2-2

    r=  Σ x i y i−( Σ xi ) ( Σ y i )/n

    √ [ Σ x i2−( Σ x i )2/n ] [ Σ y i2−( Σ y i )2/n ]

    Fórmula 2-3

    r=

      n ( Σ x i y i )−( Σ x i ) ( Σ y i )

    √ n ( Σ xi2 )−( Σ xi )

    2

    √ n ( Σ yi2 )−( Σ y i )

    2=¿

    Fórmula 2-4

    r= Σ( z x z y)

    n−1

    :tras fórmulas que son ;equivalentes< para el cálculo de r  en el sentido de que todas

     producen los mismos valores.

    r=  1

    (n−1)s x s y∑i=1

    n

    ( x i−´ x ) ( y i−´ y ) ; r=  1

    n−1∑i=1

    n

    [( x i−´ xs x )( y i− ́y

    s y   )]; r=  s xys x s y

    4

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    5/78

    donde z x  es la puntuación  z  para el valor muestral  x , y

     z y  es la puntuación  z

     para el valor muestral  y .

    !nterpretación del coe"iciente de correlación lineal r

    =so de la Tabla 2-A  &al final del tema' para interpretar r . 7i el valor absoluto de r , que se denota

     por |r| , excede el valor en la Tabla 2-A, se concluye que existe una correlación lineal. 8e lo

    contrario, no existe evidencia suficiente para sustentar la conclusión de una correlación lineal.

    ADVERTEC!A

    >ecuerde que los métodos utilizados se aplican a una correlación lineal . 7i concluye que, al parecer, no existe una correlación lineal, es posible que exista alún otro tipo de relación que no

    es lineal.

    Redondeo del coefciente de correlación lineal r

    >edondee el coeficiente de correlación lineal r  a tres decimales &de manera que su valor 

     pueda compararse directamente con los valores cr5ticos de la Tabla 2-A'. )l calcular a manor   y otros estad5sticos, 6acer un redondeo a la mitad de un cálculo suele enerar errores

    importantes, as5 que trate de almacenar los resultados inmediatos y redondee solo 6asta el final.

    "ropiedades del coefciente de correlación lineal r

    1. El valor de r  está siempre entre − y , inclusive. Es decir,

    −1≤ r ≤1 .

    2.  El valor de r   no cambia si todos los valores de cualquiera de las variables se convierten

    a una escala diferente.

    #.  El valor de r  no se ve afectado por la elección de  x   o  y . Intercambie todos los

    valores de  x  y  y , y el valor de r  no sufrirá cambios.

    $.   r   mide la fuerza de una relación lineal. #o está dise*ada para medir la fuerza de una

    relación que no sea lineal.

    5

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    6/78

    %.   r  es muy sensible a los valores at5picos, en el sentido de que un solo valor at5pico puede

    afectar su valor de manera drástica. 

    Valores de r # sus implicaciones

    C$lculo del coefciente de correlación lineal r

    6

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    7/78

    ?ay varios métodos para calcular el valor del coeficiente de correlación lineal r  , pero solo es

    necesario utilizar un método. Se recomienda ampliamente el uso de un programa de cómputocomo el Excel . 7i es absolutamente necesario realizar cálculos a mano, se recomienda el uso de laFór!la 2-#.

    E%emplo 1&  &'lclo de r por !edio de la fór!la 2-# . 9on base en la Fór!la 2-#, calcule

    el valor del coeficiente de correlación lineal r  para los precios pareados de la pizza y del

     boleto del "etro listados en la Tabla 2-1.

    'olución( 7i se utiliza la Fór!la 2-#, el valor de r   se obtiene como se muestra a

    continuación. :bserve que la variable  x  se utilizó para el precio de la pizza, y que la variable

     y   se utilizó para el precio del boleto del metro. 9omo 6ay seis pares de datos n=6 . En la

    Tabla 2-2 aparecen otros valores requeridos.

    TABLA 2-2 Cálculo de r con la fórmula 2 3

     Año

    Precio de

    pizza (

     x i¿

    +arifa del

    "etro

    i

     y¿¿

     x i2

     y i2  x i y i

    -/ /.0 /.0 /./440 /./440 /./440

    -12 /.20 /.20 /.440 /.440 /.440

    -3 .// .// .//// .//// .////

    --0 .40 .20 .040 .3440 .310

    4//4 .10 .0/ 2./40 4.40// 4.40/

    4//2 4.// 4.// @./// @./// @.////

     Σ xi=¿

    .0/

     Σ y i=¿ .

    20

     Σ x i2=¿

    -.11

     Σ y i2=¿ -.

    410

     Σ x i y i=¿

    -.@010

    9on los valores de la Tabla 2-2 y la Fór!la 2-#, calculamos r  como siueA

    r=  n ( Σ x i y i )−( Σ x i ) ( Σ y i )

    √ n ( Σ xi2)−( Σ xi )

    2

    √ n ( Σ yi2 )−( Σ y i )

    2=

      6 (9.4575 )−(6.50 ) (6.35 )

    √ 6 (9.77 )−(6.50 )2

    √ 6 (9.2175 )−(6.35 )2

    7

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    8/78

    r=  15.47

    √ 16.37√ 14.9825=0.988.

    E%emplo 2&  &'lclo de r por !edio de la fór!la 2-1 . 9on base en la Fór!la 2-1, calcule

    el valor del coeficiente de correlación linealr

     para los precios pareados de la pizza y del

     boleto del "etro listados en la Tabla 2-# y los datos de las medias ´ x y ´ y .

    TABLA 2-# Cálculo de r con la fórmula 2 1

     Año

    Precio de

    pizza (

     x i¿

    +arifa del

    "etro

    i

     y¿¿

    ( x i−´ x ) ( y i−´ y )   ( x i−´ x )2 ( y i−´ y )

    2 ( x i−´ x ) ( y i−´ y )

    -/ /.0 /.0   −/.-222   −/.-/32 /.31 /.340 /.3@13

    -12 /.20 /.20   −/.1222   −/.1/32 /.0213 /.0/1 /.0-@

    -3 .// .//   −/./322   −/./032 /.//- /.//2@ /.//@-

    --0 .40 .20 /.1 /.4-1 /./413 /./30 /./@3

    4//4 .10 .0/ /.1 /.@@1 /.@@@@ /.-0 /.4-@@

    4//2 4.// 4.// /.-1 /.-@1 /.3@/2 /.331 /.324

    SUM  (.%) (.#% ).)))) ).)))) 2.*2+# 2.$,*1 2.%*+#

    ´ x= Σ x i

    n

      =6.50

    6

    =1.0833, ´ y= Σ y i

    n

      =6.35

    6

    =1.0583 .

    r=  Σ ( x i−´ x ) ( y i−´ y )

    √ [ Σ ( xi−´ x )2 ] [ Σ ( y i− ́y )2 ]=

      2.5783

    √ (2.7283)(2.4971)=

    2.5783

    2.6101=0.988

    Des)iación est$ndar de una muestra

    !a desviación estándar  es la medida de variación que más se utiliza en estad5stica.

    D EF I N I C I Ó N

    8

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    9/78

    !a de"iación e"t'ndar de un conjunto de valores muestrales, denotada por s , es la

    medida de variación de los valores con respecto a la media. Es un tipo de desviación

     promedio de los valores con respecto a la media, que se calcula utilizando las Fór!la" 2-% y2-(, que alebraicamente son iuales.

    Fórmula 2-*

    s=√ Σ ( x−´ x )

    2

    n−1

    Fórmula 2-+

    s=√n Σ ( x2 )− ( Σ x )2

    n (n−1)

    E%emplo 3&  &'lclo de r por !edio de la fór!la 2-$ . 9on base en la Fór!la 2-$, calculeel valor del coeficiente de correlación lineal r  para los precios pareados de la pizza y del

     boleto del "etro incluidos en la Tabla 2-$.

    =sando la Fór!la 2-% y de la Tabla 2-#, obtenemos las desviaciones de x y de yA

    s x=√ Σ ( xi−´ x )

    2

    n−1  =√ 2.72836−1   =0.7387

    s y=

    √ Σ ( y i− ́y )

    2

    n−1  =√

    2.4971

    6−1  =0.7067

    TABLA 2-$ Cálculo de r con la fórmula 2 4

     Año

    Precio

    de pizza

    (  x i¿

    +arifa del

    "etro

    i

     y¿¿

     z x= x i−´ x

    s x z y=

     y i−´ y

    s y z x ∙ z y

    -/ /.0 /.0   −.42@   −.4302 .42-

    -12 /.20 /.20   −/.--41   −.//42 /.--@-

    -3 .// .//   −/.43   −/./340 /.//-2

    --0 .40 .20 /.4401 /.@43 /./-2

    4//4 .10 .0/ /.-/40 /.40/ /.0@

    4//2 4.// 4.// .4@/ .2240 .02

    9

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    10/78

    SUMA .0/ .20 Σ ( z x z y )=¿ @.

    -2-/

    ´ x= Σ x i

    n  =

    6.50

    6=1.0833, ´ y=

     Σ y i

    n  =

    6.35

    6=1.0583 .

    7i sumamos Σ ( z x z y )=¿ @.-2-/ de la Tabla 2-$, el valor de r  se calcula utilizando la

    Fór!la 2-$, como se muestra a continuación.

    r= Σ( z x z y)

    n−1=

    4.939

    6−1=0.988

    !nterpretación del coefciente de correlación lineal r

    8espués de calcular el coeficiente de correlación lineal

    r

    , necesitamos interpretar susinificado. (odemos basar nuestra interpretación en un valor ( &(robabilidad' o en un valor cr5tico de la Tabla 2-A  . )l utilizar dic6a tabla, concluimos que existe una correlación lineal si|r|  excede el valor utilizado en la tabla. Esto equivale a la condición de que r  es mayor 

    que el valor de la Tabla 2-A o menor que el neativo del valor de dic6a tabla. Es útil considerar los valores cr5ticos de la Tabla 2-A como positivos y neativos. (ara los datos del precio de la

     pizza y del boleto del "etro, la tabla produce r=0.811  &para seis pares de datos y un nivel de

    sinificancia de /./0'. )s5, podemos comparar el valor calculado de r=0.988  con los valores

    de ±0.811 , como se observa en la Fira 2-2.

    FIGURA 2-2. Balores cr5ticos de la Tabla 2-A y el valor calculado de r.

    !nterpretación de r( Variación explicada

    10

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    11/78

    7i concluimos que existe una correlación lineal entre  x   y  y , podemos obtener una

    ecuación lineal que exprese  y   en términos de  x , y la ecuación puede utilizarse para

     predecir valores de  y   a partir de los valores dados de  x .

    /l alor de r2

     e" la proporción de la ariación de  y 0 "e

    eplica por la relación lineal entre  x    y .

    E%emplo 4&  3ariación eplicada. 9on los datos de los precios de la pizza y del boleto del

    "etro, encontramos que el coeficiente de correlación lineal es r=0.988 . CDué proporción de

    la variación en el precio del boleto del "etro puede explicarse por la variación en el precio de larebanada de pizza

    'olución(

    9on r=0.988 , obtenemos r2=0.976

    !nterpretación& 9oncluimos que /.-1 &o aproximadamente el -3F' de la variación en el precio de un boleto del "etro puede explicarse por la relación lineal entre los precios de la pizzay del boleto del "etro. Esto implica que cerca del 4F de la variación de los precios del boleto del"etro no puede explicarse por los precios de la pizza.

    "rue,a de ipótesis para una correlación lineal .uso del estad/stico

    de prue,a r0

    Notación

    n=¿  #úmero de pares de datos.

    r=¿  9oeficiente de correlación lineal para una muestra de datos pareados.

     ρ=¿   9oeficiente de correlación lineal para una población de datos pareados.

    Requisitos

    7e aplican los mismos requisitos que pare el coeficiente de correlación lineal.

    #ipótesis H 

    0: ρ=0

      o existe una correlación lineal'

     H 1: ρ ≠0

      &Existe una correlación lineal'

    11

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    12/78

    $stad%stico de prueba & r

    3alore" cr4tico"5 >em5tase a la Tabla 2-A.

    Conclusión

    • 7i |r|>¿   el valor cr5tico de la Tabla 2-A, rec6ace  H 0   y concluya que no existe

    evidencia suficiente para sustentar la afirmación de una correlación lineal.

    • 7i |r|≤   el valor cr5tico de la Tabla 2-A, no rec6ace  H 0   y concluya que no 6ay

    evidencia suficiente para sustentar la afirmación de una correlación lineal.

    E%emplo *&  Preba de 6ipóte"i" con lo" precio" del boleto del Metro de la pizza . =tilicelos datos pareados de los precios de la pizza y del boleto del "etro para someter a prueba laafirmación de que existe una correlación lineal entre el precio de una rebanada de pizza y el

     precio de un boleto del "etro. =tilice un nivel de sinificancia de /./0.

    'olución(

    )firmar que existe una correlación lineal equivale a aseverar que el coeficiente de correlación

    lineal población  ρ  es diferente de /. (or lo tanto, tenemos las siuientes 6ipótesisA

     H 0: ρ=0

      o existe una correlación lineal'

     H 1: ρ ≠0

      &Existe una correlación lineal'

    El estad5stico de prueba es r=0.988 . El valor cr5tico de r=0.811  se encuentra en la

    Tabla 2-A con n=6  y α =0.05 . (uesto que |0.988|>0.811 , rec6azamos  H 0: ρ=0 .

    &El rec6azo de ;ninuna correlación lineal< indica que existe una correlación lineal'.

    !nterpretación& 9oncluimos que existe evidencia suficiente para sustentar la afirmación deuna correlación lineal entre los precios de una rebanada de pizza y los precios del boleto del"etro.

    todo del )alor " para la prue,a de ipótesis deuna correlación

    El método de prueba de 6ipótesis anterior supone cálculos relativamente sencillos. !os (aquetesde cómputo suelen utilizar el método del valor P  basado en una prueba t . !os siuientes son loscomponentes fundamentales de una prueba t.

    12

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    13/78

    "rue,a de ipótesis para una correlación lineal .uso del )alor " deuna prue,a t0

    #ipótesis H 

    0: ρ=0

      o existe una correlación lineal'

     H 1: ρ ≠0

      &Existe una correlación lineal'

    $stad%stico de prueba

    t =  r

    √ 1−r2

    n−2

    .

    3alor PA =tilice un prorama de cómputo o la Tabla 2-B &al final del tema' con n−2  rados

    de libertad para calcular el ( correspondiente al estad5stico de prueba t  .

     Conclusión

    • 7i el valor ( es menor que o iual al nivel de sinificancia, rec6ace H 0  y concluya que

    existe evidencia suficiente para sustentar la afirmación de una correlación lineal.

    • 7i el valor de ( es mayor que el nivel de sinificancia, no rec6ace H 

    0  y concluya que no

    6ay evidencia suficiente para sustentar la afirmación de una correlación lineal.

    E%emplo +&  Preba de 6ipóte"i" con lo" precio" del boleto del Metro de la pizza . =tilicelos datos pareados de los precios de la pizza y del boleto del "etro y utilice el método del valor ( para someter a prueba la afirmación de que existe una correlación lineal entre el precio de unarebanada de pizza y el precio de un boleto del "etro. =tilice un nivel de sinificancia de /./0.

    'olución(

    )firmar que existe una correlación lineal equivale a aseverar que el coeficiente de correlación

    lineal población  ρ  es diferente de /. (or lo tanto, tenemos las siuientes 6ipótesisA

     H 0: ρ=0   o existe una correlación lineal' H 

    1: ρ ≠0

      &Existe una correlación lineal'

    El coeficiente de correlación lineal es r G /.-33 y n G &porque 6ay seis pares de datosmuestrales'. 8e manera que el estad5stico de prueba esA

    13

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    14/78

    t =  r

    √ 1−r2

    n−2

    =  0.988

    √ 1−0.9882

    6−2

    =12.793

    !os paquetes de cómputo utilizan mayor precisión para obtener el estad5stico de prueba másexacto de t G4.-4. 9on @ rados de libertad, la Tabla 2-B  &al final del tema' indica que elestad5stico de prueba t G 4.1-2 produce un valor  P  que es menor que /./. !os paquetes decómputo dan un valor ( de /.///44. 9omo el valor de ( es menor que el nivel de sinificancia de/./0, rec6azamos ?/.

    !nterpretación&  9oncluimos que existe evidencia suficiente para sustentar la afirmación deuna correlación lineal entre el precio de una rebanada de pizza y el precio del boleto del metro.

    so del Excel para o,tener el coefciente de

    correlación lineal el estad/stico de prue,a t  # el)alor de la pro,a,ilidad ."0

    "rimer paso. 9apturar la tabla de datos anterior en Excel y seleccionar del menú principal laopción 7ato"8An'li"i" de dato". En la ventana de An'li"i" de dato" se selección Rere"ión.

    En la ventana de ;>eresión< seleccionar en  Rango de entrada los datos de (>E9I: 8E(IHH) &)A)1', en  Rango ! de entrada se seleccionan los datos de +)>I) 8E! "E+>:&JAJ1', marcar la opción de Rótulos si queremos reservar también las celdas con los nombres delas variablesK y en "pciones de salida  marcamos  En una #o$a nuevaK se da clic en el botón %ceptar .

    14

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    15/78

    8espués de 6acerlo, obtenemos los siuientes resultadosA

    2.2. Conceptos básicos de regresión

    En esta sección, describimos la ecuación de la recta que se ajusta mejor a los datos muestrales pareados. 8ic6a fórmula describe alebraicamente la relación entre las dos variables. ) la rectacon el mejor ajuste se le conoce como recta de reresión y su ecuación se denomina ecuación dereresión. Es posible raficar la ecuación de reresión en un diarama de dispersión paradeterminar de manera visual qué tan bien se ajusta a los datos. +ambién se presentan métodos para 6acer predicciones a partir de la ecuación de reresión.

    15

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    16/78

    'n problema de regresión simple

    (ara explicar los conceptos básicos, empezaremos con un experimento para determinar la

    relación entre dos variables  x   y  y ,  x  actúa como una variable independiente cuyos

    valores son controlados por el experimentador, mientras que y

     depende de x

    , y está sujetaa las fuentes incontrolables de error.

    !a variable independiente  o controlada  también se llama la variable predictora  y se

    denota por  x . El efecto o variable de respuesta se denota por y.

    !a dependencia de  y  sobre  x  es unidireccional, por lo que trataremos principalmente con

    situaciones en las que los valores de  x  se establecen sin un error apreciable. &9asos en los que

    tanto  x  como  y  son ajenas a la voluntad del experimentador y sólo pueden ser observados

     por muestreo aleatorio'. (ara una discusión más concreta suponemos que n   automóviles

    "ustan se utilizan en un experimento. !a cantidad de óxidos de nitróeno que cada ve65culo

    emite se mide primero sin el aditivo. ) continuación, una determinada cantidad  x  del aditivo

    se utiliza en un tanque de asolina lleno y se mide de nuevo la emisión de óxidos de nitróeno.

    Enseuida la reducción en la cantidad de óxidos se reistra como la variable de respuesta  y .

    !os datos se pueden oranizar como en la Tabla 2-%A

    TABLA 2-%.F9RMA 7/ L9: 7AT9:

    9antidad de aditivo  x  x

    1  x

    2  x

    3   ⋯  xn

    >educción de óxidos de nitróeno

     y y

    1   y2   y3   ⋯   yn

    9omo ejemplo numérico, consideramos los datos de la Tabla 2-(  como las observacionesobtenidas en un experimento con n=10   automóviles. !a cantidad de aditivo  x   y la

    reducción de óxidos de nitróeno  y   se mide con las unidades adecuadas. 7iete diferentes

    niveles de  x  se incluyen en el experimento, y alunos de estos niveles se repiten para más de

    un automóvil. =n vistazo a la tabla nos muestra que  y  eneralmente aumenta con  x , pero

    16

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    17/78

    es dif5cil decir muc6o más acerca de la forma de la relación simplemente viendo estos datostabulares.

    TABLA 2-(.7AT9: 7/ LA &A;TI7A7 7/ A7ITI39 < LA R/7U&&I=; 7/

     9>I79: 7/ ;ITR=G/;9 /; 1) AUT9M=3IL/:

    9antidad de aditivo  x 4 2 @ @ 0 1

    >educción de óxidos de nitróeno

     y 4. 4.0 2. 2./ 2.3 2.4 @.2 2.- @.@ @.3

    Representación de los datos

    En el estudio de la relación entre dos variables, el primer paso lóico es representar los datoscomo puntos. !a fiura resultante, llamada diarama de dispersión, indica si los puntos searupan en torno a una l5nea recta o a una curva y también nos dan una impresión visual de la

    manitud de la variación con respecto a la l5nea o a la curva. En la mayor5a de las situaciones no6ay una relación teórica a priori conocida para aplicarla, as5 que la información representada enel diarama de dispersión es útil en la búsqueda de un modelo matemático adecuado.

    El diarama de dispersión de las observaciones en la Tabla 2.( aparece en la Fira 2.#. Estediarama de dispersión revela que la relación es aproximadamente lineal por naturalezaK es decir,los puntos parecen aruparse en torno a una l5nea recta. 8ebido a que una relación lineal es larelación más simple para manejarse matemáticamente, se presentan los detalles del análisis dereresión estad5stica para este caso. :tras situaciones a menudo pueden reducirse a este caso por la aplicación de transformaciones adecuadas para una o ambas variables.

    Es importante 6acer el siuiente recordatorioA

     El primer paso en el análisis

    En la investiación de la relación entre dos variables, la ráfica de un diagrama de

    dispersión es un importante paso previo que se debe realizar antes de comenzar un análisis

    estad5stico formal. =n diarama de dispersión da una idea de la naturaleza de la relación

    mostrada por los datos.

    17

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    18/78

    Fira 2.#. 8iarama de dispersión

    2&2&1& Re5resión lineal simple por m/nimos cuadrados

    Objetivo

    9alcular la ecuación de una recta de reresión.

    Notación para la ecuación de regresión

    Parámetro poblacional Estadstico muestral

    Intersección de la ecuación de regresión con el eje

     y  β

    0  b

    0

    Pendiente de la ecuación de regresión  β

    1  b

    1

    Ecuación de la recta de regresión   ̂y= β

    0+ β

    1 x    ̂y=b

    0+b

    1 x

    Requisitos

    1. !a muestra de datos pareados &   x , y ¿  es una muestra aleatoria de datos cuantitativos.

    2. El examen visual del diarama de dispersión indica que los puntos se aproximan al patrón deuna l5nea recta.

    18

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    19/78

    #. !os valores at5picos pueden tener un ran efecto sobre la ecuación de reresión, por lo que sedebe eliminar cualquier valor at5pico, si se sabe que es un error. Es importante tomar encuenta los efectos de cualquier valor at5pico que no sea un error conocido.

    órmulas para calcular la pendiente b1  y la intersección con el eje y( b0 (

    en la ecuación de regresión ̂y=´ y−b

    1 ´ x

    Fórmula 2-6 Pendiente5   b1=rs y

    s x

    8onde r   es el

    coeficiente de correlación

    lineal,s y  es la

    desviación estándar de los

    valores de  y , ys x  

    es la desviación estándar

    de los valores de  x .

    Formula 2-7 Inter"ección con el e?e y5   b0=´ y−b1 ´ x

    D EF I N I C I Ó N

    1.2. ) partir de un conjunto de datos muestrales pareados, la ecación de rere"ión#.

     ̂y i=b0+b1 x

    describe alebraicamente la relación entre las dos variables

     x

      e

     y

    . !a ráfica de laecuación de reresión se denomina recta de reresión &o recta del me$or a$uste o recta de

    mínimos cuadrados'.

    19

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    20/78

    !a ecuación de reresión expresa una relación entre  x   &llamada ariable eplicatia0

    ariable de predicción o ariable independiente' y  ̂y   &llamada ariable de re"pe"ta o

    ariable dependiente'. !a definición anterior indica que en estad5stica, la ecuación t5pica de una

    l5nea recta  y=mx+b  se expresa en la forma  ̂y=b0+b1 x .

    7upona una l5nea arbitraria ̂y=b

    0+b

    1 x

      en el diarama de dispersión, como se muestra en la

    Fira 2-$. (ara el valor  x i  de la variable controlada, el valor  ̂y i   del modelo para esta

    l5nea esb0+b

    1 x i  , donde el valor observado  y   es

     y i . $ la distancia entre estos valores

    es d i= y i−b0−b1 x i , que es la distancia vertical del punto a la l5nea.

    b05 9rdenada en el orien. (unto de corte con el eje de ordenadas o ;eje y

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    21/78

    FIGURA 2-$. 8esviaciones de las observaciones a partir de una l5nea  y G a N bx  .

    !a pendiente de la rectab1 en la Fira 2.$ esA

    b1=

      ̂y i− y0 x i− x0

    de donde y

    0=b

    0   y x

    0=0

    , despejando para ̂y i A

    b1=

      ̂y i−b0 x i−0

     ̂y i=b0+b1 x i

    21

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    22/78

    !a recta de reresión es la que se obtiene a partir de la nube de puntos y es la que representamejor la distribución de esos puntos como modelo lineal.

    7e suele emplear el método de los  &ínimos 'uadrados, que consiste en encontrar aquella rectatal que la suma de los cuadrados de las distancias, d i , de los puntos a la recta sea la m5nima

     posible. d i2=d1

    2+¿d22+%+di

    2+%+dn2⇒ M&nimo

    ∑i=1

    n

    ¿

    !a función eleida para aproximar la relación entre variables es una recta, es decirA ̂y=b

    0+b

    1 x

    .

    7I:TA;&IA @ 9B:/R3A&I=; M97/L9

    En la Fira 2-$ se observa queA

    b

    (¿¿0+b1 x i)+di y i= ̂y i+d i=¿

    de donde,d i= y i− ̂yi= yi−b0−b1 x i .

    9onsiderando todas las distancias de todos los n puntos, se tieneA

    b

    (¿¿0+b1 x i) y i−¿¿¿2¿¿

    d i2=∑

    i=1

    n

    ¿

     '=∑i=1

    n

    ¿

    22

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    23/78

    !a manitud de  '  obviamente depende de la l5nea dibujadaK en otras palabras, depende de

    b0  y de

    b1 , las dos cantidades que determinan la l5nea. =n buen ajuste ocurre cuando  '

    es lo más peque*a posible.

     El Principio de &ínimos 'uadrados

    El principio de m5nimos cuadrados consiste de la determinación de los valores de los

     parámetros desconocidos que 6aan m5nima la distancia total.

    !a distancia total  '  se define comoA

     (!s)!st# obs!rv#d#− (!s)!st#

    ∑ (¿d!" mod!"o)2

     '=¿

    donde la respuesta pronosticada involucra los parámetros desconocidos del modelo. !os valores

    de los parámetros determinados se llaman estimaciones por mínimos cuadrados.

    El objetivo es minimizar la suma total de las distancias. 7e trata de encontrar la recta que 6aa

    m5nimos las distancias &errores o residuos' para todas las observaciones. !a distancia, d  , la

    6emos definido como la diferencia entre el valor real    y i   y el valor obtenido &valor estimado o

    valor ajustado' con la recta de reresión que se denota poniendo un acento circunflejo encima de

    la variable, ̂y i .

    b

    (¿¿0+b1 x i)= y i−b0−b1 x id i= y i− ̂y i= y i−¿

    .

    9omo se cometerán errores en todas las observaciones, podr5amos buscar los valores deb0  y

    b1  que 6acen m5nima la suma o la media de todas las distancias, aunque es fácil comprobar 

    que en estos modelos la suma y la media son iual a /. !as alternativas ser5an sumar o 6acer lamedia de los valores absolutos de estas distancias, o bien la de las distancias al cuadradoK por sencillez a la 6ora de derivar el criterio que adoptamos es éste último, es decir, vamos a buscar 

    los valores deb0  y

    b1  que 6aan m5nima la suma de todos los errores al cuadrado, es lo

    que se conoce como el criterio de "5nimos 9uadradosA

    23

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    24/78

    b

    (¿¿0+b1 x i) y i−¿¿¿2¿¿

    d i2=¿ Minb0 , b1∑

    i=1

    n

    ¿

     Minimiz#r '= Minb0

    , b1∑i=1

    n

    ¿

     8erivando con respecto a ;  b

    0 < y a ;  b1 < e iualando con cero, se obtieneA

    b1 xi

    ¿ y i−b0−¿¿

    (¿ y i−b0−b1 x i)=02(−1)¿

    * '

    * b0

    =∑i=1

    n

    ¿

     xi(¿ y i−b0−b1 x i)=0

    ¿ y i−b0−b1 x i¿2−1=−2

    ∑i=1

    n

    ¿

    2(− x i)¿

    * '

    * b1

    =∑i=1

    n

    ¿

    8ividiendo por −2, resulta un sistema de dos ecuaciones lineales con dos incónitas

    (b0 , "#ord!n#d# #" ori+!n y b1 , "# !ndi!nt!d! "#"&n!#r!$t#) .

    (¿ y i−b0−b1 x i)=0(2−9)

    ∑i=1

    n

    ¿

    24

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    25/78

     x i(¿ yi−b0−b1 x i)=0 (2−10)

    ∑i=1

    n

    ¿

    El cual desarrollado queda de la siuiente formaA

    ∑i=1

    n

     y i−∑i=1

    n

    b0−∑

    i=1

    n

    b1 x i=0(2−11)

    ∑i=1

    n

     x i yi−∑i=1

    n

    b0 x i−∑

    i=1

    n

    b1 x i

    2=0(2−12)

    7i, ∑i=1

    n

    b0=n b0 , se tieneA

    n b0+b

    1∑i=1

    n

     x i=∑i=1

    n

     y i(2−13)

    b0∑

    i=1

    n

     x i+b1∑i=1

    n

     xi2=∑

    i=1

    n

     xi y i(2−14 )

    >esolviendo para el parámetro desconocido ;   b0 < de la ecuación (2−13) A

    −n b0=−∑

    i=1

    n

     y i+b1∑i=1

    n

     x i

    8espejando ;  b

    0

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    26/78

    ( ´ y−b1 ´ x )∑i=1

    n

     x i+b1∑i=1

    n

     xi2=∑

    i=1

    n

     xi y i

     x i−¿b1 ´ x

    ∑i=1

    n

     x i+b1

    ∑i=1

    n

     xi2=

    ∑i=1

    n

     x i y i

    ´ y∑i=1

    n

    ¿

    "ultiplicando y dividiendo los dos primeros términos del primer miembro de esta última

    ecuación por n A

    n ´ y ( 1n∑i=1n

     x i)⏟

    ´ x

    −b1n ´ x ( 1n∑i=1

    n

     x i)⏟

    ´ x

    +b1∑

    i=1

    n

     xi2=∑

    i=1

    n

     xi y i

    7implificando,

    n ´ y ´ x−b1

    n ´ x2+b1∑

    i=1

    n

     x i2=∑

    i=1

    n

     x i y i

    b1(∑i=1

    n

     x i2−n ´ x2)=∑

    i=1

    n

     x i y i−n ́y ´ x

    b1=∑i=1

    n

     x i yi−n ´ y ´ x

    ∑i=1

    n

     x i2−n ´ x2

    =S xy

    S x

    2

    =rS y

    S x

    $ obtenemos que la recta de reresión de  y sobre x es ̂y=b

    0+b

    1 x

      con los valores deb0  y

    b1 anteriormente calculadosA

    7i,

     ̂y=b0+b

    1 x=( ´ y−b1 ´ x )+b1 x=´ y+b1 ( x−´ x )=´ y+( S xyS

     x2 ) ( x−´ x )

    es decir,

    26

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    27/78

     ̂y−´ y= ( S xyS x

    2 )⏟

     !ndi!nt!

    ( x−´ x )

    que ser5a la misma recta pero expresada en punto pendiente. ) la pendienteb1  de la recta de

    reresión  ̂y  sobre x se le denomina coeficiente de reresión de y sobre x.

    89TEC!: DE; 8DE;8 DE RE

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    28/78

    siA

     M =

    [

      n   ∑i=1

    n

     xi

    ∑ x=1

    n

     x i   ∑i=1

    n

     xi2

    ]entonces,

     M −1=

    [

      ∑i=1

    n

     x i2

    n∑i=1

    n

     xi2−∑

    i=1

    n

     x i∑ x=1

    n

     x i

    −∑i=1

    n

     x i

    n∑i=1

    n

     x i2−∑

    i=1

    n

     xi∑i=1

    n

     x i

    −∑i=1

    n

     xi

    n∑i=1

    n

     xi2−∑

    i=1

    n

     x i∑i=1

    n

     x i

    n

    n∑i=1

    n

     x i2−∑

    i=1

    n

     xi∑i=1

    n

     x i

    ] M −1=[

      ∑i=1

    n

     xi2

    n∑i=1

    n

     xi2−

    (∑i=1

    n

     x i

    )

    2

    −∑i=1

    n

     x i

    n∑i=1

    n

     x i2−

    (∑i=1

    n

     x i

    )

    2

    −∑i=1

    n

     x i

    n∑i=1

    n

     xi2−(∑

    i=1

    n

     x i)2

    n

    n∑i=1

    n

     x i2−(∑

    i=1

    n

     x i)2 ]

    (remultiplicando por la matriz inversa ambos miembros del sistema de ecuaciones #A

    28

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    29/78

     M 

    −1

     M ⏟ M#triz   [

    b0

    b1]=[

      ∑i=1

    n

     x i2

    n∑i=1

    n

     x i2−(∑

    i=1

    n

     x i)2

    −∑i=1

    n

     x i

    n∑i=1

    n

     x i2−(∑

    i=1

    n

     x i)2

    −∑i=1

    n

     xi

    n∑i=1

    n

     x i2−(∑

    i=1

    n

     x i)2

    n

    n∑i=1

    n

     x i2−(∑

    i=1

    n

     x i)2 ][ ∑i=1

    n

     y i

    ∑i=1

    n

     xi y i

    ]de donde,

    b0=∑i=1

    n

     y i∑i=1

    n

     x i2−∑

    i=1

    n

     x i∑i=1

    n

     x i y i

    n∑i=1

    n

     xi2−(∑

    i=1

    n

     x i)2

    b1=

    n∑i=1

    n

     x i yi−∑ x=1

    n

     x i∑i=1

    n

     y i

    n∑i=1

    n

     x i2−

    (∑i=1

    n

     x i

    )

    2

    =na vez que evaluamosb0  y

    b1 , podemos identificar la ecuación de la recta de reresión

    estimada, la cual tiene la siuiente propiedad especialA la recta de regresión es la que me$or sea$usta a los puntos muestrales.

    DER!VAC!8 DE ;A' E'T!AC!8E' DE =!8' CADRAD8' ,> ? ,1

    8e acuerdo con el principio de m5nimos cuadradosA

     '= Σ ( (!s)!st#obs!rv#d#− (!s)!st# d!" mod!"o )2

     '=∑i=1

    n

    d i2=∑

    i=1

    n

    ( y i−b0−b1 x i )2

    29

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    30/78

    (odemos determinar las cantidadesb0  y

    b1  tal que  '=∑

    i=1

    n

    ( y i−b0−b1 xi )2

     sea

    minimizada.

    d i2=¿ Minb0 , b1∑

    i=1

    n

    ( y i−b0−b1 x i )2

     Minimiz#r '= Minb0 ,b1∑i=1

    n

    ¿

    (rimero escribimosA

     y i−b0−b1 x i= y i−b0−b1 x i+ ( ́y−´ y )+(b1 ´ x−b1 ´ x )

    ¿ ( yi−´ y )−b1 ( xi−´ x )+( ´ y−b0−b1 ´ x )

    Elevando al cuadrado ambos lados de la ecuación anterior, se obtieneA

    ( y i−b0−b1 x i )2=[ ( y i−´ y )−b1 ( x i−´ x )+( ´ y−b0−b1 ´ x ) ]

    2

    ¿ [ ( y i−´ y )−b1 ( x i−´ x )+( ´ y−b0−b1 ´ x ) ] [ ( y i− ́y )−b1 ( x i−´ x )+( ´ y−b0−b1 ´ x) ]

    ¿ ( y i−´ y )2−b

    1 ( xi−´ x ) ( yi−´ y )+( y i− ́y) ( ´ y−b0−b1 ´ x)−b1 ( x i−´ x ) ( y i−´ y )

      +b12 ( x i−´ x )

    2−b1 ( x i−´ x ) ( ´ y−b0−b1 ´ x )+( y i− ́y )( ´ y−b0−b1 ´ x )

    −b1 ( x i−´ x ) ( ´ y−b0−b1 ´ x )+( ´ y−b0−b1 ´ x)

    2

    7umando términos semejantesA

    ( y i−b0−b1 x i )2=( y i− ́y )2+b12 ( xi−´ x )2+( ´ y−b0−b1 ´ x )2

    −2b1 ( x i−´ x ) ( y i−´ y )−2b1 ( x i−´ x ) ( ´ y−b0−b1 ´ x )+2 ( y i−´ y ) ( ´ y−b0−b1 ´ x)

    )6ora sumamos ambos lados de la ecuación sobre i=1,% , n .

    30

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    31/78

     '=∑i=1

    n

    ( y i−b0−b1 xi )2=∑

    i=1

    n

    ( y i−´ y )2+b

    1

    2∑i=1

    n

    ( x i−´ x )2+∑

    i=1

    n

    ( ´ y−b0−b1 ´ x )2

    −2b1

    ∑i=1

    n

    ( xi−´ x ) ( y i−´ y )−2b1 (  ́y−b0−b1 ´ x )∑i=1

    n

    ( xi−´ x)+2 ( ´ y−b0−b1 ´ x )∑i=1

    n

    ( y i− ́y )

    (or sencillez en la presentación de esta fórmula introducimos las siuientes nociones básicas.

     (ociones básicas

    ´ x=1

    n Σ xi

    ´ y=1

    n Σ y i

    s x2= Σ ( xi−´ x )2= Σ x i2−2 ´ x Σ x i− Σ ´ x2= Σ x i2−2n ´ x  Σ x in   −

     Σ ´ x2

    ¿ Σ x i2−2n ´ x ´ x−n ´ x2= Σ xi

    2−2n ´ x2−n ´ x2= Σ x i2−n ´ x2

    s y2= Σ ( y i−´ y )

    2= Σ y i

    2−2 ´ y Σ y i− Σ y2= Σ y i

    2−2n ́y Σ y i

    n  − Σ  ́y2

    ¿ Σ y i2−2n ´ y  ́y−n ´ y2= Σ y i

    2−2n ´ y2−n ´ y2= Σ y i2−n ´ y2

    s xy= Σ ( x i−´ x ) ( y i− ́y )= Σ ( x i y i−´ y x i−´ x y i+´ x  ́y )

    ¿ Σ x i yi−´ y Σ x i−´ x Σ y i+ Σ ´ x ´ y

    ¿ Σ x i yi−n ´ y Σ x i

    n  −n ´ x

     Σ yi

    n  + Σ ´ x  ́y

    ¿ Σ x i yi−n ´ y Σ x i

    n

      −n ´ x Σ yi

    n

      + Σ ´ x  ́y

    ¿ Σ x i yi−n ´ x ´ y−n ´ x ´ y+n ´ x ´ y

    ¿ Σ x i yi−n ´ x ´ y  

    31

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    32/78

    :bservamos que los dos últimos términos en el lado derec6o de la fórmula desaparecen después

    de la suma, porque Σ ( x i−´ x )=0  y  Σ ( yi−´ y )=0 . (or lo tanto, tenemosA

     '=s y2+b

    1

    2s x2+n ( ´ y−b0−b1 ´ x )

    2−2b1

    s xy

    reordenamos los términosA

     '=n ( ´ y−b0−b1 ´ x )2+(b1

    2s x2−2b

    1s xy )+s y

    2

    y completamos un cuadradoA

     '=n ( ´ y−b0−b1 ´ x)2+(b12s x2−2b1 s xy+ s xy

    2

    s x2 )+s y2− s xy

    2

    s x2

     '=n ( ´ y−b0−b1 ´ x)2+(b1 s x− s xys x )

    2

    +(s y2− s xy2

    s x2 )

    El último término no involucra ab0   y

    b1 . !os primeros dos términos pueden reducirse al

    valor m5nimo de cero, si establecemos queA

    ´ y−b0−b

    1´ x=0

    entonces,b0=´ y−b

    1´ x

    además,

    b1

    s x− s xy

    s x=0∴b

    1s x=

    s xy

    s x

    de donde,

    b1=Cov ( x , y )

    /#r ( x)  = s xy

    s x2 = Σ x i y i−n ´ x  ́y

     Σ x i2−n ´ x2

    E%emplo 6. En la aplicación del método de m5nimos cuadrados para el siuiente conjunto de

    datos ( x , y ) , es conveniente calcular primero las cantidades básicas ´ x , ´ y , s x2

      ys xy .

    32

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    33/78

    !ueo se usan la fórmula ̂y=b

    0+b

    1 x

      para obtener la recta de reresión de m5nimos

    cuadrados.

     xi

      yi   xi

    2  xi y

    i

    4. 4. 4.0 4.0

    4 2. @ .42 2./ - -./

    @ 2.3 0.4@ 2.4 4.3

    0 @.2 40 4.0 2.- 2 42.@

    @.@ 2 4.@

    1 @.3 @- 22. Σ G

    2-20. -2 04.1

    Entonces

    ´ x=39

    10=3.9, ´ y=

    35.1

    10=3.51,∑

    i=1

    n

     x i y i=152.7,∑i=1

    n

     x i2=193,

    determinamos primero b1  y después b0 :

    b1=

     s xy

    s x2 =

     Σ x i y i−n ´ x  ́y

     Σ x i2−n ´ x2

      =152.7−(10)(3.9)(3.51)

    193−(10)(3.9)2  =

    15.81

    40.9=0.387

    b0=´ y−b

    1´ x=3.51− (0.387 ) (3.9 )=2.

    !a ecuación de la recta ajustada por el método de m5nimos cuadrados esA

     ̂y=b0+b

    1 x=2+0.387 x

    .

    Compro,ación de la linealidad

    33

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    34/78

    (ara explicar la comprobación de la linealidad nos valdremos del siuiente ejemplo. En una prueba de laboratorio para el desaste de neumáticos se realizó el siuiente experimento. !osneumáticos de una determinada marca se montaron en un automóvil. !os neumáticos se rotaronde una posición a otra cada ,/// millas, y la profundidad del desaste se midió en milésimas de

     pulada &/,// puladas G /./40@ mm' inicialmente y después de cada @,/// millas. !asmediciones se realizaron en seis posiciones equianulares en cada una de seis ranuras alrededor de la circunferencia de cada neumático. !a Tabla 2.+ da los promedios de las seis medicionessobre la ranura de un neumático después de cada @,/// %ilómetros 6asta 24,/// %ilómetros. Elráfico de dispersión para estos datos se muestra Fira 2.%. 7e ve bastante lineal, y por lo tantoes razonable para adaptarse a una l5nea recta a los datos.

    TABLA 2.+Pilometraje y profundidad del desaste de

    un neumático de automóvil.

    Pilometraje

    &en ,/// %ms.'

    (rofundidad del desaste

     &en milésimas de pulada'/ [email protected]

    @ 24-.0/

    3 4-.//

    4 400.1

    44-.22

    4/ 4/@.32

    4@ 1-.//

    43 2.32

    24 0/.22

    34

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    35/78

    Fira 2.%. 8iarama de dispersión, l5nea de tendencia y ecuación del ráfico.

      !as! i 0 s   no son independientes porque están sujetas a las siuientes dos restricciones

    linealesA

    ∑i=1

    n

    ! i=0 ,∑i=1

    n

     x i !i=0

    Estas restricciones se obtienen a partir de las siuientes derivadas parciales iualadas con cero,vistas anteriormenteA

    b1 xi

    ¿ y i−b0−¿¿

    (¿ y i−b0−b1 x i)=02(−1)¿

    * '

    * b0

    =∑i=1

    n

    ¿

    35

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    36/78

     xi(¿ y i−b0−b1 x i)=0

    ¿ y i−b0−b1 x i¿2−1=−2∑

    i=1

    n

    ¿

    2(− x i)¿

    * '

    * b1=∑i=1

    n

    ¿

    b

    (¿¿0+b1 x i) y i−¿¿¿

    ∑i=1

    n

    ¿

    b

    (¿¿0+b1 x i) y i−¿¿

    ∑i=1

    n

     xi ¿

    En la Tabla 2.,  se muestran las  y i   observadas, las  ̂y i   ajustadas, y los residuales

    ! i= y i− ^ y i  para el desaste de neumáticos. 7e verifica que se satisfacen las restriccionesA

    ∑i=1

    n

    ! i=0 ,∑i=1

    n

     x i !i=0

    TABLA 2., !os datos  x i , y i , ^ yi , !i   y x i ! i  para el desaste de neumáticos.

    i   x i   yi    ̂y i=360.636667−7.280625 x i   ! i= y i− ^ y i   x i !i

    / [email protected] 2/.@ 22.- /.//

    4 @ 24-.0/ 22.0   −4./   −3./

    2 3 4-.// 2/4.2-   −.2-   −-.2

    @ 4 400.1 412.41   −3./   −41.-

    0 44-.22 4@@.0   −@.34   −421./1

    36

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    37/78

    4/ 4/@.32 40./4   −/.-   −4/2.33

    1 4@ 1-.// 30.-/ Q.-/   −0.@

    3 43 2.32 0.13 1./0 -1.@4

    - 24 0/.22 41. 44.1 140.00

    ∑ ¿ /.// /.//

    !as! i se rafican contra las

     x i  en la Fira 2.(. !a ráfica es claramente parabólica, lo

    que indica que después de filtrar la componente lineal, todav5a queda un componente no lineal.)s5 que la reresión lineal no se ajusta adecuadamente a los datos, a pesar de que el coeficiente

    lineal de la pendienteb1  es sinificativo. =na lección importante que aprendemos aqu5 es que

    un valorb1   sinificativo no quiere decir necesariamente que la relación es lineal, sólo nos

    dice que 6ay un componente lineal sinificativo.

    Fira 2.(. Lráfica de residuos ! i vs .xi  para el ajuste lineal

      de los datos del desaste de neumáticos

    (ara verificar si 6ay otro mejor posible ajuste podemos comparar el ajuste lineal con las curvasde potencia y exponencial, es decirA

    • !inealA ̂y=b

    0+b

    1 x

    .

    • (otenciaA   ̂y=b

    0 x

    b1

    . &!a potencial no trabaja con valore de  x=0 , por ello. #o se

    considera'.

    37

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    38/78

    • ExponencialA  ̂y=b0 !b1 x

    .

    0 5 10 15 20 25 30 350.00

    100.00

    200.00

    300.00

    400.00

    500.00

    f(x) = - 7.28x + 360.64

    @ilometra%e

    "roBundidad del des5aste ? 

    Fira 2.*. )juste a una recta.

    0 5 10 15 20 25 30 350.00

    50.00

    100.00

    150.00

    200.00250.00

    300.00

    350.00

    400.00

    450.00

    f(x) = 374.64 exp( -0.03 x )

    Fira 2.+. )juste a una l5nea exponencial

    38

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    39/78

    9alculamos el /rror Ab"olto Porcental & %PE) %bsolute Percentage Error ' con la fórmulaeneralA

     A1=/#"or obs!rv#do−/#"or ronosti$#do

    /#"or obs!rv#do

    (ara determinar el /rror Porcental Ab"olto Medio & &%PE) &ean %bsolute Percentage Error ', pro!edia!o" e"to" alore" de AP/ para todas las curvas consideradas. 9onsideraremosa la curva con el !enor MAP/ como la que mejor se ajusta a los datos. En este caso la quemejor se ajusta a los datos es la cra eponencial.

    so de la ecuación de re5resión para eBectuar predicciones!as ecuaciones de reresión a menudo sirven para predecir  el valor de una variable, a partir dealún valor espec5fico de la otra variable. Es necesario considerar lo siuiente al realizar las prediccionesA

    1. =se la ecuación de reresión para 6acer predicciones únicamente si la ráfica de la recta dereresión en el diarama de dispersión confirma que la recta de reresión se ajusta a los puntos razonablemente.

    39

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    40/78

    2. =se la ecuación de la reresión para 6acer predicciones únicamente si el coeficiente decorrelación lineal r  indica que existe una correlación lineal entre las dos variables.

    #. =se la recta de reresión para realizar predicciones únicamente si los datos no se alejanmuc6o más allá del ámbito de los datos muestrales disponibles se llama extrapolación, lo cual

     puede dar como resultado predicciones erróneas'.

    $. 7i la ecuación de reresión no parece ser útil para realizar predicciones, el mejor valor de predicción de una variable es su estimación puntual, que es la media muestral.

    FIGURA 2-,. Estrateia recomendada para los valores de predicción de y.

    !nterpretación de la ecuación de re5resión( Cam,iomar5inal

    (odemos utilizar la ecuación de reresión para observar el efecto en una variable, cuando la otravariable cambia por una cantidad espec5fica.

    D EF I N I C I Ó N9uando se trabaja con dos variables relacionadas por una ecuación de reresión, el ca!bio!arinal en una variable es la cantidad que esta se modifica cuando la otra variable cambia

    exactamente una unidad. !a pendienteb1  en la ecuación de reresión representa el cambio

    40

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    41/78

    marinal que ocurre en y cuando  x   cambia una unidad.

    E%emplo 7( )juste una l5nea recta a los valores x y y de las primeras columnas siuientesA

     x i   y i   xi2  x i y i

    /.0 /.0

    4 4.0 @ 0./

    2 4./ - ./

    @ @./ ./

    0 2.0 40 1.0

    ./ 2 2./1 0.0 @- 23.0

     Σ G

    434@ @/ -.0

    7e pueden calcular las siuientes cantidadesA

    n=7  , ∑i=1

    n

     x i=28,   (∑i=1

    n

     x i)2

    =(28)2=784 , ∑i=1

    n

     x i2

    G@/, ∑i=1

    n

     y i=24

    =sando las ecuacionesA

    b0=∑i=1

    n

     y i∑i=1

    n

     x i2−∑

    i=1

    n

     x i∑i=1

    n

     x i y i

    n∑i=1

    n

     xi2−(∑

    i=1

    n

     x i)2

      =(24 ) (140 )−(28)(119.5)

    (7 ) (140 )−784=

      14

    196=0.07142857

    b1=

    n∑i=1

    n

     x i yi−∑ x=1

    n

     x i∑i=1

    n

     y i

    n∑i=1

    n

     x i2−(∑

    i=1

    n

     x i)2  = (

    7 ) (119.5)−(28)(24)(7 ) (140 )−784

    =164.5

    196=0.839285714

    (or consiuiente, la ecuación lineal con ajuste por m5nimos cuadrados esA

    41

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    42/78

     ̂y=b0+b

    1 x=0.07142857+0.839285714 x

    En este ejemplo la recta de reresión tiene una pendiente de /.3@, aproximadamente. )s5 si

    incrementamos  x  en una unidad, el valor de  ̂y   se incrementará en /.3@. Es decir, por cada

    unidad adicional de  x  el valor de  ̂y   aumenta /.3@ de unidad.

    Valores at/picos # puntos inu#entes

    =n análisis de correlaciónRreresión de datos bivariados &pareados' debe incluir la investiaciónde valores atípicos y puntos influyentes, los cuales se definen a continuación.

    En un diarama de dispersión, un alor at4pico es un punto que aparece muy lejos de los otros puntos de datos.

    !os datos muestrales pareados pueden incluir uno o más pnto" inflente", los cuales son puntos que afectan fuertemente la ráfica de la recta de reresión.(ara determinar si un pnto e" at4pico, examine el diarama de dispersión para ver si ese puntose aleja demasiado de los demás. ?e aqu5 cómo determinamos un pnto inflenteA rafique larecta de reresión que resulta de los datos con el punto influyente incluido, después, rafique larecta de reresión resultante de los datos sin incluir el punto. 7i la ráfica cambia de formaconsiderable, se trata de un punto influyente. !os puntos influyentes a menudo se encuentran alidentificar los valores at5picos que están alejados #ori*ontalmente de los demás puntos.

    Residuos # la propiedad de los m/nimos cuadrados?emos establecido que la ecuación de reresión representa la recta que se ajusta ;mejor< a losdatos. El criterio utilizado para determinar cuál recta es mejor que todas las demás se basa en lasdistancias verticales entre los puntos de datos oriinales y la recta de reresión. +ales distanciasse denominan residuos.

    D EF I N I C I Ó N

    (ara una muestra de datos pareados  x   y  y , un re"ido es la diferencia entre un valor 

     y  muestral observado y el valor  y   predic#o por medio de la ecuación de reresión. Es

    decir,

    r!sid)o= y obs!rv#d#− y r!di$2#= y− ̂y

    42

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    43/78

    Esta definición no 6a anado premios por su sencillez, pero comprenderá fácilmente los residuos

    con la recta que se ajusta a los siuientes datos muestrales pareados &   x  y   y 'A

     x i   y i   x i2  x i y i    ̂y i=5+4 x (!sid)o= y i− ̂y i

    @ @ -   −0

    4 4@ @ @3 2

    @ 3 24 4   −2

    0 24 40 / 40 1

     Σ G

    43 @ 4@@ /

    7e pueden calcular las siuientes cantidadesA

    n=4 , ∑i=1

    n

     x i=12,   (∑i=1

    n

     x i)2

    =(12)2=144 ,

    ∑i=1

    n

     x i2

    G@, ∑i=1

    n

     y i=68 ,   ∑i=1

    n

     x i yi=244

    =sando las ecuacionesA

    b0=∑i=1

    n

     y i∑i=1

    n

     x i2−∑

    i=1

    n

     x i∑i=1

    n

     x i y i

    n∑i=1

    n

     xi2−(∑

    i=1

    n

     x i)2

      =(68 ) (46 )−(12)(244 )

    (4 ) (46)−144=

    200

    40=5

    b1=

    n∑i=1

    n

     x i yi−∑ x=1

    n

     x i∑i=1

    n

     y i

    n∑i=1

    n

     x i2−(∑i=1

    n

     x i)2   =

    (4 ) (244 )−(12)(68)

    (4 ) (46 )−144 =

    160

    40 =4

    (or consiuiente, la ecuación lineal con ajuste por m5nimos cuadrados esA

    43

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    44/78

     ̂y=b0+b

    1 x=5+4 x

    9onsidere el punto muestral con las coordenadas &0, 24'. 7i sustituimos  x=5  en la ecuación

    de reresión  ̂y=5+4 x , obtenemos un valor predic#o de  ̂y=25 . 7in embaro, el valor

    muestral observado es  y=32 . !a diferencia  y− ^ y−¿32−25=7  es un residuo.

    !a ecuación de reresión representa la recta que se ajusta ;mejor< a los puntos, de acuerdo con lasiuiente propiedad de mínimos cuadrados.

    D EF I N I C I Ó N

    =na recta satisface la propiedad de !4ni!o" cadrado" si la suma de los cuadrados de losresiduos es la menor suma posible.

    En la siuiente tabla y en la Fira 2-1) podemos observar que los residuos sonA

     x i   y i    ̂y i >esiduo

    @

       ̂y1=5+4 (1 )=9   y1− ̂y1=4−9=−5

    4 4@   ̂y

    1=5+4 (2 )=13   y1− ̂y1=24−13=11

    @ 3   ̂y

    1=5+4 (4 )=21   y1− ̂y1=8−21=−13

    0 24   ̂y

    1=5+4 (5 )=25   y1− ̂y1=32−25=7

    8e manera que la suma de sus cuadrados esA

    (−5)2+(11)2+(−13)2+(7)2=25+121+169+49=364 .

    (odemos visualizar la propiedad de m5nimos cuadrados si nos remitimos a la Fira 2-#, dondelos cuadrados de los residuos están representados por las áreas de los cuadrados sombreados. !asuma de las áreas sombreadas cuadradas es 2@, que es la menor suma posible.

    44

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    45/78

    FIGURA 2-1). >esiduos y cuadrados de los residuos.

    "rue,as de si5nifcancia del modelo de re5resión einter)alos de confana

    En esta sección se presenta un método para construir un intervalo de predicción, que es una

    estimación del intervalo de un valor predic6o de  y . &!as estimaciones de intervalos de

     parámetros se conocen como como intervalos de confian*a, en tanto que las estimaciones deintervalos de variables se denominan intervalos de predicción'.

    Variación explicada # sin explicar

    (rimero examinaremos las medidas de desviación y variación para un para de valores ( x , y ) .

    9onsideremos el caso espec5fico descrito en la Fira 2-11. Imaine una muestra de datos

     pareados ( x , y )  que incluye los valores espec5ficos de &0,-'. 7upona que utilizamos esta

    muestra de datos pareados para calcular los siuientes resultadosA

    45

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    46/78

    • Existe evidencia suficiente para sustentar la afirmación de una correlación lineal entre  x  y

     y .

    • !a ecuación de recta de reresión es ̂y=3+2 x .

    • !a media de los valores de  y  está dada por ´ y=9.

    • =no de los pares de datos muestrales es  x=5  y  y=19.

    • El punto &0,2' es uno de los puntos sobre la recta de reresión, ya que la sustitución de x=5  en la ecuación de reresión  ̂y=3+2 x   produce  ̂y=13 .

    FIGURA 2-11. 8esviación sin explicación, explicada y total.

    !a Fira 2-11 indica que el punto &0,2' está sobre la recta de reresión, pero el punto &0,-'del conjunto de datos oriinal no se ubica en la recta de reresión. 7i inoramos por completo los

    conceptos de correlación y reresión, y deseamos producir un valor de  y  a partir de un valor 

    46

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    47/78

    de  x  y un conjunto de datos pareados ( x , y ) , nuestra mejor conjetura ser5a la media ´ y .

    (ero en este caso existe una correlación lineal sinificativa entre  x   y  y , por lo que la

    forma de predecir el valor de  y  cuando  x=5  consiste en sustituir  x=5  en la ecuación

    de reresión para obtener^ y=13 . (odemos explicar las discrepancias entre ´ y=9   y

     ̂y=13   al se*alar que existe una relación lineal mejor descrita por medio de la recta de

    reresión. 9omo consecuencia, cuando  x=5 , el valor predic6o de  y  es 2, pero el valor 

    muestral observado de  y  en realidad es -. !a discrepancia ente  ̂y=13   y  y=19  no

     puede explicarse por medio de la recta de reresión y se le denomina desviación sin explicación o

    residuo. Esta desviación sin explicar se exoresa en s5mbolos como  y− ^ y .

    =na desviación es la diferencia entre un valor y la media. &En este caso, la media es ´ y=9 '.

    Examine con atención la iura 4Q@ y observe las siuientes desviaciones espec5ficas a partir de´ y=9 A

     +esviación total  &a partir de ´ y=9 ' del punto &0,-' G  y−´ y=19−9=10 .

     +esviación explicada &a partir de ´ y=9 ' del punto &0,2' G  ̂y−´ y=13−9=4 .

     +esviación sin explicar  &a partir de ´ y=9 ' del punto &0,-' G  y− ^ y=19−13=6 .

    Estas desviaciones a partir de la media se eneralizan y definen formalmente como siue.

    D EF I N I C I Ó N

    7upona que tenemos un conjunto de datos pareados que contienen el punto muestral

    ( x , y ) , que  ̂y   es el valor predic6o de  y  &obtenido por medio de la ecuación de

    reresión', y que la media de los valores  y  muestrales es ´ y .

    !a de"iación total de ( x , y )  es la distancia vertical  y−´ y , que es la distancia entre el

     punto ( x , y )  y la recta 6orizontal que pasa por la media muestral ´ y .

    !a de"iación eplicada es la distancia vertical  ̂y−´ y , que es la distancia entre el valor 

    47

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    48/78

     predic6o  ̂y   y la recta 6orizontal que pasa por la media muestral ´ y .

    !a de"iación "in eplicar es la distancia vertical  y− ^ y , que es la distancia vertical entre

    el punto ( x , y )  y la recta de reresión. &!a distancia  y−^ y   también se conoce como

    residuo'.

    En la Fira 2-11  podemos apreciar la siuiente relaciónA

    Formula 2-1+

    &desviación total' G&desviación

    explicada'N &desviación sin explicar'

    ( y−´ y ) G   ( ̂y−´ y ) N   ( y− ^ y )

    !a expresión anterior implica desviaciones a partir de la media y se aplica a cualquier punto( x , y )  particular. 7i sumamos los cuadrados de las desviaciones utilizando todos los puntos

    ( x , y ) , obtenemos cantidades de variación, y la misma relación se aplica a las sumas de

    cuadrados que se muestran en la Fór!la 2-1*, aunque esta última expresión no esalebraicamente equivalente. En esta fórmula, la ariación total se expresa como la suma de loscuadrados de los valores de las desviaciones totales, la ariación eplicada es la suma de loscuadrados de los valores de las desviaciones explicadas, y la ariación "in eplicar es la suma delos cuadrados de los valores de las desviaciones sin explicar.

    Formula 2-16&variación total' G &variación explicada' N &variación sin explicar'

     Σ( y−´ y )2

    G   Σ(^ y−´ y )

    2

    N   Σ( y−^

     y )2

    El coeficiente de correlación lineal r  se utiliza para calcular la proporción de la variación total

    en  y  que puede explicarse por medio de la correlación lineal.

    48

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    49/78

    /l alor de r2

     e" la proporción de la ariación en  y  Ce "e eplica por la

    relación lineal entre  x    y .

    Esta afirmación sobre la variación explicada se formaliza en la siuiente definición.

    D EF I N I C I Ó N

    El coeficiente de deter!inación es la cantidad de variación en  y  que se explica por la

    recta de reresión. 7e calcula comoA

    r2=

    v#ri#$i3n !x"i$#d#

    v#ri#$i3ntot#"

    (odemos calcular r2

      por medio de la definición que dimos con la órmula 4Q@, o bien,

     podemos simplemente elevar al cuadrado el coeficiente de correlación lineal r .

    E%emplo .  Precio de la pizza y del boleto del Metro. En -@, Eric Jram, un t5picoadolescente de la ciudad de #ueva $or% observó que el precio de una rebanada de pizza conqueso era iual al precio de un boleto del "etro. 9on el paso de los a*os, se dio cuenta que

    ambos precios aumentaban aproximadamente en la misma cantidad.

     AñoPrecio de pizza

    (  x i¿

    +arifa del "etro

    i

     y¿¿

     x i2  x i y i

    -/ /.0 /.0 /./440 /./440

    -12 /.20 /.20 /.440 /.440

    -3 .// .// .//// .////

    --0 .40 .20 .040 .3104//4 .10 .0/ 2./40 4.40/

    4//2 4.// 4.// @./// @.////

    7umaA .0/ .20 -.11 -.@010

    7e pueden calcular las siuientes cantidadesA

    49

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    50/78

    n=6  , ∑i=1

    n

     x i=6.50,   (∑i=1

    n

     x i)2

    =(6.50)2=42.25 , ∑i=1

    n

     x i2

    G-.11, ∑i=1

    n

     y i=6.35

    ∑i=1

    n

     x i yi=9.4575  

    =sando las ecuacionesA

    b0=∑i=1

    n

     y i∑i=1

    n

     x i2−∑

    i=1

    n

     x i∑i=1

    n

     x i y i

    n∑i=1

    n

     xi2−(∑

    i=1

    n

     x i)2

      =(6.35 ) (9.77 )−(6.5)(9.4575)

    (6 ) (9.77 )−42.25=0.03456

    b1=

    n∑i=1

    n

     x i yi−∑ x=1

    n

     x i∑i=1

    n

     y i

    n∑i=1

    n

     x i2−(∑

    i=1

    n

     x i)2  =

    (6 ) (9.4575 )−(6.50)(6.35)(6 ) (9.77 )−42.25

    =15.47

    16.37=0.94502

    (or consiuiente, la ecuación lineal con ajuste por m5nimos cuadrados esA

     ̂y=b0+b

    1 x=0.03456+0.94502 x

    )demás,

    ´ y=∑i=1

    n

     y i

    n  =

    6.35

    6=1.05833

     podemos observar que los residuos sonA

    Precio de

    pizza(  x i¿

    +arifa del

    "etro & yi¿

    ^ y i=0.03456+0.94502 x i   (

    ^ y−´ y )

    2

    ( y−´ y )2

    /.0 /.0 /.122 /.111-02-- /.340/22-

    /.20 /.20 /.2021 /.@3/41/4 /.0/122-

    .// .// /.-1-03/ /.//4/0 /.//2@/42-

    50

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    51/78

    .40 .20 .40320 /./4@3/132 /./30/12-

    .10 .0/ .332@0 /.2--3- /.-0/142-

    4.// 4.// .-4@// /.10/@421 /.331@42-

    7=")A 4.@2012/ 4.@-1/322@

    r2=

    v#ri#$i3n !x"i$#d#d! y

    v#ri#$i3ntot#"d! y  =

     Σ( ̂y−´ y )2

     Σ( y−´ y )2=

    2.43657301

    2.49708334=0.976 .

    El coeficiente de deter!inación es r2=0.976 . #ote que es el cuadrado del coeficiente de

    correlación r . 9omo r2

      es la proporción de la variación total que está explicada,

    concluimos que aproximadamente el -1.F de la variación total en las tarifas del "etro se pueden explicar por los precios de una rebanada de pizza. Esto sinifica que 4.@F de la variación

    total del precio del boleto del "etro está explicada por otros factores y no por el precio de unarebanada de pizza. 7in embaro, recuerde que esos resultados son estimaciones que se basan enlos datos muestrales con que se cuenta. Es probable que otros datos muestrales produzcanestimaciones diferentes.

    El coeficiente de deter!inación es la proporción de la variación total en ,y- explicada por el a$uste de regresión. (uesto que el numerador no puede exceder al denominador, su valor máximoes .

    !nter)alos de predicción

    =na estimación del intervalo de un parámetro &como la media de las estaturas de los alumnos delrupo de Estad5stica )plicada' suele denominarse intervalo de confian*a, mientras que laestimación del intervalo de una variable &como el precio de un litro de asolina' se conoce comointervalo de predicción.

    D EF I N I C I Ó N

    =n interalo de predicción es una estimación del intervalo de un valor predic6o de  y .

    El desarrollo de un intervalo de predicción requiere una medida de la dispersión de los puntosmuestrales alrededor de la recta de reresión. >ecuerde que la desviación sin explicar &o residuo'es la distancia vertical entre un punto muestral y la recta de reresión & Fira 2-('. El error estándar de la estimación  es una medida colectiva de la dispersión de los puntos muestralesalrededor de la recta de reresión, y se define de manera formal como siue.

    51

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    52/78

    D EF I N I C I Ó N

    El error e"t'ndar de la e"ti!ación, denotado con s! , es una medida de las diferencias

    &o distancias' entre los valores muestrales observados de  y  y los valores predic6os  ̂y

    que se obtienen por medio de la ecuación de reresión. Está dado porA

     43rm)"#2−18:

    s!=√ Σ ( y− ^ y )

    2

    n−2(dond! ̂y !s !" v#"or r!di$2od! y ) , o por medio de la siuiente

    fórmula equivalenteA

     43rm)"#2−19:

    s!=√ Σ y

    2−b0 Σ y−b

    1 Σ xy

    n−2

    E%emplo 1>&  Precio de la pizza del boleto del Metro5 &'lclo de s! .  =tilice las

    fór!la" 2-11 o 2-12 para calcular el error estándar de la estimación para los datos pareados delos precios de la pizza y del boleto del "etro, que se incluyen en el E%emplo 1 &correlaciónlineal'.

    'olución(

    En el E%emplo , calculamos estos valoresA b0=0.03456   y b1=0.94502 . $ de la tabla

    siuiente obtenemos los valores faltantes.

    Precio de pizza

     x i

    +arifa del "etro

     yi    ̂y i   ( y−^ y )2  y i

    2  x i y i

    /.0 /.0/.12

    2/.///- /./440 /./440

    /.20 /.20/.202

    1/.///42 /.440 /.440

    .// .///.-1-03

    //.///@4 .//// .////

    52

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    53/78

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    54/78

    'olución(

    8el E%emplo 1 de la sección de correlación encontramos que r=0.988 , de manera que

    existe evidencia suficiente para sustentar la afirmación de una correlación lineal &con un nivel de

    sinificancia de /./0', y la ecuación de reresión es

     ̂y=0.03456+0.94502 x. 8el E%emplo

    1>, anterior, sabemos que s!=0.123 . !os estad5sticos se obtienen de los datos sobre los

     precios de la pizza .

     Año Precio de pizza (  x i¿   x i

    2

    -/ /.0 /./440

    -12 /.20 /.440

    -3 .// .////

    --0 .40 .040

    4//4 .10 2./40

    4//2 4.// @.///

    7umaA Σ x i=¿  .0/  Σ x i

    2=¿ -.11

    "ediaA   ´ x= Σ x i

    n  =

    6.5

    6=1.0833

    En la Tabla 2-B &al final del tema' encontramos que t α /2=2.776  &utilizamos −4 G @ rados

    de libertad con

    α =0.05 en dos colas'. (rimero calculamos el maren de error E permitiendo

    que x

    0=2.25

     &ya que buscamos el intervalo de predicción del precio del boleto del "etro,

    considerando que una rebanada de pizza cuesta  x=2.25  ="'.

     1=t α /2 s!√1+1

    n+

      n ( x0−´ x )2

    n ( Σ x2 )− ( Σ x )2=(2.776)(0.123)√1+

    1

    6+6 (2.25−1.0833 )

    2

    6 (9.77 )−(6.50 )2

      ¿ (2.776 ) (0.123 ) (1.29056 )=0.441

    9on  ̂y=2.16   y  1=0.441  , obtenemos el intervalo de predicción de la siuiente formaA

     ̂y− 1

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    55/78

    1.72

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    56/78

    5 =¿  número de variables de predicción o ariable" independiente"

     x i1 , xi2 , % , xi5 =¿  valores fijos de las 5   variables de predicción o variables

    independientes.

     ̂y=¿variable de respuesta.

    b0

    , b1

    , b2

    , % , b5 =¿  con cantidades fijas desconocidas.

    (ara el modelo de tres variables de predicción, requerimos variarb0

    , b1

    , b2   y

    b3

    simultáneamente para minimizar la suma de las desviaciones al cuadrado.

    b

     y i−(¿¿0+b1 x i1+b2 x i2+%+b5  x i5 )

    ¿¿¿¿

     '=∑i=1

    n

    ¿

    !os m5nimos cuadrados estimados se encuentran estableciendo las primeras derivadas parciales

    de + con respecto ab0

    , b1,⋯ , b5   e iualando con cero y resolviendo las ecuaciones resultantes.

    Estas ecuaciones se escriben comoA

    b

     y i−(¿¿0+b1 x i1+b2 x i2+%+b5  x i5 )¿¿¿

    * '

    * b0=−2∑

    i=1

    n

    ¿

    b

     y i−(¿¿0

    +b1 x i1+b2 x i2+%+b5  x i5 )¿¿¿

    * '

    * b0

    =−2∑i=1

    n

    ¿

    8ivindiendo por −4A

    56

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    57/78

    b

     y i−(¿¿0+b1 x i1+b2 x i2+%+b5  x i5 )¿¿¿

    ∑i=1

    n¿

    b

     y i−(¿¿0+b1 x i1+b2 x i2+%+b5  x i5 )¿¿¿

    ∑i=1

    n

    ¿

    8esarrollandoA

     x i2−%−¿b5 ∑i=1

    n

     xi5 =0

     x i1−¿b2∑i=1

    n

    ¿

    b0−¿b

    1∑i=1

    n

    ¿

    ∑i=1

    n

     y i−∑i=1

    n

    ¿

     x i2 x i6−%−¿b5 ∑i=1

    n

     x i5  x i6=0 ( 6=1,2,% , 5 ) .

     x i1 x i6−¿b2∑i=1

    n

    ¿

     x i6−¿b1∑i=1

    n

    ¿

    ∑i=1

    n

     y i xi6−b0∑i=1

    n

    ¿

    7implificando nos lleva a las siuientes ecacione" nor!ale"A

    57

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    58/78

     x i2+%+¿b5 ∑i=1

    n

     x i5 =∑i=1

    n

     y i

     x i1+¿b2∑i=1

    n

    ¿

    b0 n+b1∑i=1

    n

    ¿

     x i2 x i6+%+¿b5 ∑i=1

    n

     xi5  xi6=∑i=1

    n

     yi x i6 ( 6=1,2,% , 5 ) .

     x i1 x i6+¿b2∑i=1

    n

    ¿

     x i6+¿b1∑i=1

    n

    ¿

    b0∑i=1

    n

    ¿

    Estas ecuaciones lineales simultáneas en (5 +1)  variables desconocidas se pueden resolver con

    una computadora.

    8ebido a que se utilizará un prorama de computadora para determinar las ecuaciones dereresión múltiple, inoraremos los cálculos reales y nos concentraremos en interpretar las pantallas de resultados.

    E%emplo 12&  /"tatra" de !adre"0 padre" e 6i?a". !a siuiente tabla incluye una muestraaleatoria simple de las estaturas de madres, padres y sus 6ijas que servirá para aplicar un examen

    de nutrición. Encuentre la ecuación de reresión múltiple donde la variable de respuesta  ̂y  es

    la estatura de una 6ija y las variables de predicción ( x)  son las estaturas de la madre y del

     padre.

    Estaturas !en pul"adas# de madres$ padres% sus &i'as(

    Estatura dela &i'a Estatura dela madre Estatura delpadre

    58.6 63 64

    64.7 67 65

    65.3 64 67

    61.0 60 72

    65.4 65 72

    67.4 67 72

    60.9 59 67

    58

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    59/78

    63.1 60 71

    60.0 58 66

    71.1 72 75

    62.2 63 69

    67.2 67 70

    63.4 62 69

    68.4 69 6262.2 63 66

    64.7 64 76

    59.6 63 69

    61.0 64 68

    64.0 60 66

    65.4 65 68

    =na opción para para obtener la recta de reresión múltiple es por medio de Excel de "icrosoft.

    "rimer paso. 9apturar la tabla de datos anterior en Excel y seleccionar del menú principal laopción 7ato"8An'li"i" de dato". En la ventana de An'li"i" de dato" se selección Rere"ión.

    En la ventana de ;>eresión< seleccionar en  Rango de entrada los datos de E7+)+=>) 8E!) ?IS) &)A)4', en  Rango ! de entrada se seleccionan los datos de E7+)+=>) 8E !)")8>E y E7+)+=>) 8E! ()8>E &JA94', marcar la opción de  Rótulos  si queremosreservar también las celdas con los nombres de las variablesK y en "pciones de salida marcamos En una #o$a nuevaK se da clic en el botón %ceptar .

    59

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    60/78

    9on lo que obtenemos los siuientes resultados.

    En la columna de 9oeficientes observamos queA

    60

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    61/78

    b0=7.5

     &redondeando',b1=0.707

     &truncando', yb2=0.164

     &redondeando'

    (or lo que, la ecuación de reresión múltiple, esA

     ̂y=7.5+0.707m#dr!+0.164 #dr!

    7i utilizamos la notación presentada antes, podemos escribir esta ecuación de la siuiente formaA

     ̂y=b0+b

    1 xi1+b2 x i2=7.5+0.707 xi1+0.164 x i2 .

    8onde  ̂y  es la estatura predic6a de una 6ija, x i1  es la estatura de la madre y

     x i2  es la

    estatura del padre.

    7i una ecuación de reresión múltiple se ajusta bien a los datos muestrales, se puede emplear para6acer las predicciones. (or ejemplo, si determinamos que la ecuación de reresión múltiple delE%emplo 12 es adecuada para 6acer las predicciones, y si una mujer tiene una estatura de 2 puladas y su esposo una de - puladas, podemos predecir la estatura de la 6ija de ambossustituyendo esos valores en la ecuación de reresión, para obtener una estatura predic6a para su6ija de 2.@ puladas.

     ̂y=7.5+0.707 (63 )+0.164 (69 )=63.34 )"+#d#s  &redondeando'

    R2 # R2 a%ustado

     (2

     denota el coeficiente !Dltiple de deter!inación, que es una medida de lo bien que se

    ajusta la ecuación de reresión múltiple a los datos muestrales. =n ajuste perfecto dar5a como

    resultado  (2=1 , y un ajuste muy bueno dar5a por resultado un valor cercano a . =n ajuste

    muy deficiente se relaciona con un valor de  (2

     cercano a /. El valor de  (2=67.52  en los

    resultados de Excel del E%emplo 12, indica que 1.04F de la variación en las estaturas de las6ijas puede explicarse por las estaturas de las madres y de los padres. 7in embaro, el coeficiente

    múltiple de determinación  (2   tiene una rave desventajaA a mayor número de variables

    incluidas, se incrementa  (2

     . &   (2

      podr5a permanecer iual, pero suele incrementarse'. !a

     (2

      más rande se obtiene por el simple 6ec6o de incluir todas las variables disponibles, pero

    la mejor ecuación de reresión múltiple no necesariamente utiliza todas las variables disponibles.) causa de esta desventaja, la comparación de diferentes ecuaciones de reresión múltiple se

    61

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    62/78

    lora mejor con el coeficiente a$ustado de determinación, que es  (2

     a?"tado para el número

    de variables y el tama*o de la muestra.

    D EF I N I C I Ó N

    El coeficiente a?"tado de deter!inación es el coeficiente múltiple de determinación  (2

    modificado para tener en cuenta el número de variables y el tama*o de la muestra. 7e calcula

     por medio de la fórmula 4Q1.

    órmula 2)1*

     (2

    #6)st#do=1−  (n−1 )

    [ n−(5 +1 ) ]

    (1− (2)

    donde n=¿   tama*o de la muestra.

      5 =¿  número de variables de predicción ( x)

    !os resultados anteriores de Excel del E%emplo 1, indican que el coeficiente ajustado de

    determinación es  (2

    #6)st#d#=63.7 . 7i utilizamos la Fór!la 2-1#  con el valor de

     (2=0.675 , n=20   y 5 =2 , encontramos que el valor ajustado de  (

    2

    , esA

     (2

    #6)st#do=1−  (20−1 )

    [20−(2+1) ] (1−0.675 )=1−( 1917 ) (0.325 )=0.637

    !o que confirma el valor de 2.1F de los resultados de Excel. 9uando comparamos esta ecuación

    de reresión múltiple con otras, es mejor utilizar la  (2

    #6)st#d#  de 2.1F &o /.21'.

    El )alor "ro,a,ilidad

    El valor Probabilidad es una medida de la sinificancia eneral de la ecuación de reresiónmúltiple. El valor de Probabilidad de /./// &redondeado a tres decimales' de los resultados deExcel es peque*o, lo que indica que la ecuación de reresión múltiple tiene buena sinificancia

    62

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    63/78

    eneral y es útil para realizar predicciones. Es decir, tiene sentido predecir las estaturas de las

    6ijas con base en las estaturas de las madres y de los padres. )l iual que la  (2

    #6)st#d#  este

    valor de  rob#bi"id#d  es una buena medida de qué tan bien se ajusta la ecuación a los datos

    muestrales.

    )*+,* 2-* .alores crticos del coeficiente de correlación r de Pearson

    n   α = 0.05   α = 0.01 n   α = 0.05   α = 0.01

    4 0.950 0.990 18 0.468 0.590

    5 0.878 0.959 19 0.456 0.575

    6 0.811 0.917 20 0.444 0.561

    7 0.754 0.875 25 0.396 0.505

    8 0.707 0.834 30 0.361 0.463

    9 0.666 0.798 35 0.335 0.430

    10 0.632 0.765 40 0.312 0.40211 0.602 0.735 45 0.294 0.378

    12 0.576 0.708 50 0.279 0.361

    13 0.553 0.684 60 0.254 0.330

    14 0.532 0.661 70 0.236 0.305

    15 0.514 0.641 80 0.220 0.286

    16 0.497 0.623 90 0.207 0.269

    17 0.482 0.606 100 0.196 0.256

    Nota/ Para soeter a !rue"a H 

    0: ρ=0

     contra H 

    1: ρ ≠0

    # rec$ace H 

    0  si el %alor a"soluto de

    r  es a&or 'ue el %alor cr(tico en la ta"la.

    )*+,* 2-+ Distribución t/ 0alores crticos t

    63

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    64/78

    )rados de

    li"ertad

    rea en una cola

    ( (1 (2 ( (1

    rea en dos colas

    (1 (2 ( (1 (2

    1  63.65

    7  31.821 12.706 6.314 3.078

    2 9.925 6.965 4.303 2.920 1.8863 5.841 4.541 3.182 2.353 1.6384 4.604 3.747 2.776 2.132 1.5335 4.032 3.365 2.571 2.015 1.4766 3.707 3.143 2.447 1.943 1.4407 3.499 2.998 2.365 1.895 1.4158 3.355 2.896 2.306 1.860 1.3979 3.250 2.821 2.262 1.833 1.38310 3.169 2.764 2.228 1.812 1.37211 3.106 2.718 2.201 1.796 1.36312 3.055 2.681 2.179 1.782 1.35613 3.012 2.650 2.160 1.771 1.35014 2.977 2.624 2.145 1.761 1.34515 2.947 2.602 2.131 1.753 1.34116 2.921 2.583 2.120 1.746 1.337

    17 2.898 2.567 2.110 1.740 1.33318 2.878 2.552 2.101 1.734 1.33019 2.861 2.539 2.093 1.729 1.32820 2.845 2.528 2.086 1.725 1.32521 2.831 2.518 2.080 1.721 1.32322 2.819 2.508 2.074 1.717 1.32123 2.807 2.500 2.069 1.714 1.31924 2.797 2.492 2.064 1.711 1.31825 2.787 2.485 2.060 1.708 1.31626 2.779 2.479 2.056 1.706 1.31527 2.771 2.473 2.052 1.703 1.31428 2.763 2.467 2.048 1.701 1.31329 2.756 2.462 2.045 1.699 1.31130 2.750 2.457 2.042 1.697 1.31031 2.744 2.453 2.040 1.696 1.30932 2.738 2.449 2.037 1.694 1.30933 2.733 2.445 2.035 1.692 1.30834 2.728 2.441 2.032 1.691 1.30735 2.724 2.438 2.030 1.690 1.30636 2.719 2.434 2.028 1.688 1.30637 2.715 2.431 2.026 1.687 1.30538 2.712 2.429 2.024 1.686 1.30439 2.708 2.426 2.023 1.685 1.30440 2.704 2.423 2.021 1.684 1.30345 2.690 2.412 2.014 1.679 1.30150 2.678 2.403 2.009 1.676 1.29960 2.660 2.390 2.000 1.671 1.29670 2.648 2.381 1.994 1.667 1.29480 2.639 2.374 1.990 1.664 1.292

    90 2.632 2.368 1.987 1.662 1.291100 2.626 2.364 1.984 1.660 1.290200 2.601 2.345 1.972 1.653 1.286300 2.592 2.339 1.968 1.650 1.284400 2.588 2.336 1.966 1.649 1.284500 2.586 2.334 1.965 1.648 1.283

    1000 2.581 2.330 1.962 1.646 1.2822000 2.578 2.328 1.961 1.646 1.282

    )rande 2.576 2.326 1.960 1.645 1.282

    64

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    65/78

    EIE";8' RE'E;T8'

    Regresión lineal m+ltiple

    E%emplo 1& & &icroeconomía'. =na empresa inmobiliaria posee diez edificios dedepartamentos cerca de una =niversidad, que alquila exclusivamente a estudiantes. 9ada edificiode departamentos tiene // viviendas para alquilar, pero el propietario está teniendo problemasde tesorer5a debido a una tasa de desocupación de casi el 0/ por ciento. !os departamentos encada edificio son semejantes, pero alunos edificios están más cerca de las facultades que otros.El propietario de la empresa inmobiliaria tiene datos del a*o pasado sobre el número dedepartamentos alquilados, el precio de alquiler &en ="' y la cantidad ajustada en publicidad &encientos de ="' en cada uno de los / edificios. Estos datos, junto con la distancia &en%ilómetros' de cada edificio a las facultades, se presenta en las filas a de la Tabla 1-2.

    )*+,* 1-1 Datos de ocupación de los edificios

    bser0ación Cantidad Precio Publicidad Distancia

    1 28 250 11 12

    2 69 400 24 6

    3 43 450 15 5

    4 32 550 31 7

    5 42 575 34 4

    6 72 375 22 2

    7 66 375 12 5

    8 49 450 24 7

    9 70 400 22 4

    10 60 375 10 5

    El propietario quiere 6acer una reresión de la cantidad demandada de departamentos conrespecto al precio, la publicidad y la distancia. !os resultados de la reresión se muestran en laTabla 2. C9uál es la función de demanda estimada de los departamentos de alquiler de la empresainmobiliaria 7i la empresa elevara el precio de alquiler en uno de los edificios en // =", Cquéespera que ocurra con el número de apartamentos alquilados 7i la empresa eleva el alquiler enun edificio de apartamentos medio, Cqué ocurrirá con los inresos totales de la empresa CDué puede inferir de este análisis

    'olución(

    65

  • 8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)

    66/78

    "rimer paso. 9apturar la tabla de datos anterior en Excel y seleccionar del menú principal laopción 7ato"8An'li"i" de dato". En la ventana de An'li"i" de dato" se selección Rere"ión.

    En la ventana de ;>eresión< seleccionar en  Rango de entrada los datos de 9)#+I8)8&JAJ', en  Rango ! de entrada  se seleccionan los datos de (>E9I:, (=J!I9I8)8 y8I7+)#9I) &9AE', marcar la opción de Rótulos si queremos reservar también las celdas conlos nombres de las variablesK y en "pciones de salida marcamos En una #o$a nuevaK se da clic en