Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa...

23
Tema 2: Análisis gráfico y estadístico de relaciones Universidad Complutense de Madrid 2013

Transcript of Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa...

Page 1: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Tema 2: Análisis gráfico y estadístico de relaciones

Universidad Complutense de Madrid2013

Page 2: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Análisis gráfico y descriptivo de una variable (I)

• Datos de series temporales: Evolución anual de la renta y el Consumo per cápita en EEUU

• Los dos gráficos muestran una clara tendencia creciente y común durante los años 1959 hasta 1995. 2

7000

8000

9000

10000

11000

12000

13000

14000

15000

16000

1960 1965 1970 1975 1980 1985 1990 1995c

Consumo per cápita EEUU

8000

10000

12000

14000

16000

18000

20000

1960 1965 1970 1975 1980 1985 1990 1995

y

Renta per cápita EEUU

Page 3: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Análisis gráfico y descriptivo de una variable (II)

3

Renta per cápita en EEUU (y)Estadísticos principales, usando las observaciones 1959 - 1995para la variable 'y' (37 observaciones válidas)

Media 13940,Mediana 14099,Mínimo 8604,3Máximo 18803,Desviación típica 3209,8C.V. 0,23025Asimetría -0,17109Exc. de curtosis -1,1960

0

2e-005

4e-005

6e-005

8e-005

0,0001

0,00012

0,00014

5000 10000 15000 20000

Den

sida

d

y

yN(13940 3209,8)

Estadístico para el contraste de normalidad:

Chi-cuadrado(2) = 4,095 [0,1291]

Cuanto más parecidas son la media y la mediana, máshomogénea es la muestra. Como medidas de dispersión,además de la Desviación típica (DT), se calcula elCoeficiente de Variación (C.V) como el ratio entre la DT y lamedia (en valor absoluto). Este coeficiente es adimensional.

Page 4: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Análisis gráfico y descriptivo de una variable (III)

4

Consumo per cápita en EEUU (c)Estadísticos principales, usando las observaciones 1959 - 1995para la variable 'c' (37 observaciones válidas)

Media 11329,Mediana 11481,Mínimo 7274,9Máximo 15203,Desviación típica 2505,2C.V. 0,22114Asimetría -0,073928Exc. de curtosis -1,2195

0

2e-005

4e-005

6e-005

8e-005

0,0001

0,00012

0,00014

0,00016

4000 6000 8000 10000 12000 14000 16000 18000

Den

sida

d

c

cN(11329 2505,2)

Estadístico para el contraste de normalidad:

Chi-cuadrado(2) = 3,725 [0,1553]

Los momentos de tercer y cuarto orden son la asimetría yel exceso de curtosis, sabiendo que la curtosis de unaNormal es tres. En estos datos, hay defecto de curtosis. Sedibuja el histograma de los datos frente a la normal y secalcula un estadístico para contrastar normalidad.

Page 5: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Análisis gráfico y descriptivo de dos variables (IV)

Datos de sección cruzada: Salario (wage) en dólares por hora en función del nivel de educación del individuo

5

0

5

10

15

20

25

30

35

40

45

50

1 1,5 2 2,5 3 3,5 4 4,5 5

wag

e

educ

wage con respecto a educ (con ajuste mínimo-cuadrático)

Y = 6,19 + 1,44X

Se representa el salario(wage) de 1472 individuoscon respecto a su educación(medida en 5 niveles). Elnivel 1 es el de más bajaeducación y el 5 el más alto.Obsérvese que para unmismo nivel de educación,hay varios individuos consalarios muy diferentes.

Se aprecia una claraasociación positiva entresalario y educación, pero noestá clara una relación linealentre ambas variables

Page 6: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Análisis gráfico y descriptivo de dos variables (V)

Salario en dólares por horaEstadísticos principales, usando las observaciones 1 – 1472 para la variable 'wage' (1472 observaciones válidas)

Media 11,051Mediana 10,127Mínimo 2,1910Máximo 47,576Desviación típica 4,4505C.V. 0,40274Asimetría 1,9534Exc. de curtosis 7,3180

6

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 10 20 30 40

Den

sida

d

wage

wageN(11,051 4,4505)

Estadístico para el contraste de normalidad:

Chi-cuadrado(2) = 713,391 [0,0000]

El histograma de los datos de salarios muestra un elevado exceso de curtosis(7,318), es decir, una distribución mucho más apuntada que la distribuciónnormal. El contraste rechaza la hipótesis de normalidad con total contundencia.

A veces, una variable en nivel no es normal, pero sí en logaritmos. El logaritmocontrae los valores numéricos grandes y expande los valores pequeños. Por ello,esta transformación induce normalidad.

Page 7: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Análisis gráfico y descriptivo de dos variables (VI)

Tabulación cruzada de educ (filas) contra male (columnas)

[ 0][ 1] TOT.

[ 1] 23 76 99[ 2] 70 195 265[ 3] 162 258 420[ 4] 192 164 356[ 5] 132 200 332

TOTAL 579 893 1472

7

Suponga que además de lavariable deeducación, se incluyeinformación sobre el sexo delindividuo (male: 1 si es hombre,0 si es mujer)

La tabla cruzada de la izquierdainforma que de un total de 1472individuos 579 son mujeres y893 son hombres. Ademásinforma de cuántas mujeres yhombres tienen cada nivel deeducación considerado (del 1 al5)

Tablas cruzadas: otro instrumento descriptivo para secciones cruzadas

Page 8: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (I)• Un paso adicional al análisis gráfico y/o

descriptivo de los datos es construir un modelolineal que relacione dos variables.

• El más sencillo es el llamado modelo deregresión lineal simple, en donde una variablede interés (endógena) viene explicada por laevolución de otra llamada variable explicativa(exógena).

• Ejemplo: la función de Consumo Keynesianadonde la variable endógena es el Consumo (C)y la variable explicativa es la Renta (R).

8

Page 9: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (II)Se quiere estimar la función deconsumo

donde y son los parámetros dela regresión, interpretados como elconsumo autónomo y la propensiónmarginal a consumir, respectivamente.El error es aleatorio y cualquiervariable diferente a la Renta queexplique el Consumo en ese momentoestará recogido en él.

Se dibuja en el plano el par de valoresde Consumo y Renta observados encada año (NUBE DE PUNTOS REAL).

0 1t t tC R

0 1ˆ ˆ ˆ

t tC R

Si el modelo es lineal, una estimaciónposible es una recta llamada RECTA DEAJUSTE. La distancia entre cada punto dela nube y la recta de ajuste es el residuo

6000

7000

8000

9000

10000

11000

12000

13000

14000

15000

16000

10000 12000 14000 16000 18000

Cons

umo

Renta

Consumo con respecto a Renta EEUU

Y = 463, + 0,779X

b0 b1

te

Page 10: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (III)• El residuo es medible, tiene signo y la misma

unidad de medida que el consumo.

• Se calcula para cada instante de tiempo, comola distancia entre el valor del consumoobservado y el valor de consumo generado oajustado por el modelo . Es decir:

• Los residuos se pueden dibujar (en este caso, alo largo del tiempo). Nótese que mientras que elerror es no observable, el residuo se calcula.

ˆˆ t t tC C

10

tCˆ

tC

Page 11: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (IV)

11

-400

-300

-200

-100

0

100

200

300

1960 1965 1970 1975 1980 1985 1990 1995

resid

uo

Residuos de la regresión (= c observada - estimada)

Gráfico temporal de los residuos de la regresión lineal simple del Consumo con respecto a la Renta en términos per cápita para EEUU

El gráfico de la izquierda muestrala evolución temporal de losresiduos resultantes (en algunosaños positivos, en otros cero y enotros negativos).

Si el residuo es positivo en eseaño el Consumo observadosupera al estimado por la recta,luego el modelo infraestima elverdadero valor del Consumo. Siel residuo es cero, en ese año larecta ajusta perfectamente y si esnegativo, el modelo sobrestima elverdadero dato del Consumo.

Page 12: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (V)

12

7000

8000

9000

10000

11000

12000

13000

14000

15000

16000

1960 1965 1970 1975 1980 1985 1990 1995

c

c observada y estimada

estimadaobservada

El gráfico de la izquierda muestrala evolución conjunta delConsumo observado y delConsumo ajustado ( o estimado)por el modelo (recta de ajuste). Ladistancia en cada año de lamuestra es el residuo MCO.

El residuo tiene la misma escalaque el Consumo.

Este gráfico y el de los residuosresultantes, ofrecen la mismainformación.

Page 13: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (VI)Objetivo: Estimar los parámetros de unaregresión simple de forma que se cumpla algúncriterio de optimalidad. Si el criterio es minimizarla suma de los cuadrados de los residuos:

222

0 11 1 1

ˆ ˆ ˆˆmin min minn n n

t t t t tt t t

C C C R

Estimación por MCO(Mínimos Cuadrados Ordinarios)

13

Page 14: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (VII)

2 20 1

1 1

ˆ ˆˆmin min ( )n n

t t tt t

C R

2

10 1

10

ˆˆ ˆ2 ( ) 0ˆ

n

t nt

t tt

C R

2

10 1

11

ˆˆ ˆ2 ( ) 0ˆ

n

t nt

t t tt

C R R

14

Condiciones de primer orden:

Page 15: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (VIII)• Este es un sistema de dos ecuaciones con dos

incógnitas y Resolviendo:

0 1 0 11 1

ˆ ˆ ˆ ˆ0n n

t tt t

C n R C R

1 11

2 2 2

1 1

( )( )ˆ

( )

n n

t t t tt t

n n

t tt t

C R nCR C C R R

R nR R R

15

b̂0 b̂1

donde y son las medias muestrales de Consumo y RentaC R

Page 16: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (IX)Recapitulando, dado siguiente el modelo lineal simple

y una muestra de tamaño n de las variables y la estimación puntual por MCO de los dos parámetros se lleva a cabo estimando primero la pendiente y luego, la constante:

16

t t tC Rb b e= + +0 1

tC tR

11

2

1

( )( )ˆ

( )

n

t tt

n

tt

C C R R

R R

0 1

ˆ ˆC R

Page 17: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (X)• Relación de la estimación de la pendiente con el

coeficiente muestral de correlación lineal entre las dos variables:

ˆcov[ ]ˆ ˆvar[ ] var[ ]

t tCR

t t

C RC R

1ˆcov[ ]ˆˆvar[ ]

t t

t

C RR

17

Page 18: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (XI)• Por tanto:

• donde s e [ ] denota la desviación típica muestral de la variable.

• No son iguales, sino directamente proporcionales ytienen el mismo signo. El coeficiente de correlación esadimensional y está acotado entre -1 y 1.

ˆvar[ ]ˆcov[ ]ˆ ˆ ˆvar[ ] var[ ] var[ ]

tt tCR

t t t

RC RC R R

1 1

ˆv a r [ ] [ ]ˆ ˆ[ ]ˆv a r [ ]

t tC R

tt

R s e Rs e CC

18

Page 19: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Regresión lineal simple (XII)Coeficiente de correlación entre Consumo y Renta

corr(c, y) = 0,99862710

Modelo: MCO, usando las observaciones 1959-1995 (T = 37)Variable dependiente: c

Coeficiente Desv. Típica Estadístico t Valor p -----------------------------------------------------------------const 463,177 98,7912 4,688 4,10e-05 ***y 0,779419 0,00691064 112,8 1,99e-046 ***

Media de la vble. dep. 11328,65 D.T. de la vble. dep. 2505,241Suma de cuad. residuos 619971,4 D.T. de la regresión 133,0920R-cuadrado 0,997256 R-cuadrado corregido 0,997178F(1, 35) 12720,51 Valor p (de F) 1,99e-46Log-verosimilitud -232,4412 Criterio de Akaike 468,8824Criterio de Schwarz 472,1042 Crit. de Hannan-Quinn 470,0182

19

En la regresión lineal simple, el coeficiente de correlación lineal simple al cuadrado coincide con el R-cuadrado (0.997256)

Page 20: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Transformación logarítmica y semilogarítmica

Modelo teórico

Interpretaciónmatemática

Interpretaciónconceptual

Cambio esperado en ytcuando xt aumenta en una unidad

Elasticidad. Cambio porcentual en yt cuando xt aumenta en un 1%

Semielasticidad. Cambio porcentual en yt cuando xt aumenta en 1 unidad

Semielasticidad. Cambio en yt en unidades cuando xt aumenta en un 1%

t t ty x

ln lnt t ty x

ln t t ty x

lnt t ty x

t

t

yx

%%

t

t

yx

%100 t

t

yx

1 0 0 %t

t

yx

Page 21: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Data Set 1: Datos de Anscombe (I)• Usando los datos de Anscombe disponibles en

los archivos de datos de muestra de Gretl, sepide estimar por MCO las cuatro regresionessimples siguientes:

21

1 11 12 1 1t t ty x

2 21 22 1 2t t ty x

3 31 32 1 3t t ty x

4 41 42 2 4t t ty x

Page 22: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Data Set 1: Datos de Anscombe (II)

4

6

8

10

12

2 4 6 8 10 12 14 16

X1

Y1

2

4

6

8

10

2 4 6 8 10 12 14 16

X1

Y2

4

6

8

10

12

14

2 4 6 8 10 12 14 16

X1

Y3

4

6

8

10

12

14

5 10 15 20

X2

Y4

Page 23: Tema 2: Análisis gráfico y estadístico de relaciones · La tabla cruzada de la izquierda informa que de un total de 1472 individuos 579 son mujeres y 893 son hombres. Además informa

Tareas a realizar por el alumno

(1) Estimar por MCO las cuatro regresiones linealesusando Gretl.

(2) Especificar y estimar otras relaciones entre y2 y x1 deforma que el ajuste de los datos mejore. Por ejemplo,pruebe a introducir como regresores x1 y su cuadrado,o bien, sustituir x1 por su logaritmo neperiano.

(3) Reestime la regresión de y3 sobre x1, eliminando eltercer par de valores de ambas variables. ¿Cómocambian los resultados?

(4) ¿Es posible estimar la regresión de y4 sobre x2,eliminado el octavo par de valores de ambasvariables? Calcule la varianza muestral de x2 y lavarianza de la pendiente de la regresión.