UNIDAD I
description
Transcript of UNIDAD I
1
INTRODUCCIN
Bienvenido al curso Anlisis Estadstico
David Huntsberger nos dice: la palabra estadstica a menudo nos trae a la mente imgenes de nmeros apilados en grandes arreglos y tablas, de volmenes de cifras relativas a nacimientos, muertes, impuestos, poblaciones, ingresos, deudas crditos y as sucesivamente. David tiene razn, pues, al instante de escuchar estas palabras, stas son las imgenes que llegan a nuestra cabeza.
La Estadstica es mucho ms que slo nmeros apilados y grficas bonitas. Es una ciencia con tanta antigedad como la escritura, y es por s misma auxiliar de todas las dems ciencias. Negocios, mercadeo, economa, agricultura, educacin, psicologa, sociologa, antropologa, biologa, medicina, ingeniera, los gobiernos, etc. Se nombran entre los ms destacados clientes de sta.
La ausencia de la Estadstica conllevara a un caos generalizado, dejando a los administradores, educadores y ejecutivos sin informacin vital a la hora de tomar decisiones en tiempos de incertidumbre.
La estadstica que conocemos hoy en da debe gran parte de su realizacin a los trabajos matemticos de aquellos hombres que desarrollaron la teora de las probabilidades, con la cual se adhiri a las ciencias formales.
Deseo que los contenidos que se presentan, motiven su reflexin sobre el rol que va a desempear como docente promotor de cambios en el contexto educativo nacional.
Los contenidos y anexos de las unidades didcticas le proporcionarn informacin importante referente a la Estadstica y su uso en el quehacer humano. Lalos detenidamente, desarrollando luego las actividades que se indican.
ORIENTACIONES METODOLGICAS
CUL ES EL PROPSITO DEL MANUAL AUTO INSTRUCTIVO?El objetivo de este MAI es ayudar a conocer, vencer las dificultades en tu preparacin y crear habilidades en el empleo del Anlisis Estadsticoa, de forma autodidacta o bajo la direccin de un tutor.
Para lograrlo se emplea un curso eminentemente prctico que incluye los mtodos y tcnicas estadsticas bsicas empleadas en las investigaciones y aplicadas a la solucin de problemas.
El sistema comprende dos elementos fundamentales:
El MAI, que explica la teora de manera clara, con ejemplos de la vida diaria y de investigaciones realizadas.
La calculadora para facilitar los clculos. Adicionalmente se puede utilizar cualquiera de los paquetes estadsticos existentes.
INDICACIONES AL ALUMNOPrepararlo para enfrentar el procesamiento estadstico en una investigacin es el objetivo de este manual. Esta preparacin lo lleva a vas de hecho desarrollando un programa acadmico cuidadosamente elaborado, de tal forma que podr aprender a sistematizar los contenidos.
Posee un enfoque que facilita la construccin del conocimiento. Est orientado a la solucin de problemas prcticos y le inicia en el uso de asistentes estadsticos.
En cada tema, estructurado para propiciar su participacin activa en el proceso de enseanza- aprendizaje, hay un resumen terico de los conceptos bsicos; adems un acceso a ejercicios resueltos y propuestos, para que consolide los conceptos.
Espero, logre los propsitos que se ha trazado al utilizar este MAI y le deseo, adems, xitos en su labor.
QUE COMPRENDE EL MANUAL AUTO INSTRUCTIVOEl MAI consta de cuatro unidades didcticas.
- En la primera unidad se trata sobre el anlisis de regresin simple, mltiple y series temporales.
- En la segunda, anlisis de varianza; anlisis de covarianza, nocin y tipos
- En la tercera, anlisis factorial, anlisis de senderos
- En la cuarta, anlisis de componentes principales; anlisis discriminanteEVALUACIONES Y CALCULADORAEVALUACIONES, PARA QU?
Las evaluaciones en cada unidad sirven para comparar el nivel alcanzadopor los alumnos. Permiten la retroalimentacin necesaria y la toma de decisiones que cada caso requiere. La evaluacin final permite conocer el grado de preparacin alcanzado a la vez que prepara a los alumnos para su ingreso al nivel superior.
LA CALCULADORA, PARA QU?
La calculadora cientfica ejecuta con facilidad y precisin clculos que suelen ser necesarios en las distintas actividades
PRIMERA UNIDADANALISIS DE REGRESIN SIMPLE, MULTIPLE Y SERIES TEMPORALES
a travs del
para y
y
COMPETENCIAS A LOGRAR
CONCEPTUALESPROCEDIMENTALESACTITUDNALES
Conceptualiza el anlisis de regresin simple.
Interioriza el anlisis de resgresin mltiple. Internaliza el anlisis de correlacin Estudia el anlisis de las series temporales
Ejemplifica el anlisis de regresin simple y mltiple.
Investiga sobre las series temporales
Resuelve problemas utilizando los diferentes tipos de regresin. Resuelve problemas de correlacin Realiza inferencias sobre la regresin y correlacin Reconoce el uso que se hace del anlisis de regresin y correlacin Confianza en su capacidad de plantear y resolver problemas
CONCEPTOS CLAVES
Distribuciones bidimensionales, modelo lineal, pendiente de recta, ecuacin de regresin, ecuacin de correlacin, coeficiente de regresin y correlacin, serie temporal.
LECCIN N 01ANALISIS DE REGRESIN
INTRODUCCIN
Los mtodos estadsticos presentados hasta ahora han tratado, todos, con una sola variable x, sin embargo muchos de los problemas del trabajo estadstico, tratan con un nmero mayor de variables. Un profesor puede estar interesado en conocer de qu manera se puede predecir el rendimiento en aritmtica de un estudiante con base en el puntaje obtenido en una prueba de aptitud en dicha asignatura. Un psiclogo desea saber si existe alguna relacin entre el concepto que tiene un alumno de s mismo y su promedio de notas. Un socilogo puede estar interesado en saber que clase de relacin existe entre la tasa de delincuencia juvenil que hay en una comunidad y el grado de hacinamiento de los hogares que all se encuentran. Un mdico se puede interesar en la relacin que existe entre el uso del tabaco y las afecciones cardiacas. Un economista en la relacin entre los precios de la Bolsa y la tasa de inflacin, entre la edad de los obreros calificados y su productividad.
Otros ejemplos:
1. Pulso y temperatura de los enfermos de un hospital
2. Edad y nmero de das que trabajan los empleados de una fbrica.
3. Produccin y ventas de una fbrica
4. Latitudes y temepraturas medias de las capitales de un conjunto de pases.
En esta y las siguientes lecciones nos dedicaremos a la explicacin de dos de las tcnicas para la elaboracin de datos asociados con dos o ms variables.
En forma especfica, el anlisis de correlacin y regresin comprende el anlisis de los datos muestrales para saber si y como se relacionan entre si dos o ms variables en una poblacin. El anlisis de correlacin produce un nmero que resume el grado de relacin entre dos variables y el anlisis de regresin da lugar a una ecuacin matemtica que describe dicha relacin. Con frecuencia en educacin y psicologa, se da mayor importancia a la determinacin de la fuerza de la relacin; en otras disciplinas, como administracin de empresas, agricultura, investigaciones mdicas, se concentra ms la atencin en la naturaleza de la relacin y el anlisis de regresin constituye el instrumento principal.
El anlisis de regresin es til para averiguar la forma probable de la relacin entre variables y, cuando se emplea este mtodo de anlisis, el objetivo final por lo general es predecir o estimar el valor de una variable, correspondiente a un valor dado de otra variable
En el problema tpico de regresin, como en la mayora de los problemas de la estadstica aplicada, el investigador cuenta, para el anlisis, con una muestra de observaciones de alguna poblacin real o hipottica. Por lo tanto, es importante que el investigador comprenda la naturaleza de la poblacin en la que est interesado, conocer lo suficiente acerca de la poblacin, para ser capaz de construir un modelo matemtico que la represente. Un investigador que va a analizar un conjunto de datos por los mtodos de la regresin lineal simple, debe tener la seguridad de que el modelo es, al menos una representacin aproximada de su poblacin, teniendo en cuenta que es improbable que el modelo sea un retrato perfecto de la situacin real; adems es necesario tener presente que los resultados obtenidos del anlisis de datos que se ha forzado en un modelo al que no se ajustan, no tienen valor.
1.1 SUPOSICIONES QUE FUNDAMENTAN LA REGRESIN LINEAL SIMPLE.
En el modelo de regresin lineal simple interesan dos variables, X e Y. Por lo general a la variable X se le conoce como variable independiente, ya que se encuentra bajo el control del investigador, es decir, los datos son seleccionados por el investigador y correspondiendo a cada valor preseleccionado de X, se obtienen uno o ms valores de Y, a quien se le llama variable dependiente. Las suposiciones son:
1. Se dice que los valores de la variable independiente X son fijos, es decir que sus valores son preseleccionados por el investigador y no pueden ser variados.
2. La variable X se mide sin error, esto significa que se desprecia la magnitud del error de medicin de X.
3. Para cada valor de X existe una sub poblacin de valores de Y. Estas sub poblaciones deben estar normalmente distribuidas.
4. Las varianzas de las sub poblaciones de Y son todas iguales.
5. Los valores Y son estadsticamente independientes.
Estas suposiciones se pueden resumir por medio de la siguiente ecuacin que se conoce como modelo de regresin:
Y = o+ (1x + e
Donde y es un valor tpico de una de las sub poblaciones de Y, o y (1 se llaman coeficientes de regresin de la poblacin. Geomtricamente o y (1 representan la ordenada al origen y la pendiente, respectivamente, de la recta sobre la cual se supone que estn las medias; e se llama trmino de error e indica la cantidad en la que y se desva de la media de las subpoblaciones de Y de la cual se extrae.
En la figura siguiente se da una representacin grfica del modelo de regresin:
1.2 RECTA DE MNIMOS CUADRADOS
El mtodo que por lo comn se emplea para obtener la recta deseada se conoce como mtodo de los mnimos cuadrados y la recta resultante se llama recta de los mnimos cuadrados. Y P * *
*
*
* *
*
X Figura 1.2Designemos las observaciones muestrales por: X1, X2,, Xn; Y1, Y2,, Yn. Podemos designar las medias aritmticas por:
Sobre el diagrama de dispersin de la figura 1.2 trazamos perpendiculares a los ejes, estas perpendiculares representan a . A travs de las observaciones queremos hacer pasar una recta que sirva de estimacin de la verdadera lnea
+ X. Designemos la lnea estimada por: en donde son estimaciones de los parmetros desconocidos o, (1 e es la ordenada de la recta para cualquier valor dado de X. para ajustar una lnea de este tipo debemos obtener frmulas para en funcin de las observaciones muestrales. Mostraremos cmo se obtienen por el mtodo de los mnimos cuadrados.Definamos la diferencia vertical entre P y la lnea estimada por . Estos residuos o desviaciones sern positivos o negativos segn que el punto real se encuentre por encima o por debajo de la lnea. Si se elevan al cuadrado y se suman, la cantidad resultante ser no nula y variar directamente con la dispersin de los puntos respecto a la lnea. Diferentes pares de valores de sern diferentes lneas y, en consecuencia, valores diferentes para la suma de los cuadrados de los residuos respecto a la lnea. As tendremos
El principio de los mnimos cuadrados es el de que los valores debern escogerse de tal forma que hagan lo ms pequea posible, y que las derivadas parciales de la suma con respecto a debern ser iguales a cero. Podremos escribir por lo tanto,
Se puede determinar el valor de y diferenciando la ecuacin anterior primero con respecto a y luego con respecto a y luego el resultado igualando acero.
Los valores estimados y reemplazando 0 y 1 por a y b, se tiene:
Resolviendo,
Al ordenar estas ecuaciones queda lo que se llama ecuaciones normales
La solucin para b es:
La solucin de las ecuaciones normales para a es: a = (( xi2)( ( yi) (( xi )((xi yi) = n ( ( xi2 ) - (( xi )2La ecuacin de la lnea de regresin queda: Y = a + bx y la ecuacin estimada ser Veamos como aplicamos la frmula; cmo la desarrollamos y cmo efectuamos la prediccin.PROCEDIMIENTO
1. Determinar la variable independiente (X) y la dependiente (Y)
2. Construir el diagrama de dispersin
3. Calcular los parmetros a y b
4. Escribir y graficar la ecuacin de regresin
5. Realizar si fuera necesario el pronstico
Ejemplo. Supongamos el siguiente cuadro donde se anotan los puntajes obtenidos por los alumnos de Educacin a Distancia en una prueba de habilidad mental y de aptitud acadmica. AlumnosPrueba de habilidad mentalAptitud acadmica
Eduardo1532
Katy4555
Miguel5055
Carla3845
Mery4555
Susana2030
Juan4235
Luca4650
Jenny3845
1: Observamos que en dicho cuadro la variable prueba de habilidad mental es la variable independiente X y la variable aptitud acadmica es la variable dependiente Y
2. DIAGRAMA DE DISPERSIN.
Es la forma grfica de ver si existe o no relacin lineal entre las variables X e Y. Cmo reconocer buena o mala relacin
Dado un valor de X no podemos decir gran Conocido X sabemos que Y se mueve por
cosa sobre Y. Mala relacin una horquilla estrecha. Buena relacin
Lo de horquilla estrecha hay que entenderlo con respecto a la dispersin que tiene la variable Y por si sola, cuando no se considera XCmo reconocer relacin directa e inversa
Para valores de X por encima de la media Para los valores de X mayores que la media tenemos valores de Y por encima y por debajo le corresponden valores de Y mayores proporciones similares. Incorrelacin Para los valores de X menores que la media le
corresponden valores de Y tambin menores.
Esto se llama relacin directa o creciente entre XeY
Para los valores de X mayores que la media le
corresponden valores de Y menores. Esto es relacin inversa o decreciente entre X e Y.
Para nuestro ejemplo, dibujemos el diagrama utilizando el sistema cartesiano, donde en el eje x se anota los valores de la variable independiente ( X) y en el eje y los valores de la variable dependiente ( Y).
60
* *
50 *
*
40
* *
30 *
20
15 20 25 30 35 40 45 50
Si observamos el grfico, vemos que los puntos dan la sensacin de ascender en lnea recta de izquierda a derecha y podemos trazarla.3. Ahora vamos a realizar las operaciones necesarias para calcular el valor de los parmetros a y b de la ecuacin de regresin y para ello volvemos a copiar el cuadro de nuestro ejemplo, donde escribimos las variables X e Y, obviando los datos adicionales.
xYX2XYY2
1532 225 4801024
4555202524753025
5055250027503025
3845144417102025
4555202524753025
2030 400 600 900
4235176414701225
4650211623002500
3845144417102025
( 339 402 13943 15970 18774
Reemplazando estos resultados en la frmula de b y a respectivamente
b = 9 (15970) ( 339 )( 402) = 0.7053
9 ( 13943 ) - ( 339 )2 a = ( 402 ) ( 13943 )- ( 339) ( 15970 ) = 18. 1011
9 ( 13943 ) ( 339 )24. Luego la ecuacin de regresin ser y = 18.1011 + 0.7053 x.
El resultado de esta ecuacin nos dice que cuando el puntaje obtenido en habilidad acadmica vara en un punto, el puntaje obtenido en aptitud acadmica lo hace en 0.7053.
Con la ecuacin hallada podemos predecir el puntaje obtenido en aptitud acadmica cuando el puntaje en habilidad acadmica es por ejemplo 35. Para ello reemplazamos la x de la ecuacin por el nmero 35 y escribiremos:
Este resultado nos indica que cuando el puntaje en habilidad acadmica es 35, el puntaje estimado en aptitud acadmica es 43.
1.3 ERROR ESTANDAR DE ESTIMACIN
Una til medida de la exactitud de la prediccin cuando se usa una lnea de regresin para hacer predicciones se obtiene calculando la media de la suma de cuadrados. La suma de cuadrados se divide entre n-2 para obtener una estimacin insesgada de la varianza del error.
Una de las frmulas a usar es la siguiente:
Sx = ( y2i a (yi - b (xiyi n 2
Para ilustrar el uso de esta frmula, calcularemos Sx en el ejemplo enunciado para hallar la ecuacin de regresin.
Sx = 18774 - 18.1011(402 ) - 0.7053 ( 15970 ) = 5.779
7
Esto quiere decir que la recta de ajuste tendr un posible error de +- 5.779 puntos de nota o calificativo.
EJERCICIOS PROPUESTOS
1. Nos interesa conocer en un grupo de 12 personas la relacin entre el inters por los acontecimientos polticos y sociales del pas y la lucha verdadera frente a tales acontecimientos. Se aplican dos tipos de escalas ordinales. Hallar el coeficiente regresin.
Persona A B C D E F G H I J K L
Inters 2 6 5 1 10 9 8 3 4 12 7 11
Lucha 3 4 2 1 8 11 10 6 7 12 5 9
2. Se sabe que las producciones de algodn de un pas, expresadas en millones de toneladas, fueron: Aos 1989 90 91 92 93 94 95 96 97
Produccin 8 10 12 15 15 18 19 23 30 La produccin de algodn en el ao 2000 ser?
3. En un estudio sobre la relacin entre la satisfaccin en el trabajo y las aptitudes, los investigadores recolectaron datos con diez profesionales, se tiene los siguientes puntajes:
Puntaje satisfac. 58 54 67 64 66 73 70 85 74 85
Puntaje aptitud 50 55 60 65 70 75 80 85 90 95
Qu puntaje de satisfaccin corresponde a 93 de aptitud?4. La tabla muestra el nmero de horas por semana que gastaron diez universitarios estudiando y su promedio de puntaje de notas acumulativas.
Promedio notas 2.1 2.7 2.6 2.5 3.5 3.0 3.5 3.7 2.9
Horas de estudio 5 6 7 8 9 10 11 12 13 Cul ser el promedio de notas para 16 horas de estudio?LECCIN N 02INFERENCIAS RESPECTO A LOS PARMETROS iSi en una poblacin de inters, X e Y no estn relacionadas linealmente, la pendiente de la lnea de regresin de la poblacin, 1, ser 0 y las medias de las subpoblaciones de Y sern todas iguales. Pero si 1 no es igual a 0, habr alguna relacin entre X e Y.En consecuencia , al evaluar una ecuacin de regesin muestral, podemos, emplear un procedimiento basado directamente en la pendiente de la lnea. Si podemos rechazar la hiptesis nula de que 1 = 0 , concluimos que X e Y estn relacionadas linealmente.Se puede demostrar que la distribucin muestral de la pendiente muestral b1 est normalmente distribuida con una media igual a 1 y una varianza igual a Donde es la varianza poblacional del error, esto es, la varianza comn que, se supone, es igual a las varianzas de las subpoblaciones Y. En general, para cualquier modelo lineal de regresin, si el error aleatorio tiene una distribucin normal, se establece que es un estimador insesgado con una distribucin normal que tiene
y Es decir las varianzas de los dos estimadores son mltiplos constantes de 2, la varianza del trmino de error del modelo. Con esta informacin podemos construir una prueba de la hiptesis Ho: ( es un valor especfico de ) con el estadstico de prueba: donde y Que sigue la distribucin normal estandarizada. Cuando la varianza poblacional del error es desconocida, pero podemos estimarla mediante la media cuadrtica del error de la muestra, MCE. El estadstico de prueba se transforma en: , que se distribuye como la distribucin t de Student con n-2 grados de libertad.
Para verificar Ho: 1= 0, sustituimos a 10 por 0 en la ecuacin de la t.Ejemplo 1. Sean los datos (n =5) que se dan en la siguiente tabla
xy
-2
-1
0
1
20
0
1
1
3
Presentan estos datos suficiente evidencia para indicar que la pendiente difiere de 0?. Haga la prueba con error 5% y establezca los lmites para el nivel de significacin alcanzado.
Solucin
Se tiene como datos calculados:
a)1. Ho: 1=0 ; Ha: 10
2. error 5%
3. El estadstico de prueba es la t con n-2 gl. Entonces t(0.025,3) = 3.182
4. 5. Como 3.65 > 3.182, rechazamos la Ho y aceptamos la Ha que nos indica que la pendiente difiere de 0..
b) Ahora construiremos el intervalo de confianza, cuya ecuacin, teniendo en cuenta que el estadstico de prueba es t, es la siguiente
Luego el I.C. ser Que al sustituir por sus valores, resulta Ejercicios
1. Ajuste una recta a los cinco puntos dados.
xY
3
2
1
1
0.5-2
-1
0
1
2
a) Obtenga las estimaciones de o y 1 b) Presentan los datos evidencia suficiente para indicar que la pendiente 1,
difiere de 0?
c) Encuentre un intervalo de confianza de 95% para 12. Los promedios de los precios de venta de casas nuevas para una sola familia durante un periodo de ocho aos se indican en la tabla siguiente. Sea Y el promedio de los precios de venta y X el ao (representados con los nmeros 1, 2, 3, .., 8).
AoPrecio promedio de
Venta (en miles de $)
1972 (1)
1973 (2)
1974 (3)
1975 (4)
1976 (5)
1977 (6)
1978 (7)
1979 (8)27.6
32.6
35.9
39.3
44.2
48.8
55.7
62.9
a) Ajuste el modelo b) Hay suficiente evidencia que permita afirmar que el promedio de los precios de venta de casas nuevas parra una sola familia se ha incrementado durante el periodo 1972-1979 con 5% de error?
3. El octanaje Y de petrleo refinado depende de la temperatura X del proceso de refinacin, pero tambin de la dimensin de la partcula del catalizador. Un experimento con un catalizador de partculas pequeas dio como resultado una recta ajustada de , con n= 31, y SSE = 2.04. Un experimento independiente con un catalizador de partculas grandes dio como resultado
, con n = 11, y SSE = 1.86 a) Pruebe la hiptesis de que las pendientes difieren en forma significativa de cero con un nivel significativo de 0.05 para cada prueba.
b) Pruebe con un nivel de significancia de 0.05, que los dos tipos de catalizador producen la misma pendiente en la relacin entre el octanaje y la temperatura.
LECCIN N 03AMPLIACIONES DEL MODELO LINEAL DE DOS VARIABLES
En la leccin anterior nos hemos centrado en las relaciones lineales entre dos variables; se requiere ampliar el estudio para cubrir el caso de relaciones no lineales entre dos variables.
3.1 RELACIONES NO LINEALES ENTRE DOS VARIABLESLas transformaciones comnmente utilizadas son la logartmica y la inversa, con las cuales se puede abarcar una amplia variedad de relaciones no lineales. La dificultad es que el hacer transformaciones para conservar los clculos en un sencillo armazn lineal puede conducir a quebrantar algunos de los supuestos bsicos que fundamentan las tcnicas lineales. Por otra parte, existen a veces casos en que las transformaciones mejoran la validez de ciertos supuestos bsicos,Para ilustrar el uso de las transformaciones, supongamos que tenemos una variable Z que crece aproximadamente a una razn de unidad de tiempo t, de una perturbacin v, entonces escribimos
Zt = ABtvt donde B = 1+gTomando logaritmos en ambos miembros, resulta
Log Zt = Log A + t(log B) + log vtSi definimos: Yt = Log Zt ; Xt = t; = log A; i = log B; t = log vt, se puede escribir de nuevo de la siguiente forma. ( modelo lineal conocido)Ejemplo
Sea la produccin anual de carbn bituminoso (1000 toneladas netas)
DecenioProduccin anual media
(1000 toneladas netas)
ZY= Log Z X = t
1931- 1940
1941- 1950
1951- 1960
1961- 1970
1971- 1980
1981- 1990
1991- 2000 1837
4868
12411
32617
82770
148457
322958 3.26413.6873
4.0937
4.5136
4.9179
5.1718
5.5092-3-2
-1
0
1
2
3
Puesto que X representa el tiempo, introduciendo 1, 2, 3, para conseguir una media muestral nula, las ecuaciones minimocuadrticas se convierten en:
Que dan Tomando antilogaritmos, tenemos Luego Esto da una razn de aumento de 137.7 por ciento cada decenio. La correspondiente razn de crecimiento anual g en que
, resultando g = 0.09; es decir un 9 por ciento de aumento anual.Es til tener una idea de las diversas no linealidades susceptibles de ser transformadas mediante la utilizacin de logaritmos e inversos. Las cifras que se acompaan explican algunos de los principales casos, en los que 0 y 1 son parmetros positivos y los logaritmos que se toman son siempre los de base e. Limitamos tambin las explicaciones al cuadrante positivo X,Y.
a) Transformacin semilogartmica X = ABY que se transforma en b) Transformacin doblemente logartmica o logartmica doble
i) Y=AX , se transforma en (aqu Log A = 0) ii) Y = AX-, se transforma en 3.2 MODELO GENERAL
En las lecciones anteriores se examinaron los fundamentos del anlisis de regresin para el modelo lineal simple. En esta leccin se extendern los conceptos ya presentados al modelo lineal general para el cual una respuesta dada se considera como una funcin de varias variables de prediccin. Al examinar este modelo se estudiarn algunas formas para determinar el mejor conjunto de variables de prediccin por incluir en la ecuacin de regresin.
MODELO LINEAL GENERAL.
Sean x1, x2, , xk, k variables de prediccin, las cuales pueden tener alguna influencia sobre uan respuesta Y, y supngase que el modelo tiene la forma donde Yi es la
; i = 1, 2, , n
i-sima observacin de la respuesta para un conjunto de valores fijos de las variables de prediccin, i es el error aleatorio no observable asociado con Yi, y son m = k+1 parmetros lineales desconocidos. La ecuacin anterior recibe el nombre de modelo lineal general y da origen a lo que se conoce como una regresin lineal mltiple.
Dada una muestra aleatoria de de observaciones Y1, Y2, , Yn en los puntos de observacin x11, x12, , xik, x21, x22,, x2k, , xn1, xn2, , xnk, respectivamente, con base en el modelo lineal general, se tiene las n ecuaciones siguientes:
.
Como resultado, el modelo lineal general tambin puede expresarse en forma matricial como
Y = X +
donde
Adems X es una matriz de n x m para las variables de prediccin, y es un vector de parmetros desconocidos de m x 1, mientras que Y y siguen siendo vectores de n x 1, los que contienen las observaciones de la variable de respuesta y los errores aleatorios asociados con stas, respectivamente.Si en estas matrices hacemos x0 = 1, se tiene
Bajo el caso de la teora normal Y ~ N(X, 2I)
~ N(0, 2I), donde V(Y) = V() = 2I
De esta manera Y y son vectores de variables aleatorias independientes normalmente distribuidas.
Para la estimacin de los parmetros por mnimos cuadrados las ecuaciones normales toman la forma
(XX)B = XY
Donde, ahora, (XX) es una matriz de m x n y B es un vector de m x 1 el cual contiene los estimadores de mnimos cuadrados b0, b1, , bk. A partir de esta expresin podemos encontrar los coeficientes de la regresin mltiple, es decir: B= (XX)-1XYQue en forma matricial se expresa
Por lo tanto, la ecuacin estimada de regresin es donde el vector de n x 1 contiene los valores estimados para la respuesta promedio correspondientes a los n puntos de observacin de las variables de prediccin. La diferencia entre los vectores Y y proporciona el vector de residuos.
Ejemplo 1. Los datos siguientes muestran el nmero de recmaras, el nmero de baos y los precios a los que se vendi recientemente una muestra aleatoria de casas unifamiliares en cierto conjunto habitacional grande:Nmero de recmaras
x1Nmero de baos
x2Precio ( dlares)
y
32
4
2
3
2
5
421
3
1
2
2
3
27880074300
83800
74200
79700
74900
88400
82900
Use el mtodo matricial para encontrar una ecuacin lineal que nos permita predecir el precio promedio de venta de una casa unifamiliar en el conjunto habitacional dado en trminos del nmero de recmaras y el nmero de baos. Solucin
Las cantidades que necesitamos para sustituir en las matrices son
; luego tenemos
La inversa de esta matriz se puede obtener por cualquiera de las tcnicas estudiadas en la asignatura de matemtica. El resultado es el siguiente
Ahora vamos a ingresar los datos en la matriz XY
Y finalmente realizando las operaciones, tenemos
Los coeficientes obtenidos son . Despus de redondear, la ecuacin de regresin, queda:
Y esto nos dice que cada recmara extra aade en promedio de $4133 y cada bao $758 al precio de venta de una casa.
As por ejemplo si queremos predecir el precio de venta de una casa con tres recmaras con dos baos se tendr:
dlares.
De la misma manera que en la regresin simple, utilizando el modelo general tambin se pueden hacer inferencias sobre los parmetros del modelo:
Ejemplo1. Pruebe la hiptesis nula 1 = 3500 contra la hiptesis alternativa 1 > 3500 en el nivel 0.05 de significancia
Clculos necesarios para hacer la prueba de hiptesis
i) BXY = C11=
ii) Realizando la prueba de hiptesis 1. Ho: 1 = 3500
H1: 1 > 3500
= 0.05
2. rechace la Ho si t 2.015, donde t es el valor de t(0.005, 5) 3. Utilizando la prueba t para probar la hiptesis
4. Puesto que t = 2.77 excede a 2.015, se debe rechazar la hiptesis nula; concluimos que en promedio cada recmara adicional aade ms de $3500 al precio de venta de una casa. EJERCICIOS PROPUESTOS1. Sean los datos proporcionados por una compaa de mudanzas sobre los pesos de seis embarques, las distancias que se trasladaron, y el dao en que se incurri.Peso
(1000 libras)
x1Distancia
(1000 millas)
x2Dao
(dlares)
Y
4.0
3.0
1.6
1.2
3.4
4.81.5
2.2
1.0
2.0
0.8
1.6160
112
69
90
123
186
a) Suponga que la regresin es lineal, estime o, 1, 2.
b) estime el dao cuando un embarque que pesa 2400 lbs, se traslada a 1200 millasc) Pruebe la hiptesis 1= 25 vs 1> 25 con el 5% de error.
2. Sea los datos de las utilidades semanales promedio (en $1000) de cinco restaurantes, su nmero de asientos y el trfico diario promedio (en miles de autos) que pasa por sus locales.
Nmero de asiento
x1Cuenta de trfico
x2Utilidades netas semanales
Y
120
200
150
180
24019
8
12
15
1623.8
24.2
22.0
26.2
33.5
a) Suponga que la regresin es lineal, estime o, 1, 2.
b) estime el promedio de la utilidad neta semanal de un restaurante con nmero de asientos de 210 en una localidad donde la cuenta del trfico diario promedia 14000 autos
c) Pruebe la hiptesis 1= 30 vs 1> 30 con el 5% de error.
LECCIN N 04ANALISIS DE CORRELACION Y COVARIANZACon alguna frecuencia el inters que hay en la relacin entre dos variables X e Y se concentra en determinar si estn o no relacionadas y, en caso afirmativo, en averiguar qu tan fuerte es la relacin. La tcnica analtica apropiada que se emplea en esta situacin, es el anlisis de correlacin. El trmino correlacin literalmente significa relacin mutua, ya que indica el grado en que los valores de una variable se relacionan con los valores de otra. Existen muchos ejemplos en los que puede existir una relacin posible entre dos variables, as tenemos:
1. Estn relacionadas la edad y la resistencia fsica?
2. Tienden a tener mayor escolaridad las personas con altos ingresos, en comparacin con las de bajos ingresos?
3. Parece influir la temperatura en el ndice de criminalidad?
4. Puede el xito en el trabajo predecirse a partir de calificaciones obtenidas en las pruebas de seleccin?
Estos y problemas semejantes se prestan a un anlisis de correlacin., donde el investigador toma una muestra aleatoria de unidades de asociacin (que pueden ser seres humanos, animales, lugares, cosas, puntos en el tiempo, etc) de la poblacin de inters y hace dos mediciones, una de X y una de Y, en cada unidad de asociacin de la muestra. El investigador toma cualquier valor de X (y tambin de Y) que est en la muestra.
El modelo a utilizar lo podemos expresar simblicamente de la siguiente manera: yi = (0 + (1x1 + (i
donde yi es un valor de Y, (0 y (1 son parmetro poblacionales, xi es el valor i de la variable X y (i es un trmino de error aleatorio.
En el anlisis de correlacin no distinguimos las variables X e Y segn sea una independiente y la otra dependiente, como lo hicimos en el anlisis de regresin, aqu las dos variables tienen el mismo status y se puede intercambiar las posiciones de X y Y, de tal manera que el modelo se puede escribir:
xi = (0 + (1y1 + (i
En consecuencia, podemos utilizar los datos de la muestra tomada de una poblacin bivariante para obtener una lnea de regresin muestral de Y sobre X o de X sobre Y. En general estas dos lneas no coinciden tal como se muestra en la siguiente figura.
4.1 SUPOSICIONES DEL MODELO DE CORRELACIN
1. Para cada valor de X, hay una subpoblacin de valores Y normalmente distribuida
2. La distribucin conjunta de X e Y es normal.
1. Las sub poblaciones de valores Y tienen todas la misma varianza
2. Las medias de las subpoblaciones de valores Y estn colocadas todas en la misma lnea recta.
3. Para cada valor de Y hay una subpoblacin de valores de X que est normalmente distribuida.
4. Las subpoblaciones de valores de X tiene todas la misma varianza.
5. Las medias de las subpoblaciones de valores X estn colocadas todas en la misma lnea recta
4.2 EL COEFICIENTE DE CORRELACIN
El coeficiente de correlacin, ( es el parmetro que presenta el inters primordial en la correlacin y es la medida de la correlacin entre dos variables, que existe en una poblacin bivariante. Puede asumir los siguientes valores:
Como rara vez conocemos, ( podemos estimarlo a partir de los datos de una muestra aleatoria de la poblacin de inters. La estimacin puntual de ( es r que se calcula con la siguiente frmula:
Ejemplo. Se proporcionan los datos de las calificaciones obtenidas por 10 alumnos de la Universidad Inca Garcilaso de la Vega en las pruebas tomadas para obtener el bachillerato y la licenciatura.NmeroEstudianteCalificaciones x ( Bachiller)Calificaciones y ( Licenciatura) x2Xy y2
1
2
3
4
5
6
7
8
9
10Jaime
Eduardo
Carolina
Marcia
Pedro
Jos
Lina
Susana
Luca
Jenny80
82
84
85
87
88
88
89
90
9110
10
21
14
21
17
20
35
31
246400
6724
7056
7225
7569
7744
7744
7921
8100
8281800
820
1764
1190
1827
1496
1760
3115
2790
2184100
100
441
196
441
289
400
1225
961
576
( 864 193 74764 16846 4209 Reemplazando en la frmula de la correlacin:
r = 10 ( 16846) ( 864 )( 193 ) = 0.726
( 10 ( 74764) ( 864 )2( (10 ( 4209 ) ( 193 )2(De acuerdo con sus valores asignados, la correlacin entre el puntaje obtenido por los estudiantes en las pruebas de bachillerato y licenciatura respectivamente es muy alta y positiva. EJEMPLO 2. Suponga que queremos determinar con base en los datos siguientes si hay una relacin entre el tiempo, en minutos, que tarda una secretaria en llenar cierto formulario en la maana y al final de la tarde
Maana
xTarde
Y
8.2
9.6
7.0
9.4
10.9
7.1
9.0
6.6
8.4
10.5 8.7
9.6
6.9
8.5
11.3
7.6
9.2
6.3
8.4
12.3
Calcule e interprete el coeficiente de correlacin
SolucinDe los datos obtenemos n = 10, x = 86.7, x2= 771.35, y = 88.8, y2=819.34, xy = 792.92, de donde
Luego Esto es un indicativo de una asociacin positiva entre el tiempo que le toma a una secretaria ejecutar la tarea dada en la maana y al final de la tarde.
Ahora vamos a probar hiptesis de correlacin, es decir , contra la alternativa apropiada.Utilizando los datos del ejemplo 2, probaremos la hiptesis nula contra la hiptesis alterna en el nivel 0.01 de significacin.Solucin
1. 2. Rechace la hiptesis nula si z -2.575 o z 2.575, donde z =
3. Al sustituir n = 10 y r = 0.936, obtenemos
4. Puesto que z = 4.5 excede a 2.575, debemos rechazar la hiptesis nula; concluimos que hay una relacin lineal entre el tiempo que tarda una secretaria en llenar el formulario en la maana y al final de la tarde.EJEERCICIO
1. Los datos siguientes corresponden a x, la cantidad de fertilizante ( en libras) que un agricultor aplica a su suelo, e y, es su rendimiento de trigo (en bshels por acre):
XY
112
92
72
66
112
88
42
126
72
52
2833
28
38
17
35
31
8
37
32
20
17
Calcule r para esos datos y pruebe la hiptesis nula en el nivel 0.05 de significancia4.3 COVARIANZA
Se llama covarianza de una variable bidimensional (X,Y) a la media aritmtica de los productos de las desviaciones de cada una de las variables respecto a sus medias. Su ecuacin:
Sxy = _______________ = __________ -
n n
Ejemplo 1.
Calcular la covarianza de la tabla que nos da las claificaciones de 12 alumnos en las asignaturas de Matemtica y FsicaMatemticaFsica
2
3
4
4
5
6
6
7
7
6
10
101
3
2
4
4
4
6
4
6
7
9
10
Solucin. Calculamos en una columna a la derecha los valores que necesitamos para poder sustituirlos en la ecuacin de la covarianza. Estos valores los obtenemos multiplicando 2x1, 3x 3, 4 x 2, , 10 x 10 y luego sumamos.XiYixi. yi
2
3
4
4
5
6
6
7
7
8
10
101
3
2
4
4
4
6
4
6
7
9
102
9
8
16
20
24
36
28
42
56
90
100
7260431
Calculando la media aritmtica de cada variable:
= 72 = 6 ; = 60 = 5
12 12
Reemplazando en la ecuacin de la covarianza, se tiene:
Sxy = 431 - (6)(5) = 5.92
12
EJERCICIO1. Tomando los datos del ejemplo 2 de esta seccin, halle la covarianza.LECCIN N 05ANLISIS DE LAS SERIES DE TIEMPOEn la leccin sobre correlacin se hizo notar que las muestras tomadas en el tiempo no se comportan, a menudo, como muestras aleatorias y que, por lo tanto, las tcnicas estadsticas estndar son inaplicables ah. Esta carencia es caracterstica en ciertos conjuntos de datos: precio de acciones, costo de vida, consumo de tabaco, matrcula de alumnos, pacientes atendidos, etc. En esta leccin se consideran los mtodos para el tratamiento de datos de este tipo.
5.1 SERIES DE TIEMPOSe denomina serie de tiempo a un conjunto de observaciones obtenidas durante un periodo de tiempo. Los economistas, en especial, se han dedicado al estudio de estas series dado que muchos de los problemas de inters para la economa las implican; tambin han sido investigadas en las ciencias fsicas en relacin con fenmenos peridicos de diversos tipos. De igual modo los educadores cuando tratan de predecir su matrcula con fines de una adecuada planificacin.
El objeto de analizar tales datos es determinar si se presentan ciertos patrones o pauta no aleatorizadas. Algunas veces se trata de descubrir patrones no aleatorios que se puedan utilizar para predecir el futuro. Por ejemplo, los pronsticos de venta es un caso en el que se analizan los datos del pasado, con la esperanza de encontrar algo que sea til para predecir la demanda futura.
5.2 COMPONENTES DE LA SERIE CRONOLGICA
Las variaciones o movimientos caractersticos de una serie cronolgica, en un enfoque univariado puede dividirse en cuatro componentes diferenciados:
a) Tendencia o Movimiento Secular (T). Se refiere a la direccin general que sigue una serie cronolgica; expresa un movimiento uniforme o regular que sigue la serie durante un largo periodo de tiempo y puede ser ascendente o descendente.
b) Variaciones Estacionales (E). Son movimientos o fluctuaciones que se repiten a intervalos regulares durante subperiodos de tiempo especificado. Pueden ser fluctuaciones peridicas que se presentan trimestralmente, mensual, etc.
c) Variaciones Cclicas (C). Son fluctuaciones que se presentan alrededor de la tendencia n forma ms o menos regular cada cierto periodo de tiempo en un largo plazo.
d) Variaciones Irregulares (I). Son fluctuacions que se presentan en forma espordica de un periodo a otro, son variaciones accidentales que no se pueden determinar en trminos e tendencia, variaciones estacionales o cclicas. Pueden ser de dos tipos:
Variaciones causadas por sequas, guerras, terremotos, huelgas, etc.
Variaciones aleatorias cuyas causas no pueden definirse, son simplemente factores no conocidos.5.3 ANLISIS DE UNA SERIE CRONOLGICA.
El anlisis de una serie cronolgica consiste en la descripcin, generalmente matemtica, del comportamiento de sus componentes. Muchas series frecuentemente presentan una tendencia fcil de definir, alrededor de la cual se puede explicar los dems componentes. Por ejemplo, la variacin de los precios tiene una tendencia ascendente; la temperatura es estacional; la poblacin es creciente; etc.
El modelo puede ser aditivo o multiplicativo que se representa de la siguiente manera:
Y = T + E + C + I
Y = T x E x C x I
5.4 ESTUDIO DE LA TENDENCIA.
La curva de la tendencia de una serie cronolgica muestra la evolucin general de la serie y pude tomar diferentes formas tales como rectilnea, parablica, exponencial, etc. Existen varios mtodos para lograr la estimacin de la tendencia, entre los ms utilizados se encuentran:
Mtodo de la mano alzada;
Mtodo de los semi-promedios;
Mtodo de las medias mviles;
Mtodo de los mnimos cuadrados.
Por razones de enseanza aprendizaje, nosotros vamos a desarrollar el mtodo de los mnimos cuadrados.
5.5 MTODO DE LOS MNIMOS CUADRADOS.
Cuando hemos estudiado el anlisis de regresin, se plante que para obtener las estimaciones mnimo-cuadrticas se tena que resolver el sistema de ecuaciones normales dada por:
y = na + b x
xy = a x + b x2Considerando que la recta de tendencia est en funcin del tiempo, reemplazaremos la x por t y tendremos:
La solucin para encontrar a y b en las series de tiempo se simplifican considerando el punto medio de la serie como origen (codificacin del tiempo), ya que de esta manera se tiene x = 0, en consecuencia las ecuaciones normales se convierten en:
y = na
xy = b x2 De donde se obtiene: a = y =
n
b= xy x2Entonces la ecuacin de la lnea de tendencia es = + xy (x) x25.6 ELECCIN DEL ORIGEN O CODIFICACIN DEL TIEMPO
Cuando se tiene series cronolgicas con datos, impar, de periodos, se elige el origen en la mitad del periodo medio. As, si la serie tiene 7 aos consecutivos, de 1996 a 2002, el origen se toma al final de junio de 1999 o a principios de julio, es decir:
Aos1996 1997 1998 1999 2000 2001 2002
X -3 -2 -1 0 1 2 3
Cuando se tiene series cronolgicas con datos, par, de periodos, se elige el origen entre los dos periodos medios. Se considera la unidad de tiempo como seis meses, entonces, cada ao tiene dos unidades de tiempo. As, si la serie tiene 6 aos consecutivos, de 1997 a 2002, el origen se toma entre 1999 y 2000, es decir:
Aos1997 1998 1999 2000 2001 2002
X -5 -3 -1 1 3 5
Ejemplo. Los siguientes datos representan los registros de la matrcula en las Facultades de Educacin de las universidades peruanas (en miles de personas).
Aos1999 2000 2001 2002 2003
Matrcula 2.5 2.8 2.4 1.9 2.1
Hallar la ecuacin lineal de estimacin que describe la tendencia de la matrcula y luego predecirla para l ao 2006.
Proceso:
1. Construimos la tabla asignando los cdigos del tiempo, teniendo en cuenta que es un nmero impar de aos.
Aos X x2Matrcula (y)xy
1999
2000
2001
2002
2003-2
-1
0
1
24
1
0
1
42.5
2.8
2.4
1.9
2.1-5
-2.8
0
1.9
4.2
0 1013.7-1.7
2. Reemplazando los valores obtenidos (sumatoria) en la ecuacin de la lnea de tendencia, se tiene:
= + xy (x) = 13.7 + -1.7 x = 2.74 0.17x
x2 5 10
3. Para hallar el nmero de matriculados en el ao 2006, se asigna el cdigo de tiempo que sigue, as:
2004 = 3
2005 = 4
2006 = 5
Este valor reemplazamos en la ecuacin obtenida:
= 2.74 0.17x = 2.74 (0.17)(5) = 1.89Interpretacin: En el ao 2006 se matricularan en total, aproximadamente 1890 alumnos en las Facultades de Educacin.
Ejemplo. Una constructora en 4 aos ha terminado reconstruir la siguiente cantidad de casas
Aos 2000 2001 2002 2003
Casas construidas 12 11 17 20
Predecir el nmero de casas que terminar de construir el ao 2005.
Proceso:
1. Construimos la tabla asignando los cdigos del tiempo, teniendo en cuenta que es un nmero par de aos.
Aos X x2Matrcula (y)Xy
2000
2001
2002
2003-3
-1
1
3 9
1
1
912
11
17
20-36
-11
17
60
0 2060 30
2. Reemplazando los valores obtenidos (sumatoria) en la ecuacin de la lnea de tendencia, se tiene:
= + xy (x) = 60 + 30 x = 15 + 1.5x
x2 4 20
3. Para hallar el nmero de casas que se construir en el ao 200, se asigna el cdigo de tiempo que sigue, as:
2003 = 3
2004 = 5
2005 = 7
Este valor reemplazamos en la ecuacin obtenida:
= 15 + 1.5x = 15 + (1.5)(7) = 25.5 = 26
Interpretacin: En el ao 2005 se construirn en total, aproximadamente 26 casas.
EJERCICIOS PROPUESTOS
1. Nos interesa conocer en un grupo de 12 personas la relacin entre el inters por los acontecimientos polticos y sociales del pas y la lucha verdadera frente a tales acontecimientos. Se aplican dos tipos de escalas ordinales. Hallar el coeficiente regresin.
Persona A B C D E F G H I J K L
Inters 2 6 5 1 10 9 8 3 4 12 7 11
Lucha 3 4 2 1 8 11 10 6 7 12 5 9
2. Los gastos de una dependencia pblica ( en miles de soles ) son:
En. Feb Mar Abr May Jun Jul
75 79 74 81 77 82 80
Cul ser el gasto de dicha dependencia en el mes de noviembre?3. Se sabe que las producciones de algodn de un pas, expresadas en millones de toneladas, fueron: Aos 1989 90 91 92 93 94 95 96 97
Produccin 8 10 12 15 15 18 19 23 30 La produccin de algodn en el ao 2000 ser?
4. En un estudio sobre la relacin entre la satisfaccin en el trabajo y las aptitudes, los investigadores recolectaron datos con diez profesionales, se tiene los siguientes puntajes:
Puntaje satisfac. 58 54 67 64 66 73 70 85 74 85
Puntaje aptitud 50 55 60 65 70 75 80 85 90 95
Qu puntaje de satisfaccin corresponde a 93 de aptitud?5. La tabla muestra el nmero de horas por semana que gastaron diez universitarios estudiando y su promedio de puntaje de notas acumulativas.
Promedio notas 2.1 2.7 2.6 2.5 3.5 3.0 3.5 3.7 2.9
Horas de estudio 5 6 7 8 9 10 11 12 13 Cul ser el promedio de notas para 16 horas de estudio?6. Un botnico seleccion al azar 10 plantas de una especie que crece en determinada rea geogrfica. El investigador tom la hoja basal ms grande de cada planta y la midi; los resultados se da en milmetros.
Anchura 5 15 15 30 35 35 40 45 55 60
Longitud 50 60 65 70 75 80 85 85 90 95
Calcular la ecuacin de regresin y de correlacin.
7. Se sabe que la produccin de algodn de un pas, expresadas en millones de toneladas, fueron:
Aos 1995 1996 1997 1998 1999 2000 2001 2002
Produccin 8 10 12 15 15 18 19 23
a) Represente la tendencia por una recta ajustada por mnimos cuadrados
b) Estime la produccin para el ao 2005.
8. El auditor del sistema educativo pblico ha estudiado los registros del inventario para averiguar si el inventario actual de libros de texto es tpico. Las siguientes existencias corresponden a los 5 aos precedentes.
Ao 1999 2000 2001 2002 2003
Inventario ($1000) 4620 4910 5490 5730 5990
a) Estime por el auditor, el valor del inventario en el ao 2006.RESUMEN DE LA UNIDADLa regresin y la correlacin son tcnicas que se encargan de estimar las relaciones existentes entre dos o ms variables. La correlacin resume la fuerza de la relacin, mientras que la regresin roporciona una ecuacin matemtica de la misma. La ecuacin se puede utilizar para predecir valores de una variable dados los valores de la otra.
Las ecuaciones de regresin lineal tiene la forma y = a + bx, en la cual y es la variable dependiente o predicha, x es la variable independiente o predoctora, a y b son respectivamente la ordenada en el origen y la pendiente de la recta. La tcnica que es ms usual para determinar la ecuacin de regresin es la de mnimos cuadrados.
Los datos de series cronolgicas constan de observaciones realizadas acerca de un periodo determinado. El objetivo de analizar estos datos es determinar si es posible identificar atrones histricos los cuales pueden ser tiles para explicar sucesos pasados o para predecir acontecimientos futuros.EXPLORACION ON LINE
1. Elementos bsicos de estadstica Mdulo 12: Regresin lineal y correlacin Anlisis de correlacin Coeficiente de correlacin, r ... Mdulo 13: Anlisis de regresin y correlacin mltiples ...www.cyta.com.ar/biblioteca/ bddoc/bdlibros/guia_estadistica/index.htm2. Dpto de Biologa. Prog. Mtodos EstadsticosIntroduccin al anlisis de regresin y correlacin. La Asociacin entre variables. Comparacin entre el anlisis de correlacin y el anlisis de regresin. ...www.ciens.ula.ve/Biologia/programas/METODEST.htm 3. Algunos mtodos simples para la evaluacin de recursos pesqueros Este captulo pretende revisar brevemente dos tcnicas estadsticas de gran importancia - anlisis de regresin y de correlacin - as como indicar algunos ...www.fao.org/DOCREP/003/X6845S/X6845S02.htm4. Anlisis de regresin
Anlisis de regresin y correlacin ... Anlisis de correlacin. Estimacin del coeficiente de correlacin. El estudio del grado de relacin lineal entre ...fluidos.eia.edu.co/lhidraulica/regresion/regresion.html
LECTURA
Simon Denis Poisson
Naci: 21 de Junio 1781 en Pithiviers, Francia
Falleci: 25 Abril 1840 en Sceaux (cercano a Paris), Francia
El trabajo ms importante de Poisson fue una serie de escritos de las Integrales Definidas y sus avances en las series de Fourier. Sus profesores Laplace y Lagrange llegaron a ser sus amigos de toda la vida. Escribi una memoria de diferencias finitas cuando tena slo 18 aos, esto atrajo la atencin de Legendre.
Poisson enseaba en la escuela politcnica desde el ao 1802 hasta 1808 cuando lleg a ser un astrnomo de Bureau des Longitudes. En 1809 fue nominado como profesor de matemticas puras en la nuevamente abierta facultad de ciencias.
Su trabajo ms importante fue una serie de escritos de integrales definidas y sus avances en las series de Fourier. Este trabajo fue la fundacin del trabajo que prosigui en esta rea Dirichlet y Riemann.
En Recherchs sur la probabilit des jugements...., un trabajo importante en probabilidad publicado en el ao 1837, la distribucin de Poisson recin apareca. La distribucin de Poisson describe la probabilidad como un acontecimiento fortuito ocurrido en un tiempo o intervalo de espacio bajo las condiciones que la probabilidad de un acontecimiento ocurre es muy pequea, pero el nmero de intentos es muy grande, entonces el evento actual ocurre algunas veces.
Public entre 300 y 400 trabajos matemticos incluyendo aplicaciones a la electricidad y el magnetismo y la astronoma. Su libro Tratados de mecnica publicado el 1811 y luego el 1833 fue un trabajo estndar de mecnica por muchos aos.
Su nombre es asociado a un rea extensa de ideas, por ejemplo: Integral de Poisson, Teora de ecuaciones de potencia de Poisson, Avances de Poisson en ecuaciones diferenciales, La razn de la probabilidad de Poisson y La constante en electricidad de Poisson.ACTIVIDADES DE AUTOAPRENDIZAJEPara cada una de las situaciones dadas a continuacin, establezca si el anlisis de correlacin o el anlisis de regresin seran ms apropiados y explique por qu:
1. Un equipo de investigadores quiere determinar si las calificaciones en la universidad son indicadores de xito en un cierto campo.
2. Estime el nmero de kilmetros que recorren un conjunto de llantas radiales antes de que sea ncesario sustituirlas.
3. Prediga cunto demorar una persona en terminar un trabajo con base en el nmero de semanas de entrenamiento.
4. Determine si el nmero de semanas que se pasaron en un curso de adiestramiento, es uan variable importante en el tiempo que toma realizar un trabajo.
5. El administrador de una tienda quiere estimar las ventas semanales, basndose en las ventas de martes y mircoles. AUTO EVALUACIN DE LA PRIMERA UNIDAD
INDICACIONES
Lea con cuidado cada una de las preguntas
Interprete, analice y escoja la estrategia que debe usar para llegar a la solucin
Resuelva y marque la respuesta
Verifique su respuesta con el solucionario adjunto al final de la prueba
CONCEPTUAL
1. Relacionar los enunciados de la derecha con los de la izquierda, colocando los nmeros que le corresponden.
1. Regresin simple ( ) Tendencia
2. Expresa un movimientouniforme ( ) Suposicin en la que puede ser ascendente o descendente regresin lineal simple.
3. Las sub poblaciones de valores Y tienen ( ) Anlisis bidimensional
todas, la misma varianza ( ) Anlisis descriptivo
a) 123 b) 321 c) 213 d) 231 e) 312
2. Colocar verdadero ( V ) o falso (F) en cada uno de los siguientes enunciados:
( ) La curva de la tendencia de una serie cronolgica puede tomar diferentes formas tales como rectilnea, parablica, exponencial.
( ) Cuando se tiene series cronolgicas con datos par de periodos, se elige el origen entre los dos periodos medios.
( ) Se denomina serie de tiempo a un conjunto de observaciones obtenidas durante un periodo de tiempo.
a) FFV b) VVV c) FFF d) VVF e) VFV
3. Colocar verdadero ( V ) o falso (F) en cada uno de los siguientes enunciados:
( ) La estimacin puntual de ( es r
( ) En el modelo de correlacin Las sub poblaciones de valores Y tienen todas la misma varianza.
( ) En la regresin lineal simple se supone que la variable X se mide con error.
a) FFF b) VVV c) FFV d) VVF e) VFV
PROCEDIMIENTAL
4. Se est estudiando la relacin existente entre los aos de estudios realizados por los padres y los estudios realizados por los hijos. Para ello se toma una muestra de 7 personas y se obtiene los siguientes resultados
Padres (X) 12 10 6 16 8 9 12Hijos (Y) 12 8 6 11 10 8 11
Calcular los coeficientes de la recta de regresin ( b y a, en ese orden)
a) 0.498; 4.238 b) 0.50; 4.50 c) 0.45; 4.30 d) 0.40; 4.35 e) n.a
5. Tomando como dato el ejercicio anterior (N 4) y sus resultados, indicar cunto cambia Y al variar X en una unidad.
a) 0.45 unid. b) 0.40 unid. c) 0.49 unid. d) 0.50 unid. e) n,a
6. Sean los datos del ejercicio N 4. Qu aos de estudio le corresponde a un hijo cuyo padre tiene 20 aos de estudio?
a) 15 aos b) 13 aos c) 16.5 aos d) 14.12 aos e) n.a
7. Mediante la siguiente ecuacin de tendencia lineal, estime el rendimiento de la inversin para el 2005, tomando como ao de inicio o base 1999.
Y = 0.15 + 0.01 t
Donde Y= rendimiento sobre inversin en el ao t
t = ao (1999 = 0)
a) 0.21 b) 0.25 c) 0.28 d) 0.24 e) n.a
8. Un bufete de ingenieros consultores ha establecido la siguiente relacin respecto al rendimiento por galn de automviles de seis cilindros, cuyo peso vara de 1500 a 3000 libras ( peso del conductor, 150 libras o sea 75 kg).
Y = 30 0.002x
En la que Y = rendimiento en millas por galn (mpg) x = peso del vehculo
Estime el consumo de gasolina x milla para un automvil que pesa 2000 lb.
a) 26 mpg b) 28 mpg c) 30 mpg d) 24 mpg e) n.a
9. Emplee los siguientes valores de resumen para determinar la ecuacin de regresin:
x = 200, y = 300, xy = 6200, x2 = 3600, n = 20
a) y = 5 2x
b) y = -5 + 2x
c) y = 6 + 3x
d) y = - 6 + 3x
e) n.a
10. Para los siguientes datos de estaturas (x) y pesos (y) de 12 estudiantes, calcular el valor de r.
X 65 73 70 68 66 69 75 70 64 72 65 71Y 124 184 161 164 140 154 210 164 126 172 133 150
a) 0.930 b) 0.940 c) 0.932 d) 0.934 e) n.a
ANLISIS DESCRIPTIVO
Anlisis bidimensional
Anlisis unidimensional
Anlisis de correlacin
Anlisis de series temporales
Anlisis de regresin
Describir la relacin entre variables
Analizar el grado de relacin entre variables
Hacer pronsticos
La correlacin mide la fuerza de una relacin entre variables; la regresin da lugar a una ecuacin que describe dicha relacin en trminos matemticos.
El valor de b puede ser positivo o negativo, en el primer caso se dice que au m menta la variable dependiente y en el segundo caso que disminuye.
El valor de a tambin puede ser positivo o negativo
+- 1 Correlacin perfecta (positiva o negativa)
De +- 0.90 a +- 0.99 Correlacin muy alta (positiva o negativa)
De +- 0.70 a +- 0.89 Correlacin alta (positiva o negativa)
De +- 0.40 a +- 0.69 Correlacin moderada (positiva o negativa)
De +- 0.20 a +- 0.39 Correlacin baja ( positiva o negativa)
De +- 0.01 a +- 0.19 Correlacin muy baja ( positiva o negativa)
0 Correlacin nula
CLAVE DE RESPUESTAS
1b 2b 3d 4a 5c 6d 7a 8a 9b 10d
_1314517229.unknown
_1314517233.unknown
_1314517238.unknown
_1314517240.unknown
_1314517242.unknown
_1314517244.unknown
_1314517245.unknown
_1314517243.unknown
_1314517241.unknown
_1314517239.unknown
_1314517236.unknown
_1314517237.unknown
_1314517234.unknown
_1314517231.unknown
_1314517232.unknown
_1314517230.unknown
_1314517225.unknown
_1314517227.unknown
_1314517228.unknown
_1314517226.unknown
_1314517223.unknown
_1314517224.unknown
_1314517222.unknown