Trabajo de Tecnicas Multivariadas Final

download Trabajo de Tecnicas Multivariadas Final

of 35

Transcript of Trabajo de Tecnicas Multivariadas Final

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    1/35

    CAPITULO I:

    APROXIMACIN HISTRICO DEL ANALISIS MULTIVARIADO.

    Los orgenes del anlisis multivariable se encuentran en las primerasgeneralizaciones de la correlacin y regresin, en donde se establecieron las

    primeras ideas del anlisis de componentes principales (Pearson; 1901 y

    Spearman; 1904). Sin embargo, el establecimiento definitivo de la mayora del

    anlisis multivariable se ubica en los aos treinta con los estudios de Hotelling

    (1931, 1933); Willes (1932, 1935); Fisher (1935, 1936); Mahalanobis (1936) y

    Bartlett (1939). En cuanto a la maduracin de los fundamentos del anlisis

    multivariable, este se debe a los pioneros de la estadstica moderna que inicioen Inglaterra (Galton, Pearson, Fisher, Snecodor) Posteriormente, el centro de

    gravedad se desplaz hacia los Estados Unidos (Hotelling, Wilks, Bartlett),

    aunque sin dejar de considerar las aportaciones que se dieron con el

    nacimiento de otras escuelas tan importantes como la escuela india

    (Mahalanobis, Roy, Krishnaah), la escuela francesa surgida en los aos

    sesenta (Benzecri, Lebart, Morineau, Fenelon, etc.) y la escuela sueca surgida

    en los aos setenta (Jreskog y Srborn).

    A partir de Spearman (1904) se estableci el inicio del anlisis factorial

    cuando en su estudio sobre la inteligencia distingui un factor general con

    respecto a un cierto nmero de factores especficos. Este autor haba

    considerado como antecedentes tericos las tcnicas de regresin lineal

    propuestas por Galton (1888). Por otra parte, Pearson (1901) propuso el

    mtodo de componentes principales como un primer paso previo para llevar a

    cabo las estimaciones del anlisis factorial. Posteriormente, Hotelling (1933)

    aplic el mtodo de extraccin de factores mediante la tcnica de componentes

    principales, la cual hasta nuestros das se ha confirmado como una de las ms

    aceptadas entre los diversos trabajos multivariables. La relacin entre las

    correlaciones y las saturaciones de las variables en los factores fue expuesta

    por Thurstone (1947). Este autor introdujo la idea de la estructura simple, as

    como la teora y el mtodo de las rotaciones factoriales ortogonales y oblicuas

    con el objetivo de obtener una estructura factorial ms sencilla para facilitar la

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    2/35

    interpretacin de los factores. Otra aportacin importante relacionada con este

    tipo de anlisis fue la de Keiser (1958), quien desarroll una serie de

    procedimientos matemticos mediante el mtodo varimax para llevar a cabo las

    rotaciones ortogonales, pues antes de sus trabajos dichas rotaciones

    nicamente eran grficas.

    Bizquerra (1989) y Prieto (1985) indican que el anlisis multivariable

    distingue entre mtodos predictivos y mtodos reductivos. Los primeros

    identifican a un grupo de variables independientes (predictoras), un criterio o

    variable dependiente, y en ocasiones a un grupo de variables aleatorias

    (intervinientes) cuyo efecto se desea mantener bajo control. Sin embargo, el

    problema radica en especificar las dependencias o correlaciones significativas

    entre los dos primeros tipos de variables, tal es el caso de la regresin mltiple.

    Con respecto a los mtodos reductivos, estos analizan las interdependencias

    entre todas las variables con el objeto de reducir al mnimo el nmero de

    variables necesarias para describir la informacin relevante contenida en las

    observaciones.

    Una clasificacin tambin utilizada para los modelos multivariables es la

    que los divide en: a) mtodos descriptivos o exploratorios (no se establece

    ninguna hiptesis previa); y b) mtodos explicativos o confirmatorios (se basan

    en un marco terico para fundamentar y validar empricamente una hiptesis).

    Otra importante clasificacin es la que divide a los mtodos en: a) mtodos

    reductivos (anlisis factorial, componentes principales, correlacin cannica,

    anlisis de clusters, anlisis de correspondencias); y b) mtodos de

    dependencia (anlisis de la varianza, anlisis de la covarianza, regresinmltiple, anlisis discriminante, anlisis de probabilidad condicional Logit y

    anlisis de probabilidad condicional Probit).

    Con el desarrollo de la Informtica, se ha hecho posible desarrollar e

    implementar programas estadsticos que contienen las tcnicas multivariantes;

    as, todos los programas de este tipo contienen una parte importante dedicada

    a estas tcnicas (e.g. se puede ver en R, STATGRAPHICS, SPSS, ...).

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    3/35

    En definitiva, el desarrollo terico surgido en el siglo XX junto con las

    aplicaciones crecientes de la estadstica en la vida econmica de los pases

    han hecho de las tcnicas del Anlisis Multivariante junto con el Anlisis de

    Regresin, uno de los instrumentos ms empleados para el estudio del entorno

    ambiental, econmico y social.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    4/35

    CAPITULO II

    APLICACIONES DEL ANLISIS MULTIVARIADO EN

    PSICOLOGA

    Las tcnicas de anlisis de datos ms frecuentemente utilizados por los

    psiclogos en sus investigaciones fueron creadas por un pequeo grupo de

    estadsticos ingleses: Francis Galton, Karl Pearson, William Gosset (Student), Ronald

    Fisher y Egon Pearson (hijo de Karl Pearson); este ltimo (Egon Pearson) trabaj en

    colaboracin con el matemtico polaco Jerzy Neyman, quien vivi por un tiempo en

    Inglaterra y ms tarde se estableci en Los Estados Unidos de Amrica. Las ideas de

    correlacin y regresin provienen de Galton; el primer Pearson, adems de producir lafrmula para el clculo de la correlacin, es el creador de laprueba de la ji cuadrada.

    Gosset cre la prueba ten su forma original, Fisher desarroll an ms la prueba t

    bautizndola con el nombre de "la t de Student"y no la t de Gosset, porque ste,

    debido a los trminos del contrato laboral suscrito entre l y la cervecera Guinness de

    Dubln, Irlanda, slo poda firmar con su verdadero nombre los informes y documentos

    preparados para la empresa, y por esa razn usaba el pseudnimo de "Student" para

    firmar sus artculos sobre estadstica.

    Pero el legado ms controversial de Fisher es la prueba de la hiptesis nula

    como la estrategia de inferencia inductiva que debe guiar el anlisis estadstico de los

    datos en una investigacin cientfica. Es en este punto, donde han intervenido Egon

    Pearson y Jerzy Neyman (de aqu en adelante, Pearson & Neyman), contradiciendo la

    posicin de Fisher y generando un debate, desconocido para la mayora de

    estadsticos y psiclogos, que por medio de los libros de texto hemos heredado una

    estrategia de anlisis que aparentemente ha disuelto la contradiccin. (Aron & Aron,

    2001; Gigerenzer et al., 2004).

    El investigador formula la hiptesis nula. En trminos generales, la hiptesis

    nula afirma que no existe ninguna relacin real o verdadera entre las variables

    independiente y dependiente de una investigacin, y que, por tanto, si alguna relacin

    es observada entre dichas variables en los datos de la investigacin, la misma podra

    explicarse como resultado del azar. Es por eso que a la hiptesis nula se le llama la

    hiptesis del azar. Dicho de otra manera, la hiptesis nula expresa que si se repitiera

    la investigacin un nmero suficiente de veces, siempre con una muestra distintaextrada aleatoriamente de la misma poblacin, las diferencias en la variable

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    5/35

    dependiente entre los grupos de la investigacin tenderan a neutralizarse y

    terminaran siendo cero. El razonamiento implcito en la hiptesis nula es el siguiente:

    Suponiendo que el resultado de una investigacin particular constituye una seleccin

    al azar de entre una multitud de resultados posibles, el investigador se pregunta cul

    sera la probabilidad de obtener por azar la diferencia que l ha encontrado entre los

    grupos de su investigacin.

    Es obvio que la decisin sobre la hiptesis nula requiere de que se haya

    establecido previamente un nivel de significacin estadstica, es decir, un criterio que

    sirva de base a la decisin de rechazar o no rechazar la hiptesis nula. Al establecer

    un criterio de decisin sobre la hiptesis nula, el investigador puede ponderar loserrores que podra cometer en su decisin sobre la hiptesis nula. Una primera forma

    de error (se conoce como el error tipo I) consiste en rechazar una hiptesis nula

    verdadera, es decir, descartar el azar como explicacin cuando los resultados podran

    explicarse razonablemente con base en el mismo. Este es el error que comete el

    investigador que ve ms lo que hay en los datos; es decir, el investigador concluye que

    existe una relacin real o verdadera entre las variables independiente y dependiente

    de la investigacin, cuando en realidad la relacin observada se puede explicar

    razonablemente como resultado del azar. El llamado error tipo I es el error delinvestigador que se apresura a concluir a favor de su hiptesis de investigacin. Fisher

    no habl de ningn otro error, pues la prueba de la hiptesis nula para l no era otra

    cosa que un freno a la tendencia natural de un investigador a creer que hiptesis ha

    sido confirmada por el simple hecho de que los resultados de la investigacin siguen la

    misma direccin de la hiptesis.

    En la estrategia de Fisher slo hay un error posible: rechazar una hiptesis nulaverdadera. Una segunda forma de error (se conoce como el error tipo II), introducida

    por Egon Pearson y Jerzy Neyman consiste en no rechazar una hiptesis nula falsa,

    es decir, no descartar el azar aun cuando ste no constituye una explicacin razonable

    de los datos. Este es el error que comete el investigador que ve menos que lo que hay

    en los datos; por miedo a rechazar incorrectamente el azar, el investigador puede

    exponerse al riesgo de pasar por alto una relacin real o verdadera entre las variables

    de su investigacin. Fueron Pearson y Neyman los que, al introducir un segundo tipo

    de error, bautizaron como error tipo uno al error de que haba hablado Fisher.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    6/35

    Segn Fisher, el nivel de significacin estadstica equivale a la magnitud del

    riesgo que est dispuesto a correr el investigador, de cometer el error de rechazar una

    hiptesis nula verdadera (el llamado error tipo I). Para la mayora de los propsitos, el

    nivel de significacin previamente establecido suele ser de 0.05, aunque en reas de

    investigacin ms rigurosas se trabaja con un nivel de significacin de 0.01.

    Suponiendo que se trabaja con un nivel de significacin de 0.05, se rechazara la

    hiptesis nula siempre que la probabilidad de explicar los resultados obtenidos en una

    investigacin como si fueran obra del azar sea igual o menor que 0.05.

    Es la perspectiva de Pearson y Neyman, para establecer el nivel de

    significacin estadstica habra que atender al impacto de cada tipo de error en el

    objetivo del investigador, y a partir de ah se decidira cul de ellos es preferibleminimizar. Pearson y Neyman llamaron alfa al error tipo I y beta al error tipo II; a partir

    de este ltimo tipo de error, introdujeron el concepto de "poder de una prueba

    estadstica", el cual se refiere a su capacidad para evitar el error tipo II, y est definido

    por 1-beta, y en estrecha relacin con ste se ha desarrollado el concepto de "tamao

    del efecto" que algunos han propuesto como sustituto de los valores p en los informes

    de investigacin cientfica. (Cohen, 1990, 1994; Kraemer & Thiemann, 1987; Murphy &

    Myors, 2004).

    El tercer paso del llamado ritual de la prueba de significacin

    estadstica consiste en la eleccin de la prueba estadstica que se utilizar para

    someter a pruebala hiptesis nula. Hay dos clases de pruebas estadsticas: las

    paramtricas y las no paramtricas. Se llama paramtricas a aquellas pruebas

    estadsticas que exigen que los datos a los que se aplican cumplan con los siguientes

    requisitos: que los valores de la variable dependiente sigan la distribucin de la curva

    normal, por lo menos en la poblacin a la que pertenezca la muestra en la que se hizo

    la investigacin; que las varianzas de los grupos que se comparan en una variable

    dependiente sean aproximadamente iguales (homoscedasticidad, u homogeneidad de

    las varianzas); y que la variable dependiente est medida en una escala que sea por lo

    menos de intervalo, aunque este ltimo requisito no es compartido por todos los

    estadsticos (McGuigan, 1993; Siegel, 1956). Cuando los datos cumplen con los

    requisitos indicados, especialmente con los dos primeros, las pruebas estadsticas

    paramtricas exhiben su mximo poder, es decir, su mxima capacidad para detectar

    una relacin real o verdadera entre dos variables, si es que la misma existe. Las

    pruebas paramtricas ms conocidas y usadas son la prueba t de Student, la prueba

    F, llamada as en honor a Fisher, y el coeficiente de correlacin de Pearson,

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    7/35

    simbolizado por r. Cuando estas pruebas estadsticas se aplican a datos que violan los

    dos primeros de los requisitos sealados, pierden parte de su poder. Las pruebas

    estadsticas no paramtricas, en cambio, no hacen a los datos ninguna de las

    exigencias que les hacen las pruebas estadsticas paramtricas, por eso se les

    denomina "pruebas estadsticas libres de distribucin". Las ms conocidas y usadas

    de estas pruebas son la ji cuadrada de Pearson, la prueba de la probabilidad exacta

    de Fisher, los coeficientes de contingencia de Pearson y Cramer, la prueba U de Mann

    & Whitney, el coeficiente de correlacin de rangos de Spearman, y el coeficiente de

    asociacin ordinal de Goodman y Kruskal (coeficiente gamma), (Conover, 1999;

    Leach, 1979; Siegel, op. cit.). Todas estas pruebas poseen menos poder que las

    pruebas paramtricas correspondientes, pero han demostrado ser muy tiles como

    alternativas cuando no se considera apropiado el uso de pruebas paramtricas.

    EJEMPLO

    Sea X una variable aleatoria que representa la calificacin obtenida en la

    prueba de conocimientos sobre educacin ambiental (escala vigesimal) de los

    alumnos de la Facultad de Educacin, si la poblacin consta de 300 alumnos,

    entonces: X1, X2, X3,..., X300.

    Es una poblacin en trminos de variable aleatoria, que se lee as:La calificacin que ha obtenido el alumno 1 en la prueba de conocimientos

    sobre educacin ambiental, la calificacin que ha obtenido el alumno 2 en la

    prueba de conocimientos sobre educacin ambiental, la calificacin que ha

    obtenido el alumno 3 en la prueba de conocimientos sobre educacin

    ambiental, y as sucesivamente hasta la calificacin que ha obtenido el alumno

    300 en la prueba de conocimientos sobre educacin ambiental.

    El propsito de un estudio estadstico es extraer conclusiones acerca de lanaturaleza de la poblacin, pero resulta que las poblaciones son grandes, o por

    razones de tica, recursos financieros, metodolgicos u otros no ser posible,

    entonces se debe trabajar con una muestra extrada de la poblacin bajo

    estudio.

    Una vez identificados los seis alumnos, podemos determinar los valores

    numricos de las seis variables aleatorias X1, X2, X3, X4, X5, X6. Supongamos

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    8/35

    que el primer alumno seleccionado ha obtenido 13 en la prueba de educacin

    ambiental.

    En este caso, la variable aleatoria X1toma el valor x1= 13.

    Si el segundo alumno seleccionado ha obtenido 10 en la prueba de educacin

    ambiental, en este caso la variable aleatoria 2 Xtoma el valor 2 x= 10. De igual

    forma, las variables aleatorias X3, X4, X5, X6, tomarn valores numricos que

    van a depender de las calificaciones que obtengan los alumnos seleccionados

    en la tercera, cuarta, quinta y sexta seleccin.

    Ahora estamos utilizando el trmino muestra aleatoria, no para referirnos a los

    alumnos seleccionados o a las variables aleatorias asociados con ellos, sino a

    los seis valores numricos x1, x2, x3, x4, x5 que toman respectivamente cada

    una de las seis variables aleatorias.

    Por tanto hay tres formas de considerar a una muestra aleatoria:

    1. Como un conjunto de unidades seleccionadas que son sometidas al

    estudio.

    2. Como un conjunto de variables aleatorias tericas asociadas con esas

    unidades.

    3. Como un conjunto de valores numricos tomados por las variables.

    Las definiciones no son equivalentes pero estn estrechamente relacionadas.

    Al seleccionar una muestra aleatoria de tamao seis, una vez identificados los

    seis alumnos, se obtienen las siguientes calificaciones x1= 13, x2=10, x3=

    13, X4= 14, x5= 11, x6= 10. La media obtenida de los seis alumnos es de

    11,83, llamada media muestral y se representa mediante x, cuya expresin es:

    El numerador de la expresin es la suma de los seis valores, que da 71, que

    dividido por 6, resulta x = 11,83, es decir en promedio los alumnos han

    obtenido 11,83 de calificacin en la prueba de educacin ambiental.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    9/35

    La varianza de esta muestra aleatoria es 2,4722, y se representa mediante S2,

    cuya expresin es:

    Para su clculo, disponemos de la tabla en la que mostramos paso a paso el

    uso de la expresin anterior, sabiendo que x= 11,83

    El numerador de la expresin anterior es la suma del cuadrado de las seis

    desviaciones de cada valor que toma la variable, respecto a su mediaaritmtica, que es igual a 14,8334, que dividido por 6 es justamente 2,4722.

    La raz cuadrada, positiva, de la varianza se llama desviacin estndar o

    desviacin tpica, esto es:

    Entonces, usando la expresin anterior, la desviacin estndar es S= 1,5723.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    10/35

    CAPITULO III

    APLICACIN DEL ANALISIS MULTIVARIADO DE ACUERDO A

    LA BASE DE DATOS BRINDADA

    IDENTIFICACIN DE VARIABLE INDEPENDIENTE Y DEPENDIENTE:

    Variable Independiente: Consumo de anticidos

    N de cigarrillos por da

    Consumo de cerveza

    Consumo de tasas de caf.

    Variable Dependiente: Tiempo de vida.

    CALCULAR LAS TABLAS DE FRECUENCIA PARA CADA UNA DE LAS

    VARIABLES.

    Variable: Nmero de cigarrillos por da.

    n 50

    k 6,606601014 7

    I 13

    C 1,857142857 2

    I' 14

    exec 1 1

    Vmin 1

    Intervalos f F f% F%

    1 3 9 9 18 18

    3 5 9 18 18 36

    5 7 7 25 14 50

    7 9 6 31 12 62

    9 11 6 37 12 74

    11 13 4 41 8 82

    13 15 9 50 18 100

    50 100

    Existe un 36% de consumidores de cigarrillos que consume entre 1 a 5cigarrillos por da.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    11/35

    Variable: consumo de litros de cerveza mensual

    n 50

    k 6,60660101 7

    I 13

    C 1,85714286 2I' 14

    exec 1 1

    Vmin 0

    Intervalos f F f% F%

    0 2 7 7 14 14

    2 4 8 15 16 30

    4 6 8 23 16 466 8 7 30 14 60

    8 10 6 36 12 72

    10 12 11 47 22 94

    12 14 3 50 6 100

    50 100

    Un porcentaje mayoritario (22%) consume entre 10-12 litros de cerveza

    mensual.

    Variable: Consumo de tazas de caf.

    Tazas de

    caff F f% F%

    0 1 1 2 2

    1 5 6 10 12

    2 7 13 14 263 5 18 10 36

    4 12 30 24 60

    5 5 35 10 70

    6 6 41 12 82

    7 3 44 6 88

    8 3 47 6 94

    9 3 50 6 100

    50

    Existe un 24% que consume 4 tazas de caf.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    12/35

    Variable: Consumo de anticidos

    Consumo

    de

    anticidos

    f F f% F%

    0 2 2 4 4

    1 7 9 14 18

    2 7 16 14 32

    3 2 18 4 36

    4 5 23 10 46

    5 6 29 12 58

    6 3 32 6 64

    7 9 41 18 82

    8 5 46 10 92

    9 4 50 8 100

    50

    El 18% consume anticidos por una cantidad de 9.

    Variable: Tiempo de vida

    n 50

    k 6,60660101 7

    I 25

    C 3,57142857 4

    I' 28

    exec 3 1 2

    Vmin 63

    Intervalos f F f% F%

    63 67 16 16 32 32

    67 71 15 31 30 62

    71 75 0 31 0 62

    75 79 1 32 2 64

    79 83 5 37 10 74

    83 87 4 41 8 82

    87 91 9 50 18 10050 100

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    13/35

    REPRESENTAR GRFICAMENTE LAS VARIABLES.

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    1-3 3-5 5-7 7-9 9-11 11-13 13-15

    Porcentaje

    Consumo

    Consumo de cigarrillos por da

    14%

    16%

    16%14%

    12%

    12%

    6%

    Consumo de litros de cerveza mensual

    0-2

    2-4

    4-6

    6-8

    8-1010-12

    12-14

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    14/35

    0

    5

    10

    15

    20

    25

    30

    0 1 2 3 4 5 6 7 8 9

    Porcentaje

    N de tazas de caf

    Consumo de tazas de caf

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    0 1 2 3 4 5 6 7 8 9

    Porcentaje

    Uniddes de anticidos

    Consumo de Anticidos

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    15/35

    0

    5

    10

    15

    20

    25

    30

    35

    63-67 67-71 71-75 75-79 79-83 83-87 87-91

    Porcentaje

    Aos

    Tiempo de Vida

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    16/35

    CALCULAR LAS MEDIDAS DE TENDENCIA CENTRAL

    1) Cigarrillos por da.

    Media

    Mediana:

    n/2 = 25 i=3

    Moda:

    d1 = fi fi-1 = 9 9 = 0

    d2 = fi fi+1 = 9 - 7 = 2

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    17/35

    2) Consumo de cerveza mensual

    Media

    Mediana:

    n/2 = 25

    Moda:

    d1 = fi fi-1 = 11 6 = 5

    d2 = fi fi+1 = 11 - 3 = 8

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    18/35

    3) Tazas de caf.

    Media

    Mediana:

    n/2 = 25

    Moda:

    4) Consumo de anticidos

    Media

    Mediana:

    n/2 = 25

    Moda:

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    19/35

    5) Tiempo de vida

    Media

    Mediana:

    n/2 = 25

    Moda:

    d1 = fi fi-1 = 16 0 = 16

    d2 = fi fi+1 = 16 - 0 = 16

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    20/35

    CALCULAR LAS MEDIDAS DE DISPERSIN

    De las tablas:

    N de cigarrillos por da:

    Intervalos f F f% F% x fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

    1 3 9 9 18 18 2 18 4 36 -5,56 955,65066 8.600,86

    3 5 9 18 18 36 4 36 16 144 -3,56 160,62014 1.445,58

    5 7 7 25 14 50 6 42 36 252 -1,56 5,922409 41,46

    7 9 6 31 12 62 8 48 64 384 0,44 0,037481 0,22

    9 11 6 37 12 74 10 60 100 600 2,44 35,445353 212,67

    11 13 4 41 8 82 12 48 144 576 4,44 388,62602 1.554,50

    13 15 9 50 18 100 14 126 196 1764 6,44 1720,0595 15.480,54

    50 100 378 3756 27.335,83

    Consumo de litros de cerveza mensual:

    Intervalos f F f% F% x fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

    0 2 7 7 14 14 1 7 1 7 -5,68 1040,862 7286,03718

    2 4 8 15 16 30 3 24 9 72 -3,68 183,3966 1467,17278

    4 6 8 23 16 46 5 40 25 200 -1,68 7,965942 63,7275341

    6 8 7 30 14 60 7 49 49 343 0,32 0,010486 0,073400328 10 6 36 12 72 9 54 81 486 2,32 28,97023 173,821379

    10 12 11 47 22 94 11 121 121 1331 4,32 348,2852 3831,13691

    12 14 3 50 6 100 13 39 169 507 6,32 1595,395 4786,18595

    50 100 334 2946 17608,1551

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    21/35

    Consumo de tazas de caf:

    Tazas de

    caff F f% F% fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

    0 1 1 2 2 0 0 0 -4,3 341,8801 341,8801

    1 5 6 10 12 5 1 5 -3,3 118,5921 592,9605

    2 7 13 14 26 14 4 28 -2,3 27,9841 195,88873 5 18 10 36 15 9 45 -1,3 2,8561 14,2805

    4 12 30 24 60 48 16 192 -0,3 0,0081 0,0972

    5 5 35 10 70 25 25 125 0,7 0,2401 1,2005

    6 6 41 12 82 36 36 216 1,7 8,3521 50,1126

    7 3 44 6 88 21 49 147 2,7 53,1441 159,4323

    8 3 47 6 94 24 64 192 3,7 187,4161 562,2483

    9 3 50 6 100 27 81 243 4,7 487,9681 1463,9043

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    22/35

    Consumo de anticidos:

    Consumo

    de

    anticidos

    f F f% F% fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

    0 2 2 4 4 0 0 0 -4,68 479,715126 959,430252

    1 7 9 14 18 7 1 7 -3,68 183,396598 1283,77618

    2 7 16 14 32 14 4 28 -2,68 51,5868698 361,108088

    3 2 18 4 36 6 9 18 -1,68 7,96594176 15,9318835

    4 5 23 10 46 20 16 80 -0,68 0,21381376 1,0690688

    5 6 29 12 58 30 25 150 0,32 0,01048576 0,06291456

    6 3 32 6 64 18 36 108 1,32 3,03595776 9,10787328

    7 9 41 18 82 63 49 441 2,32 28,9702298 260,732068

    8 5 46 10 92 40 64 320 3,32 121,493302 607,466509

    9 4 50 8 100 36 81 324 4,32 348,285174 1393,1407

    50 234 1476 4891,82554

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    23/35

    Tiempo de Vida:

    Intervalos f F f% F% x fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

    63 67 16 16 32 32 65 1040 4225 67600 -8,96 6445,1353 103122,165

    67 71 15 31 30 62 69 1035 4761 71415 -4,96 605,238723 9078,58084

    71 75 0 31 0 62 73 0 5329 0 -0,96 0,84934656 0

    75 79 1 32 2 64 77 77 5929 5929 3,04 85,4071706 85,4071706

    79 83 5 37 10 74 81 405 6561 32805 7,04 2456,35219 12281,761

    83 87 4 41 8 82 85 340 7225 28900 11,04 14855,1244 59420,4977

    87 91 9 50 18 100 89 801 7921 71289 15,04 51167,1638 460504,475

    50 100 3698 277938 644492,886

    Clculo de la Varianza:

    =

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    24/35

    Cuadro resumen

    Nmero

    de

    cigarrillos

    por da

    Consumo

    de litros

    de cerveza

    mensual

    Tazas de

    caf

    Consumo

    de

    anticidos

    Tiempo de

    vida

    Media 7,56 6,68 4,3 4,68 73,96

    Mediana 7 6,57 4 5 69,4

    Varianza (s2) 17,97 14,3 5,37 7,62 88,68Desv. Estndar (s) 4,24 3,78 2,32 2,76 9,42

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    25/35

    CALCULAR LA ASIMETRA Y KURTOSIS

    Nmero de

    cigarrillos

    por da

    Consumo

    de litros de

    cerveza

    mensual

    Tazas de

    caf

    Consumo

    de

    anticidos

    Tiempo de

    vida

    Media 7,56 6,68 4,3 4,68 73,96

    Mediana 7 6,57 4 5 69,4

    Varianza (s2) 17,97 14,3 5,37 7,62 88,68

    Desv. Estandar (s) 4,24 3,78 2,32 2,76 9,42

    0,56 0,11 0,3 -0,32 4,56

    1,68 0,33 0,9 -0,96 13,68

    As= 0,39622642 0,08730159 0,38793103 -

    0,34782609

    1,4522293

    S4 322,9209 204,49 28,8369 58,0644 7864,1424

    27.335,83 17608,1551 1463,9043 66,8165739 644492,886

    M4 546,716613 352,163103 29,278086 1,33633148 12889,8577

    K 1,6930357 1,72215317 1,01529936 0,02301464 1,63906718

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    26/35

    PREDECIR SI AL CONSUMIR 10 CIGARRILLOS DIARIOS CUL ES EL

    TIEMPO DE VIDA QUE SE ESPERA?

    Definiendo:

    X = Consumo de cigarrillos

    Y = Tiempo de vida

    Y = a + bX

    Para hallar:

    Nmero de

    cigarrillos por

    da (X)

    Tiempo de

    vida (Y)

    XY X2 Y2

    14 89 1246 196 7921

    14 90 1260 196 8100

    356 3703 28196 3418 278303

    a= 2619078 59,30345983

    44164

    b= 91532 2,072547776

    44164

    Y = 59.30 + 2.07x

    Si X = 10 Y = 59.30 + 2.07 (10)

    Y = 59.30 + 2.07

    Y = 80

    El tiempo de vida esperado si es que se consume 10 cigarrillos al da es de 80

    aos.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    27/35

    PREDECIR SI AL CONSUMIR 12 LITROS DE CERVEZA AL MES CUL ES

    EL TIEMPO DE VIDA QUE SE ESPERA?

    Definiendo:

    X = Consumo de cerveza al mes

    Y = Tiempo de vida

    Y = a + bX

    Para hallar:

    Consumo

    de litros de

    cerveza

    mensual

    (X)

    Tiempo de

    vida (Y)

    XY X2 Y2

    12 89 1068 144 7921

    13 90 1170 169 8100

    313 3703 24802 2681 278303

    a= 2164717 59,9960367

    36081

    b= 81061 2,246639506

    36081

    Y = 59.99 + 2.25x

    Si X = 12 Y = 59.99 + 2.23 (12)

    Y = 86.99

    El tiempo de vida esperado si es que se consume 12 litros de cerveza al meses de 87 aos.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    28/35

    PREDECIR SI AL CONSUMIR 6 TAZAS DE CAF DIARIOS CUL ES EL

    TIEMPO DE VIDA QUE SE ESPERA?

    Definiendo:

    X = Consumo de tazas de caf diarios

    Y = Tiempo de vida

    Y = a + bX

    Para hallar:

    Tazas de caf (X)Tiempo de vida

    (Y)

    XY X2 Y2

    9 89 801 81 7921

    9 90 810 81 8100

    215 3703 16908 1193 278303

    a= 782459 58,28372439

    13425

    b= 49255 3,668901304

    13425

    Y = 58.29 + 3.67x

    Si X = 12 Y = 58.29 + 3.67 (6)

    Y = 80.31

    El tiempo de vida esperado si es que se consume 6 tazas de caf diarios es de

    80 aos.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    29/35

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    30/35

    OBTENER EL COEFICIENTE DE DETERMINACIN R2

    [ ] [ ]

    N de cigarrillos por da:

    Nmero de

    cigarrillos por

    da (X)

    Tiempo de

    vida (Y)

    XY X2 Y2

    14 89 1246 196 7921

    14 90 1260 196 8100

    356 3703 28196 3418 278303

    a= 2619078 59,30345983

    44164

    b= 91532 2,072547776

    44164

    r2 91532 8378107024 0,93

    44164 8962686324

    202941

    R2 = 93%

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    31/35

    Consumo de litros de cerveza mensual:

    Consumo de litros

    de cerveza

    mensual (X)

    Tiempo de

    vida (Y)

    XY X2 Y2

    12 89 1068 144 7921

    13 90 1170 169 8100

    313 3703 24802 2681 278303

    a= 2164717 59,9960367

    36081

    b= 81061 2,246639506

    36081

    r2 81061 6570885721 0,8974

    36081 7322314221

    202941

    R2 = 89.74%

    Tazas de caf:

    Tazas

    de

    caf

    (X)

    Tiempo de

    vida (Y)

    XY X2 Y2

    9 89 801 81 7921

    9 90 810 81 8100

    215 3703 16908 1193 278303

    a= 782459 58,28372439

    13425

    b= 49255 3,668901304

    13425

    r2 49255 2426055025 0,89

    13425 2724482925

    202941

    R2 = 89%

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    32/35

    Consumo de anticidos:

    Consumo

    de

    anticidos(X)

    Tiempo

    de vida

    (Y)XY X2 Y2

    9 89 801 81 7921

    9 90 810 81 8100

    234 3703 18490 1476 278303

    a= 1138968 59,80718336

    19044

    b= 57998 3,04547364

    19044

    r2 57998 3363768004 0,87036

    19044 3864808404

    202941

    R2 = 87.05%

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    33/35

    CUL DE LAS VARIABLES PREDICE MEJOR UN MENOR TIEMPO DE

    VIDA?

    N de cigarrillos = 93%

    Consumo de litros de Cerveza = 89.7%

    Tazas de caf = 89%

    Consumo de anticido = 87.04%

    RPTA: La variable que predice mejor, es el consumo de nmero de cigarrillos

    diarios.

    PREDECIR, SI SE TIENE UN TIEMPO DE VIDA DE 80 AOS CUNTOS

    CIGARRILLOS Y TAZAS DE CAF SE DEBERN CONSUMIR?

    Si: Tiempo de vida= 80

    Cigarrillos:

    Y = 59.30 + 2.07x

    Y = 80 80 = 59.30 + 2.07 x

    20.7 = 2.07x

    Entonces X = 10 cigarrillos diarios

    Tazas de caf:

    Y = 58.29 + 3.678 (X)

    80 = 58.29 + 3.67 X

    21.71 = 3.67xX = 5.91 tazas de caf diarios se deberan consumir.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    34/35

    CONCLUSIONES

    Nos muestra que el consumo de cigarrillos diarios, es la variable que

    afecta o predice mejor el tiempo de vida de las personas. Por tanto, se

    debera de tomar en cuenta esta informacin para las personas que

    tienen el hbito de fumar, para que tomen conciencia de que su

    consumo afecta directamente a la cantidad de aos de vida.

    La variable que menos afecta es el consumo de anticidos, sin embargo,

    sta es relativamente alta, ya que su consumo constante afecta a la

    salud de las personas y condicionan la calidad de vida y su duracin.

    El consumo de litros de cerveza y el consumo de tazas de caf, el

    mismo nivel de prediccin, a pesar de ser dos elementos completamente

    diferentes, una de ellas contiene alcohol y la otra ingredientes que

    afectan considerablemente a la salud, si es que se consumen con

    frecuencia y en cantidades altas.

  • 8/3/2019 Trabajo de Tecnicas Multivariadas Final

    35/35

    BIBLIOGRAFA

    1. CANAVOS C. George; Probabilidad y Estadstica, Edit. McGraw-Hill,

    Mxico 1995.

    2. CRDOVA ZAMORA, Carlos, Estadstica Descriptiva e inferencial edit.

    Moshera IV ed. Lima

    3. VILA ACOSTA, Roberto; Estadstica Elemental Edit. R.A. Lima-Per.

    4. JONSON, Roberto R.: Estadstica Elemental Edit. Trillas 2 edic. Mxico

    1991.5. MOYA CALDERN, Rufino, Estadstica Descriptiva, Edit. San Marcos

    Lima-Per 1991

    6. VELIZ CAPUAY, Carlos: Estadstica Aplicaciones, Edit. CCG S.A. Lima-

    Per 1993.

    7. INTERNET