ANÁLISIS MULTIVARIADO DE DATOS

download ANÁLISIS MULTIVARIADO DE DATOS

of 118

Transcript of ANÁLISIS MULTIVARIADO DE DATOS

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    1/118

    ANLISIS MULTIVARIADO DE DATOS

    Mtodos y Aplicaciones

    Javier Trejos Zelaya William Castillo ElizondoJorge Gonzlez Varela

    Universidad de Costa Rica

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    2/118

    Anlisis Multivariado de DatosMtodos y Aplicaciones

    Javier Trejos Zelaya

    William Castillo Elizondo

    Jorge Gonzlez Varela

    Editorial de la Universidad de Costa RicaCdigo Postal 11501-2060

    Ciudad Universitaria Rodrigo Facio

    San Pedro de Montes de Oca, Costa Rica

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    3/118

    500

    T Trejos Zelaya, Javier, 1961-

    Anlisis Multivariado de Datos / Javier Trejos

    Zelaya. -ed.- San Jos, C.R. : Editorial de la

    Universidad de Costa Rica

    2012.

    xxx, 340 p.

    ISBN FALTA

    1. completar informacin

    I. Ttulo

    EUCR

    '

    &

    $

    %

    Editorial de la Universidad de Costa Rica

    Cdigo Postal 11501-2060Ciudad Universitaria Rodrigo Facio

    San Pedro de Montes de Oca, Costa Rica

    iii

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    4/118

    iv

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    5/118

    Dedicatoria

    A mi esposa Vivian, y a mis hijos Luca, Juan, Carlo, Nicole y Pablo,

    J.T.Z.

    A mi nieta Raquel, a mi esposa Irene, y a mis hijos Jos Ernesto, Laura eIgnacio,

    W.C.E.

    A mi madre, y a mi hijo Daniel,

    J.G.V.

    v

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    6/118

    vi

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    7/118

    Prlogo

    Tuve el placer de ir por primera vez a Costa Rica en 1990, y pude constatar eldesarrollo del Anlisis de Datos en la Universidad de Costa Rica, as como lainfluencia que tiene esta universidad en la regin de Amrica Latina y el Caribe.Luego, he regresado varias veces y he podido trabajar con el equipo de la Escuela

    de Matemtica de esta universidad.Javier Trejos, William Castillo y Jorge Gonzlez ofrecen ahora un libro, es-

    crito en espaol, sobre el Anlisis de Datos. Este libro trata de tcnicas clsicasdel Anlisis de Datos tal como son conocidas en Francia, y ciertos captulostratan incluso de tcnicas desarrolladas en Francia, como el Anlisis de Corres-pondencias, el Mtodo de Nubes Dinmicas y el Mtodo Statis.

    Slo queda desear que el libro sea aprovechado en una regin donde servirciertamente a los investigadores en su trabajo de anlisis.

    Jai eu le plaisir de venir au Costa Rica en 1990 pour la premire fois, et jai pu

    constater le dvelopement de lAnalyse des Donnes lUniversit du Costa Rica, et le

    rayonnement que cette universit a sur la rgion dAmrique Centrale et les Carabes.Ensuite, je suis revenu plusieurs fois et jai pu travailler avec lquipe de lEcole de

    Mathmatiques de cette universit.

    Javier Trejos, William Castillo et Jorge Gonzlez offrent maintenant un livre en es-

    pagnol sur lAnalyse des Donnes. Ce livre porte sur les techniques classiques dAnalyse

    des Donnes telles quelles sont connues en France, et certains chapitres portent mme

    sur des techniques dveloppes en France, telles que lAnalyse des Correspondances, la

    Mthode des Nues Dynamiques et la Mthode Statis.

    Il ne reste qua profiter de ce livre dans une rgion o il servira certainement les

    chercheurs dans leurs dmarches danalyse.

    Edwin Diday

    vii

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    8/118

    viii

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    9/118

    Prefacio

    Hace muchos aos iniciamos con el proyecto de escribir un libro de texto enespaol sobre las principales tcnicas de Anlisis Multivariado de Datos. En laUniversidad de Costa Rica se consolid un grupo de trabajo en este campo, queha tenido una rica experiencia en desarrollos tanto metodolgicos como en apli-

    caciones a diversos campos. La bibliografa empleada estaba casi en su totalidaden francs y en una menor parte en ingls. Debemos decir tambin que el grupotuvo una influencia marcada por la Escuela Francesa de Anlisis de Datos, noslo por los intercambios acadmicos llevados a cabo inicialmente con la Uni-versidad Paul Sabatier, de Toulouse, y luego con otros centros acadmicos, sinotambin por otro tipo de colaboraciones acadmicas y de investigacin con estaescuela.

    Encontrar material bibliogrfico sobre el anlisis multivariado, con el en-foque de este texto, es un poco difcil: las referencias van desde las presenta-ciones superficiales en las que no se justifican los mtodos ni su uso, a las pre-sentaciones extremadamente tericas que no tienen una aplicacin a simple vista.

    Encontrar referencias tiles en espaol es an ms difcil. Por ello, quisimoshacer un libro que tuviera un balance entre la teora y la prctica. Los mtodosestn justificados tanto desde el punto de vista terico como prctico, habin-dose enviado en muchas ocasiones al final del captulo algunas demostracionesque podran distraer al lector deseoso de ver cmo se aplica cada mtodo sobreuna base de datos real. Esperamos haber encontrado ese balance para que tantoel estudioso de los mtodos encuentre, desde el inters terico, una respuesta alpor qu de cada mtodo, como el aplicador que desea saber cmo funciona en laprctica la tcnica.

    Consecuentemente, cada captulo est organizado de manera que inicial-mente se presenta el objetivo del mtodo, enseguida se desarrolla el mtodocon sus propiedades de la mano de un ejemplo de ilustracin, dejndose las de-

    ix

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    10/118

    x

    mostraciones de algunas propiedades tericas para el final del captulo, cuandono son esenciales para la comprensin del mtodo. Adems, cada captulo con-tiene varios ejemplos completos de aplicacin junto con sus resultados e inter-pretaciones. Al final se presentan ejercicios tanto tericos como prcticos para

    que el lector pueda ejercitarse en la comprensin de la teora y la prctica. Enla medida de lo posible, hemos presentado las tablas de datos completos. Decualquier forma, si algn lector quiere usarlas y no desea transcribirlas, puededirigirse a los lectores para que se las enviemos por va electrnica.

    Nuestra intencin es que el presente libro sirva como material de referenciapara investigadores que necesiten la herramienta del anlisis multivariado. No seha incluido ningn aspecto relativo al uso de software, ya que existen diversospaquetes computacionales que realizan los clculos de las tcnicas aqu expues-tas. Cada paquete tiene su manual de uso y all el lector podr ver la manerade utilizarlo, pero lo importante es que con este libro de texto el uso de esastcnicas debera ser ms claro y el lector podr usar conscientemente cualquier

    tcnica multivariada cubierta en el texto.

    El libro est organizado en nueve captulos. El primero sirve de introduccingeneral y recordatorio de la Estadstica Descriptiva, fijndose algunos trminosque se usarn a lo largo del texto. El segundo captulo introduce el AnlisisMultidimensional, con los elementos de base para todo el desarrollo terico quese hace en los captulos posteriores, como los trminos de espacios vectorialesusados y las mtricas asociadas. En el captulo tres se expone la principal tcnicamultivariada, como es el Anlisis en Componentes Principales, la cual es tilno slo en s misma para realizar anlisis de tablas de datos cuantitativos, sinotambin como tcnica de base para los dems temas de Anlisis Multivariado.

    Estos tres primeros captulos son de lectura obligatoria para la comprensin delresto del texto.

    Enseguida, en los captulos 5 y 6, se desarrollan dos tcnicas importantes,como el Anlisis Factorial de Correspondencias y el Anlisis de Corresponden-cias Mltiples. Se trata de tcnicas especializadas en el anlisis de datos cua-litativos, la primera de ellas cuando los datos estn dispuestos en una tabla decontingencia, y la segunda es para tratar el caso general de varias variables cua-litativas.

    Se sigue con un captulo dedicado a diversas tcnicas de ClasificacinAutomtica, o Anlisis de Conglomerados. El captulo inicia con una intro-duccin a los conceptos de similutudes y distancias, tanto entre objetos comoentre grupos, para pasar luego a exponer las dos principales familias de mtodos

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    11/118

    J. Trejos W. Castillo J. Gonzlez xi

    de clasificacin: los mtodos jerrquicos y los mtodos de particionamiento. Apesar de lo amplio de este tema, se cubren las principales tcnicas: clasificacin

    jerrquica ascendente, mtodo de las kmedias y mtodos de nubes dinmicas.

    El captulo 7 est dedicado a la Discriminacin Descriptiva, como es el anli-sis factorial discriminante. Se decidi no cubrir los temas de discriminacindecisional pues escapan al contexto de este libro y pueden ser objeto de unapublicacin que trate tambin de temas de estimacin estadstica.

    El captulo 8 est enteramente dedicado al Anlisis de Tablas Mltiples. Paraello se escogi exponer con detalle el Mtodo Statis, uno de los ms completos ybien justificados para este tipo de anlisis. Se decidi incluir en el captulo prc-ticamente todos los detalles del mtodo, tanto en el caso clsico como en el casodual, ya que es difcil encontrar este tipo de justificaciones en la bibliografa, anen la ms especializada.

    Se finaliza con un captulo que presenta brevemente las tendencias modernasdel Anlisis Multivariado de Datos, para lo cual se escogieron tres temas: laoptimizacin de los mtodos, el anlisis de datos simblicos, y la minera dedatos.

    Hubo que decidir dejar por fuera algunas tcnicas que pudieron haber for-mado parte del libro, como la Regresin, el Anlisis Cannico, o el EscalamientoMultidimensional. La primera de ellas, si bien tiene una fuerte componente geo-mtrica, como la mayora de tcnicas incluidas en este libro, tambin tiene unafuerte componente de estimacin estadstica, y muchas veces la prctica de la re-gresin cae ms en el campo de la Estadstica Inferencial que en el de la Estads-tica Descriptiva. En cuanto al Anlisis Cannico, tiene un gran inters terico

    pues generaliza muchas de las tcnicas aqu expuestas, pero no se usa mucho enla prctica, por lo que su inclusin hubiese alargado innecesariamente el texto.Finalmente, el escalamiento tambin es muy importante, pero en realidad se tratade una familia de tcnicas que quizs ameritan un libro solo para ellas.

    Como se dijo anteriormente, los captulos 1, 2 y 3 son necesarios para lacomprensin de cualquier captulo posterior. Enseguida, los captulos son inde-pendientes entre s, con excepcin del 4 y 5, que necesariamente se deben cubriren ese orden.

    La mayor parte del material ha sido probado a lo largo de los aos en di-versos cursos de Licenciatura y Maestra de la Universidad de Costa Rica, por

    lo que agradecemos a los estudiantes y profesores que lo han usado ya que sussealamientos y comentarios nos han ayudado a mejorar sustancialmente el texto

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    12/118

    xii

    inicial. Versiones previas del libro tambin han sido utilizadas en diversos cursosque hemos impartido en la regin, como en la Universidad de San Carlos y en ladel Valle de Guatemala, la Universidad Nacional Autnoma de Honduras, la Uni-versidad Nacional Autnoma de Nicaragua Len, y la Universidad de Panam.

    En Mxico, en la Universidad Autnoma Metropolitana Unidad Iztapalapa, laBenemrita Universidad Autnoma de Puebla, el Instituto Tecnolgico y de Es-tudios Superiores de Monterrey, campus Monterrey y Guadalajara, el Centro deInvestigaciones y Estudios Avanzados del Instituto Politcnico Nacional, y en elForo Nacional de Estadstica de Mxico. Tambin fuera de la regin mesoame-ricana, en la Universidad de Pinar del Ro y Universidad Central de Las Villas,Cuba, y en la Universidad de Copiap, Chile. Desde luego, la responsabilidaddel material incluido en el texto, y los posibles errores que salgan publicados,son entera responsabilidad de los autores.

    Deseamos agradecer a la Vicerrectora de Docencia de la Universidad deCosta Rica por su apoyo durante el inicio de la redaccin de este material, as

    como a la Escuela de Matemtica por las facilidades prestadas durante variossemestres. Al Programa de Estudios de Posgrado en Matemtica por habernospermitido dictar cursos relacionados con el material publicado, lo cual hizo quese lograra mejorar sustancialmente el texto inicial. Los resultados numricos pre-sentados en este libro han sido obtenidos a partir de programas elaborados porlos autores o bien con el paquete PIMAD 3.0, elaborado por nuestro colega Olde-mar Rodrguez. Algunos planos principales y crculos de correlaciones fuerontambin hechos a partir de este paquete, y los rboles de clasificacin fueronelaborados a partir de la programacin de nuestro colega Alex Murillo. Final-mente, tambin agradecemos a colegas que han facilitado el uso de datos reales,cuyo anlisis forma una parte muy importante en este libro. Algunos de ellos

    son Patricia Snchez, por los datos sobre fabes asturianas; Antonio Banichevivhy Javier Bonatti, por los datos meteorolgicos sobre concentracin del CO2;Franklin Rosales, Luis Pocasangre y el equipo de Bioversity, por los datos so-bre calidad y salud de suelos bananeros; y Edith Guevara, por los datos sobre elcomedor del Instituto Tecnolgico de Costa Rica.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    13/118

    Tabla de Contenidos

    1 Estadstica Descriptiva 1

    1.1 Elementos de Estadstica . . . . . . . . . . . . . . . . . . . . . 1

    1.1.1 Individuos o unidades estadsticas . . . . . . . . . . . . 21.1.2 Las variables de la estadstica . . . . . . . . . . . . . . 4

    1.2 Tablas de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    1.2.1 Tablas de individuos variables . . . . . . . . . . . . . 81.2.2 Tablas de variables variables . . . . . . . . . . . . . . 101.2.3 Tablas de individuos individuos . . . . . . . . . . . . 12

    1.3 Anlisis estadsticos univariados y bivariados . . . . . . . . . . 14

    Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2 Introduccin a la Estadstica Multidimensional 23

    2.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    2.2 Los espacios vectoriales asociados a las tablas de datos . . . . . 24

    2.3 Nubes de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    2.4 Inercia en un punto . . . . . . . . . . . . . . . . . . . . . . . . 32

    2.5 Esquema de dualidad . . . . . . . . . . . . . . . . . . . . . . . 33

    Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    xiii

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    14/118

    xiv

    3 Anlisis en Componentes Principales 37

    3.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    3.2 Objetivo del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . 38

    3.3 Solucin del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . 40

    3.3.1 A.C.P. normado . . . . . . . . . . . . . . . . . . . . . . 41

    3.3.2 Diagonalizacin de R . . . . . . . . . . . . . . . . . . . 46

    3.3.3 Vectores principales . . . . . . . . . . . . . . . . . . . 47

    3.3.4 Componentes principales . . . . . . . . . . . . . . . . . 47

    3.3.5 Propiedades de las componentes principales . . . . . . . 48

    3.4 Representaciones grficas . . . . . . . . . . . . . . . . . . . . . 493.4.1 Planos principales . . . . . . . . . . . . . . . . . . . . 49

    3.4.2 Crculos de correlaciones . . . . . . . . . . . . . . . . . 50

    3.5 Indices de calidad . . . . . . . . . . . . . . . . . . . . . . . . . 51

    3.5.1 Calidad global . . . . . . . . . . . . . . . . . . . . . . 51

    3.5.2 Calidad particular . . . . . . . . . . . . . . . . . . . . . 54

    3.5.3 Nmero de componentes principales . . . . . . . . . . . 57

    3.6 Interpretacin de los resultados . . . . . . . . . . . . . . . . . . 58

    3.7 Elementos suplementarios . . . . . . . . . . . . . . . . . . . . 60

    3.7.1 Individuos suplementarios . . . . . . . . . . . . . . . . 60

    3.7.2 Variables suplementarias . . . . . . . . . . . . . . . . . 61

    3.8 Casos de aplicacin . . . . . . . . . . . . . . . . . . . . . . . . 61

    3.8.1 Anlisis de la concentracin de CO2 . . . . . . . . . . . 61

    3.8.2 Anlisis de fabes asturianas . . . . . . . . . . . . . . . 68

    3.8.3 Encuestas de opinin pblica . . . . . . . . . . . . . . . 78

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    15/118

    J. Trejos W. Castillo J. Gonzlez xv

    3.8.4 Opinin sobre un servicio de comedor . . . . . . . . . . 78

    3.9 El A.C.P. general . . . . . . . . . . . . . . . . . . . . . . . . . 83

    Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    4 Anlisis Factorial de Correspondencias 99

    4.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    4.2 Conceptos bsicos y objetivos del A.F.C. . . . . . . . . . . . . . 99

    4.2.1 Concepto de independencia entre dos variablescualitativas . . . . . . . . . . . . . . . . . . . . . . . . 101

    4.2.2 Objetivos del A.F.C. . . . . . . . . . . . . . . . . . . . 102

    4.3 Perfiles, distancias y algunas propiedades . . . . . . . . . . . . 1034.3.1 Perfiles-fila y sus pesos . . . . . . . . . . . . . . . . . . 103

    4.3.2 Perfiles-columna y sus pesos . . . . . . . . . . . . . . . 105

    4.3.3 Distancia entre perfiles . . . . . . . . . . . . . . . . . . 107

    4.3.4 Equivalencia distribucional . . . . . . . . . . . . . . . . 107

    4.3.5 Relacin entre la inercia y la cantidad 2 . . . . . . . . 109

    4.4 Ejes factoriales, coordenadas yrepresentacin grfica de perfiles . . . . . . . . . . . . . . . . . 109

    4.4.1 A.C.P. de la nube de perfiles-fila . . . . . . . . . . . . . 110

    4.4.2 A.C.P. de la nube de perfiles-columna . . . . . . . . . . 111

    4.4.3 Relaciones de transicin . . . . . . . . . . . . . . . . . 112

    4.4.4 Representacin de modalidades suplementarias . . . . . 115

    4.4.5 Acerca del centraje en A.F.C. . . . . . . . . . . . . . . 115

    4.5 Interpretacin de un A.F.C.: algunos ndices . . . . . . . . . . . 116

    4.5.1 Contribucin absoluta . . . . . . . . . . . . . . . . . . 116

    4.5.2 Contribucin relativa . . . . . . . . . . . . . . . . . . . 117

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    16/118

    xvi

    4.5.3 Seleccin de ejes . . . . . . . . . . . . . . . . . . . . . 118

    4.5.4 Seleccin de perfiles . . . . . . . . . . . . . . . . . . . 119

    4.5.5 Ejemplo ilustrativo: tipos de vehculos . . . . . . . . . . 120

    4.5.6 Aplicacin en Biologa . . . . . . . . . . . . . . . . . . 125

    4.6 Propiedades del Anlisis Factorial deCorrespondencias . . . . . . . . . . . . . . . . . . . . . . . . . 129

    4.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

    5 Anlisis de Correspondencias Mltiples 137

    5.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

    5.2 La tabla de datos en A.C.M. . . . . . . . . . . . . . . . . . . . 137

    5.2.1 Cdigo disyuntivo completo . . . . . . . . . . . . . . . 138

    5.2.2 Mrgenes de X . . . . . . . . . . . . . . . . . . . . . . 139

    5.3 Objetivos de un A.C.M. . . . . . . . . . . . . . . . . . . . . . . 140

    5.3.1 Los individuos . . . . . . . . . . . . . . . . . . . . . . 140

    5.3.2 Las modalidades . . . . . . . . . . . . . . . . . . . . . 140

    5.3.3 El A.C.M. y otros mtodos . . . . . . . . . . . . . . . . 140

    5.4 Perfiles y distancias en A.C.M. . . . . . . . . . . . . . . . . . . 141

    5.4.1 Perfiles-fila y distancia . . . . . . . . . . . . . . . . . . 141

    5.4.2 Perfiles-columna y distancia . . . . . . . . . . . . . . . 142

    5.5 Ejes factoriales y coordenadas factoriales en A.C.M. . . . . . . 143

    5.5.1 Coordenadas factoriales de los individuos . . . . . . . . 143

    5.5.2 Coordenadas factoriales de las modalidades . . . . . . . 144

    5.5.3 Relaciones de transicin entre coordenadas . . . . . . . 144

    5.5.4 Elementos suplementarios . . . . . . . . . . . . . . . . 145

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    17/118

    J. Trejos W. Castillo J. Gonzlez xvii

    5.6 Interpretaciones en A.C.M. . . . . . . . . . . . . . . . . . . . . 147

    5.6.1 Ejemplo: datos mdicos . . . . . . . . . . . . . . . . . 148

    5.6.2 Ejemplo: datos sociolgicos . . . . . . . . . . . . . . . 149

    5.7 Relacin del A.C.M. con otros mtodos . . . . . . . . . . . . . 160

    5.7.1 Matriz de Burt: sus propiedades . . . . . . . . . . . . . 160

    5.7.2 Anlisis de una matriz de Burt . . . . . . . . . . . . . . 162

    5.8 Inercia de algunas nubes de puntos . . . . . . . . . . . . . . . . 165

    5.8.1 Inercia total . . . . . . . . . . . . . . . . . . . . . . . . 165

    5.8.2 Inercia de nubes de modalidades . . . . . . . . . . . . . 165

    5.8.3 Inercia proyectada . . . . . . . . . . . . . . . . . . . . 166

    5.9 Pruebas de algunas propiedades del A.C.M. . . . . . . . . . . . 168

    Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

    6 Clasificacin Automtica 175

    6.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

    6.2 Medidas de Semejanza . . . . . . . . . . . . . . . . . . . . . . 177

    6.2.1 Distancias y disimilitudes . . . . . . . . . . . . . . . . 177

    6.2.2 Similitudes . . . . . . . . . . . . . . . . . . . . . . . . 177

    6.2.3 Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . 181

    6.2.4 Agregaciones . . . . . . . . . . . . . . . . . . . . . . . 188

    6.3 Clasificacin Jerrquica . . . . . . . . . . . . . . . . . . . . . . 189

    6.3.1 Jerarquas . . . . . . . . . . . . . . . . . . . . . . . . . 189

    6.3.2 Clasificacin jerrquica ascendente . . . . . . . . . . . 191

    6.3.3 Ejemplo de las notas escolares . . . . . . . . . . . . . . 197

    6.3.4 Observaciones sobre la clasificacin jerrquica . . . . . 199

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    18/118

    xviii

    6.4 Clasificacin por Particiones . . . . . . . . . . . . . . . . . . . 199

    6.4.1 Problema combinatorio . . . . . . . . . . . . . . . . . . 200

    6.4.2 Criterio de la inercia . . . . . . . . . . . . . . . . . . . 201

    6.4.3 Mtodo de k-medias . . . . . . . . . . . . . . . . . . . 202

    6.4.4 Mtodos de nubes dinmicas . . . . . . . . . . . . . . . 206

    6.4.5 Mtodo de Fisher . . . . . . . . . . . . . . . . . . . . . 210

    6.4.6 Anlisis de las formas fuertes . . . . . . . . . . . . . . 210

    6.4.7 Uso de heursticas modernas de optimizacin . . . . . . 213

    6.4.8 Aplicaciones del particionamiento . . . . . . . . . . . . 213

    6.5 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

    6.5.1 Clasificacin en Meteorologa . . . . . . . . . . . . . . 215

    6.5.2 Clasificacin de variables sociolgicas . . . . . . . . . . 219

    6.5.3 Clasificacin de fabes asturianas . . . . . . . . . . . . . 219

    6.6 Prueba de algunos resultados tericos . . . . . . . . . . . . . . 222

    6.6.1 Frmula de recurrencia de Lance & Williams . . . . . . 222

    6.6.2 Propiedad de Fisher para la descomposicin de la inercia 227

    6.6.3 Convergencia del mtodo de k-medias . . . . . . . . . . 228Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

    7 Anlisis Discriminante Descriptivo 235

    7.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

    7.2 Los datos y notaciones . . . . . . . . . . . . . . . . . . . . . . 236

    7.2.1 Caracterizacin de las funciones discriminantes . . . . . 243

    7.2.2 Clculo de las funciones discriminantes . . . . . . . . . 244

    7.2.3 Representaciones en Anlisis Discriminante Descriptivo 247

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    19/118

    J. Trejos W. Castillo J. Gonzlez xix

    7.3 Ejemplo sobre el embalse La Garita . . . . . . . . . . . . . . . 252

    7.4 Cociente de Rayleigh . . . . . . . . . . . . . . . . . . . . . . . 259

    Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262

    8 Anlisis de Tablas Mltiples 267

    8.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

    8.2 Fundamentos del mtodo Statis . . . . . . . . . . . . . . . . . . 268

    8.2.1 Objetivos de los mtodos Statis y Statis Dual . . . . . . 269

    8.2.2 Producto interno y teorema de aproximacin . . . . . . 269

    8.2.3 Imagen Eucldea asociada a una tabla de productos es-

    calares . . . . . . . . . . . . . . . . . . . . . . . . . . 270

    8.2.4 Construccin de una imagen Eucldea para la nube (O, )2718.2.5 Imagen Eucldea centrada . . . . . . . . . . . . . . . . 272

    8.3 Statis: individuos fijos . . . . . . . . . . . . . . . . . . . . . . 272

    8.3.1 La interestructura . . . . . . . . . . . . . . . . . . . . . 274

    8.3.2 El compromiso . . . . . . . . . . . . . . . . . . . . . . 280

    8.4 La intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . 283

    8.4.1 Individuo visto por todas las tablas (individuos promedio) 284

    8.4.2 Imagen Eucldea para los individuos de las tablas Xk . . 285

    8.5 Correlaciones de las variables con los ejes del compromiso . . . 287

    8.6 Anlisis evolutivo de una encuesta de opinin . . . . . . . . . . 291

    8.6.1 Construccin de la tabla de datos . . . . . . . . . . . . . 292

    8.6.2 Anlisis de la interestructura . . . . . . . . . . . . . . . 292

    8.6.3 Anlisis de la intraestructura . . . . . . . . . . . . . . . 293

    8.7 Statis Dual: las mismas variables en los m instantes . . . . . . . 297

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    20/118

    xx

    8.7.1 La interestructura . . . . . . . . . . . . . . . . . . . . . 298

    8.8 El compromiso . . . . . . . . . . . . . . . . . . . . . . . . . . 302

    8.9 Intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . . . 304

    8.9.1 Representacin de las variables . . . . . . . . . . . . . 304

    8.9.2 Relacin entre la interestructura y las trayectorias de lasvariables . . . . . . . . . . . . . . . . . . . . . . . . . 308

    8.9.3 Representacin de los individuos . . . . . . . . . . . . . 308

    8.10 Aproximacin ptima de matrices . . . . . . . . . . . . . . . . 308

    8.11 Datos del Proyecto Angostura . . . . . . . . . . . . . . . . . . 310

    Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313

    9 Nuevas Tendencias en Anlisis Multivariado 321

    9.1 Optimizacin y anlisis de datos . . . . . . . . . . . . . . . . . 321

    9.2 Anlisis de datos simblicos . . . . . . . . . . . . . . . . . . . 323

    9.3 Minera de datos . . . . . . . . . . . . . . . . . . . . . . . . . 324

    Bibliografa 327

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    21/118

    Indice de Figuras

    1.1 El coeficiente de correlacin lineal muestra el tipo de relacinentre dos variables cuantitativas . . . . . . . . . . . . . . . . . 17

    2.1 Caso de variables centradas: la norma es una varianza y la co-

    rrelacin es un coseno. . . . . . . . . . . . . . . . . . . . . . . 29

    2.2 Tres situaciones tpicas para la correlacin entre dos variablescentradas xj y xk. . . . . . . . . . . . . . . . . . . . . . . . . . 29

    2.3 La media como una proyeccin y la desviacin estndar comouna medida del error, para variables no centradas. . . . . . . . . 30

    2.4 El esquema de dualidad. . . . . . . . . . . . . . . . . . . . . . 34

    3.1 Proyeccin de un puntoindividuo sobre un subespacio y su com-

    plemento ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . 423.2 Primer plano principal para la tabla de notas escolares, generado

    por las dos primeras componentes principales. . . . . . . . . . . 50

    3.3 Crculo de correlaciones para la tabla de notas escolares gene-rado por las dos primeras componentes principales. . . . . . . . 52

    3.4 Proyeccin de dos puntos individuos en el plano principal. . . . 54

    3.5 Descomposicin del coseno cuadrado segn el teorema de Pit-goras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    3.6 Plano principal generado por las dos primeras componentes prin-cipales del A.C.P. de los datos sin filtrado. . . . . . . . . . . . . 63

    xxi

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    22/118

    xxii

    3.7 Crculo de correlaciones generado por las dos primeras compo-nentes principales del A.C.P. de los datos sin filtrado. . . . . . . 64

    3.8 Crculo de correlaciones generado por las dos primeras compo-nentes principales del A.C.P. de los datos filtrados. . . . . . . . 66

    3.9 Plano principal generado por las dos primeras componentes prin-cipales del A.C.P. de los datos sin filtrado. . . . . . . . . . . . . 67

    3.10 Fabes asturianas: plano principal y crculo de correlaciones 1-2. 75

    3.11 Fabes asturianas: plano principal y crculo de correlaciones 1-3. 76

    3.12 Fabes asturianas: plano principal y crculo de correlaciones 1-4. 77

    3.13 Crculo de correlaciones y proyeccin de las modalidades desealizacin como individuos suplementarios en el primer planoprincipal para los datos del comedor del I.T.C.R. . . . . . . . . 82

    3.14 Esquema de dualidad en el caso del A.C.P. general. . . . . . . . 88

    4.1 Componentes de una tabla de contingencia. . . . . . . . . . . . 100

    4.2 Componentes de una tabla de frecuencias. . . . . . . . . . . . . 101

    4.3 Tabla de perfiles-fila. . . . . . . . . . . . . . . . . . . . . . . . 104

    4.4 Tabla de perfiles-columna. . . . . . . . . . . . . . . . . . . . . 106

    4.5 Primer plano factorial de los perfiles-fila de la Tabla 4.1. . . . . 112

    4.6 Primer plano factorial de los perfiles-columna de la Tabla 4.1. . 113

    4.7 Primer plano factorial: todos los perfiles de la Tabla 4.1. . . . . 114

    4.8 Valores propios del A.F.C. de la Tabla 4.4. . . . . . . . . . . . . 121

    4.9 Representacin simultnea de los perfiles de la Tabla 4.4 en elprimer plano factorial (65.59% de inercia). . . . . . . . . . . . . 122

    4.10 Representacin simultnea de los perfiles de la Tabla 4.4 en elplano factorial 1-3 (% Inercia 50.91). . . . . . . . . . . . . . . . 124

    4.11 Plano principal del A.F.C. de epfitas y helechos (82.6% de inercia).126

    4.12 Plano principal del A.F.C. de epfitas y niveles (74.82% de inercia).127

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    23/118

    J. Trejos W. Castillo J. Gonzlez xxiii

    5.1 Primer plano factorial: perfiles de las modalidades de la Tabla5.3, datos mdicos (66.42% de inercia). . . . . . . . . . . . . . 150

    5.2 A.C.M. de las diez variables de opinin: plano principal (25%de inercia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

    5.3 A.C.M. de los temas empresa privadalibertad: plano princi-pal (49% de inercia explicada). . . . . . . . . . . . . . . . . . . 157

    5.4 Trayectoria seguida por las modalidades de var8 y var9 en elplano generado por los ejes 1 y 3 (43% de inercia). . . . . . . . 158

    5.5 Grfico de los valores propios del A.F.C. de la matriz de Burtcorrespondiente a los datos de la Tabla 5.7. . . . . . . . . . . . 163

    5.6 Primer plano factorial del A.F.C. de la Matriz de Burt corres-pondiente a los datos de la Tabla 5.7: centros de las modalidades

    (18.72% de inercia). . . . . . . . . . . . . . . . . . . . . . . . . 164

    6.1 Agrupacin natural de puntos del plano en 3 clases. . . . . . . . 191

    6.2 Ejemplo de rbol jerrquico . . . . . . . . . . . . . . . . . . . . 192

    6.3 Arbol de clasificacin obtenido al usar la agregacin del saltomnimo en el Ejemplo 4. . . . . . . . . . . . . . . . . . . . . . 195

    6.4 Arbol de clasificacin obtenido al usar la agregacin del saltomximo en el Ejemplo 5. . . . . . . . . . . . . . . . . . . . . . 196

    6.5 Arbol de clasificacin obtenido al usar la agregacin del saltopromedio en el Ejemplo 6. . . . . . . . . . . . . . . . . . . . . 197

    6.6 Arbol de clasificacin obtenido al usar la agregacin del saltopromedio (Ejemplo 7). . . . . . . . . . . . . . . . . . . . . . . 199

    6.7 Jerarqua obtenida sobre las formas fuertes con el mtodo deconexidad descendente. . . . . . . . . . . . . . . . . . . . . . . 214

    6.8 Arbol de clasificacin jerrquica de los instantes. . . . . . . . . 220

    6.9 Arbol de clasificacin para las variables de opinin. . . . . . . . 222

    6.10 Arbol jerrquico de las variedades de fabes asturianas usandocuatro criterios de agregacin. . . . . . . . . . . . . . . . . . . 223

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    24/118

    xxiv

    6.11 Fabes asturianas: rbol jerrquico de las variables. . . . . . . . . 224

    7.1 Plano principal de representacin de los centros de los sitios debanano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

    7.2 Plano principal de representacin de los individuos, como suple-mentarios, en el plano de los centros de los sitios de banano (conb se representan los individuos del sitio bueno, con m los de sitiomedio y con p los de sitio pobre). . . . . . . . . . . . . . . . . . 250

    7.3 Crculo de correlaciones entre las variables explicativas origi-nales y las variables discriminantes. . . . . . . . . . . . . . . . 252

    7.4 Representacin suplementaria de los individuos en los ejes dis-criminantes v1, v2. . . . . . . . . . . . . . . . . . . . . . . . . 256

    7.5 Representacin de los individuos como elementos suplementar-ios en los ejes discriminantes v1, v3. . . . . . . . . . . . . . . . 257

    7.6 Correlacin entre variables y variables discriminantes z1, z2. . . 2 5 7

    7.7 Correlacin entre variables y variables discriminantes z1, z3. . . 2 5 8

    8.1 Proyecto Angostura: interestructura. . . . . . . . . . . . . . . . 278

    8.2 Proyecto Angostura: interestructura centrada. . . . . . . . . . . 279

    8.3 Proyecto Angostura: Individuos promedio, ejes 12. . . . . . . . 285

    8.4 Trayectorias de los meses. . . . . . . . . . . . . . . . . . . . . 287

    8.5 Proyecto Angostura: correlaciones de las variables Mg, Ca, DBO,ST, PO4 y Cal en el plano principal 12. . . . . . . . . . . . . . 288

    8.6 Proyecto Angostura: concentracin mensual. . . . . . . . . . . 290

    8.7 Interestructura para la evolucin de la opinin. . . . . . . . . . . 293

    8.8 Correlacin entre variables y los ejes del compromiso para laevolucin de la opinin. . . . . . . . . . . . . . . . . . . . . . . 293

    8.9 Grupos sociales promedio: Escolaridad, Edad, Ingreso Familiary Provincia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    25/118

    J. Trejos W. Castillo J. Gonzlez xxv

    8.10 Grupos sociales promedio: partidos polticos. . . . . . . . . . . 295

    8.11 Trayectorias de los grupos de edad ms opuestos. . . . . . . . . 296

    8.12 Trayectorias de los escolaridad ms opuestos. . . . . . . . . . . 296

    8.13 Caa de azcar: interestructura normalizada (94% de inercia). . 301

    8.14 Caa de azcar: interestructura centrada (79% de inercia). . . . 302

    8.15 Caa de azcar: variables activas (75% de inercia). . . . . . . . 305

    8.16 Caa de azcar: variables suplementarias. . . . . . . . . . . . . 307

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    26/118

    xxvi

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    27/118

    Indice de Tablas

    1.1 Tabla de datos de las notas escolares con peso y estatura. . . . . 9

    1.2 Parte de una tabla de datos proveniente de una encuesta. . . . . . 9

    1.3 Tabla de contingencia que cruza el nivel de salario con el nivelde estudios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    1.4 Tabla de Burt entre 4 de las variables acerca del servicio decomedor del ITCR. . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.5 Tabla de datos con la distancia entre algunas ciudades. . . . . . 13

    1.6 Tabla de datos: sociomatriz en que 10 estudiantes de sexto gradocalifican la afinidad hacia cada uno de sus compaeros. . . . . . 14

    3.1 Tabla de datos de las notas escolares. . . . . . . . . . . . . . . . 40

    3.2 Correlaciones entre las materias de la tabla de notas escolares. . 47

    3.3 Dos primeras componentes principales para la tabla de notas es-colares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    3.4 Cosenos cuadrados y calidad de la representacin para la tablade notas escolares. . . . . . . . . . . . . . . . . . . . . . . . . 57

    3.5 Tabla de datos para las fabes asturianas. . . . . . . . . . . . . . 70

    3.6 Principales estadsticas univariadas para las fabes asturianas. . . 70

    3.7 Matriz de correlaciones para las fabes asturianas. . . . . . . . . 71

    xxvii

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    28/118

    xxviii

    3.8 Valores propios y porcentajes de inercia para la tabla de las fabesasturianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    3.9 Fabes asturianas: cuatro primeras componentes principales. . . . 72

    3.10 Fabes asturianas: correlaciones principales (con negrita se handestacado los valores mayores para cada componente principal). 73

    3.11 Fabes asturianas: comunalidades. . . . . . . . . . . . . . . . . . 74

    3.12 Frecuencias relativas de las categoras en el estudio de opininsobre el comedor del I.T.C.R. . . . . . . . . . . . . . . . . . . . 80

    3.13 Comedor del I.T.C.R.: frecuencias de las variables de sealizacin. 81

    3.14 Comedor del I.T.C.R.: valores propios del A.C.P. . . . . . . . . 81

    3.15 Los datos de los peces de Amiard. . . . . . . . . . . . . . . . . 94

    3.16 Datos sobre las causas de muerte en algunos pases occidentales. 95

    3.17 Datos sobre el consumo de protenas en Europa en 1981. . . . . 96

    3.18 Importaciones provenientes de Mxico de los pases de Cen-troamrica, entre 1979 y 1988. . . . . . . . . . . . . . . . . . . 97

    4.1 Cantidad de estudiantes matriculados en universidades estatalessegn su procedencia, 1989. . . . . . . . . . . . . . . . . . . . 100

    4.2 Perfiles-fila correspondientes a la Tabla 4.1. . . . . . . . . . . . 105

    4.3 Perfiles-columna correspondientes a la Tabla 4.1. . . . . . . . . 106

    4.4 Cantidad de gasolina regular comprada, por marca y tipo de ve-hculo, entre agosto y noviembre de 1996. . . . . . . . . . . . . 120

    4.5 Valores propios del A.F.C. de la Tabla 4.4. . . . . . . . . . . . . 121

    4.6 Contribuciones absolutas y cosenos cuadrados de las marcas devehculos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

    4.7 Contribuciones absolutas y cosenos cuadrados de los tipos devehculos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    29/118

    J. Trejos W. Castillo J. Gonzlez xxix

    4.8 Nmero de epfitas por especie sobre 4 especies de helechos(primera parte de la tabla) y en cinco niveles (segunda parte dela tabla). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

    4.9 Respuestas segn el sexo. . . . . . . . . . . . . . . . . . . . . . 132

    4.10 Respuestas segn la profesin. . . . . . . . . . . . . . . . . . . 133

    4.11 Exportaciones no tradicionales de Costa Rica. . . . . . . . . . . 134

    5.1 Tres variables cualitativas observadas en 10 individuos. . . . . . 138

    5.2 Cdigo disyuntivo completo de los datos de la Tabla 5.1. . . . . 139

    5.3 Datos mdicos de incontinencia: cdigos de las modalidades delas variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

    5.4 Valores propios del A.C.M. de la Tabla 5.3, datos mdicos. . . . 1505.5 Frecuencias para las variables socioeconmicas. . . . . . . . . . 154

    5.6 Frecuencias de las variables de opinin. . . . . . . . . . . . . . 155

    5.7 Cantidad de profesores de la Universidad de Costa Rica dis-tribuidos por AO-SEXO, AO-CRA y SEXO-CRA. . . . . . 163

    5.8 Primeros 4 valores propios del A.F.C. de la matriz de Burt co-rrespondiente a los datos de la Tabla 5.7 . . . . . . . . . . . . . 164

    5.9 Tabla de datos de las razas de perros. . . . . . . . . . . . . . . . 175

    6.1 Resultados de 25 corridas del mtodo de k-medias sobre la tablade las notas escolares. . . . . . . . . . . . . . . . . . . . . . . . 207

    6.2 Clasificacin de las estaciones de observacin, usando el mtodode Ward. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

    6.3 Clasificacin de los instantes de observacin, usando el mtodode Ward. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

    7.1 Extracto de una tabla de las fincas bananeras con las variablesque describen la productividad. . . . . . . . . . . . . . . . . . . 237

    7.2 Tabla de datos centrados de las fincas bananeras (extracto). . . . 240

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    30/118

    xxx

    7.3 Variables discriminantes del anlisis discriminante de los sitiosde banano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246

    7.4 Correlaciones entre las variables explicativas originales y las va-riables discriminantes. . . . . . . . . . . . . . . . . . . . . . . 251

    7.5 Tabla de datos del embalse La Garita. . . . . . . . . . . . . . . 254

    7.6 Matriz Ctg de los centros de gravedad. . . . . . . . . . . . . . . 255

    7.7 Vectores propios de la matriz VBV1. . . . . . . . . . . . . . . 255

    7.8 Valores propios de la matriz VBV1. . . . . . . . . . . . . . . 256

    7.9 Cosenos cuadrados de los centros de gravedad con las funcionesdiscriminantes. . . . . . . . . . . . . . . . . . . . . . . . . . . 256

    7.10 Tabla de reses charolais y ceb. . . . . . . . . . . . . . . . . . . 265

    8.1 Proyecto Angostura: matriz S de coeficientes RV. . . . . . . . 277

    8.2 Proyecto Angostura: valores propios de la interestructura. . . . . 278

    8.3 Proyecto Angostura: calidad de la representacin de la interes-tructura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

    8.4 Proyecto Angostura: valores propios de la interestructura centrada.280

    8.5 Proyecto Angostura: calidad de la interestructura centrada. . . . 280

    8.6 Proyecto Angostura: valores propios de WD. . . . . . . . . . . 285

    8.7 Caa de azcar: calidad de la representacin plana. . . . . . . . 301

    8.8 Caa de azcar: pesos del compromiso. . . . . . . . . . . . . . 304

    8.9 Proyecto Angostura: Reventazn 1 y Reventazn 3. . . . . . . . 311

    8.10 Proyecto Angostura: Tus 4, Tus 5 y Turrialba2. . . . . . . . . . 312

    8.11 Proyecto Hidroelctrico VentanasGarita: Verano. . . . . . . . . 316

    8.12 Proyecto hidroelctrico VentanasGarita: VeranoInvierno. . . . 317

    8.13 Proyecto hidroelctrico VentanasGarita: Invierno. . . . . . . . 318

    8.14 Proyecto hidroelctrico VentanasGarita: InviernoVerano. . . . 319

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    31/118

    ccxxxvi

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    32/118

    Captulo 7

    Anlisis DiscriminanteDescriptivo

    7.1 Introduccin

    Se designa con el nombre de Anlisis Discriminante a una familia de tcnicasutilizadas para describir y clasificar individuos caracterizados por ciertas varia-bles, ms precisamente se trata de explicar una variable cualitativa con r mo-dalidades con base en p variables cuantitativas llamadas variables explicativaso predictores. Cada individuo asume una sola modalidad, definindose as unaparticin del conjunto de individuos en r clases denominadas grupos a priori, osimplemente grupos.

    Se distinguen dos objetivos fundamentales que pueden ser complementarios:

    1. Descriptivo: determinar cuales son las combinaciones lineales de las p va-riables observadas que permiten diferenciar lo mejor posible (discriminar)los r grupos. Este objetivo es de carcter descriptivo y se relaciona conel Anlisis en Componentes Principales. Es natural entonces que se d lamayor importancia a la construccin de representaciones bidimensionalesde los individuos, de las variables y de los grupos a priori.

    2. Decisional: construir reglas de clasificacin reglas decisionales para

    asignar un nuevo individuo, del cual se conocen los valores de los predic-tores, a uno de los grupos a priori. Este objetivo es de carcter

    235

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    33/118

    236 7.2 Los datos y notaciones

    decisional y su nexo es con los mtodos probabilsticos. Esencial a estenfasis es la construccin de reglas de decisin y los procedimientos parasu evaluacin.

    Los ejemplos ms clsicos de anlisis discriminante pertenecen al dominiomdico. Suponiendo que se ha logrado un diagnstico fundamentado en una se-rie de anlisis y exmenes realizados sobre un conjunto de pacientes, se pretenderealizar un diagnstico sobre un nuevo paciente al cual se le han practicado losmismos exmenes y anlisis. El anlisis discriminante intentar, a partir de estainformacin y de sus interrelaciones, prever el diagnstico ms probable.

    Este captulo trata el Anlisis Discriminante solo en relacin con el primerobjetivo. Es decir, desde un punto de vista descriptivo, por eso se llama AnlisisDiscriminante Descriptivo.

    7.2 Los datos y notaciones

    Se consideran p variables continuas (variables explicativas) x1, . . . , xp obser-vadas en una muestra de n individuos. Cada individuo i E se identificacon su vector (fila) de mediciones en Rp, xti = (xi1, . . . , xip) y cada variablexj con su vector (columna) de valores asumidos xj = (x1j , x2j , . . . , xnj)t. Lavariable cualitativa y (a explicar) determina una particin P = {C1, . . . , C r},del conjunto de individuos en r grupos.

    Se denota como:

    X la matriz de tamao n p la cual se supone centrada en sus columnas.Como es usual sus columnas son las variables explicativas xj (previamentecentradas) y los individuos xti son sus filas.

    D=diag(pi) es la matriz de pesos del conjunto de individuos . A cada clase Cs se le asigna el peso qs y centro de gravedad gs para

    s = 1, . . . , r donde

    qs =

    iCspi y gs =

    1

    qs iCspixi.

    Se escribe Dq = diag(qj) la matriz diagonal de los pesos de las r clases

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    34/118

    J. TREJOS W. CASTILLO J. GONZLEZ 237

    Adems, se denota como Cg la matriz cuyas filas son los centros de gra-vedad gts.

    Ejemplo 1 En un estudio sobre la calidad y salud de suelos bananeros en laCuenca del Caribe, se estudiaron varias variables fsicas, qumicas y biolgicas

    que caracterizan la produccin de los cultivos. En particular, tambin se estudi

    la productividad de las fincas a travs de tres variables cuantitativas:

    Circunferencia de la madre (CircMadr): se llama madre a una palmerade banano adulta, que produce un racimo prximo a la recoleccin; la

    circunferencia de la mata es medida a un metro de altura del suelo, en

    centmetros.

    Altura del hijo (AltHijo): al lado de una madre nacen varios hijos, perosolo uno se deja para la prxima cosecha, aqul que tiene mayor robustez

    al momento de hacer la inspeccin; a ste se le llama el hijo y se mide sualtura del suelo en centmetros.

    Nmero de manos (#Manos): es el nmero de grupos de frutas, llamadasmanos, que tiene el racimo; es un nmero entero, generalmente menor o

    igual a 10.

    Como parte del estudio mencionado, se hicieron mediciones en ms de 40

    fincas de 4 pases latinoamericanos. Por ejemplo, en la tabla 7.1 se presenta una

    muestra extrada de una de las tablas creadas para el estudio, correspondiente

    a una de las fincas en Costa Rica (la tabla tiene realmente 220 objetos, pero por

    razones didcticas utilizamos una muestra de 36 plantas de banano). Los sitiosde donde se toman los valores han sido clasificados a priori por el finquero, con

    base en su experiencia, como buenos, medios y pobres, segn la productividad

    histrica.

    Se quiere hacer un anlisis discriminante para determinar si la clasificacin

    a priori dada por el finquero con base en su experiencia, es vlida y puede servir

    de base para un estudio posterior que usar todas las variables fsicas, qumicas

    y biolgicas, as como esa separacin en clases para realizar los contrastes entre

    los tipos de suelos.

    Las clases estn definidas por:

    C1 = {3, 10, 17, 22, 40, 44, 47, 49, 58, 63, 71, 75}.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    35/118

    238 7.2 Los datos y notaciones

    Objeto CircMadr AltHijo #manos Sitio3 101 210 9 bueno

    10 93 245 9 bueno17 83 225 8 bueno

    22 94 245 8 bueno40 84 260 9 bueno44 92 247 9 bueno47 86 187 8 bueno49 82 214 9 bueno58 84 240 9 bueno63 90 205 9 bueno71 94 233 9 bueno75 92 237 10 bueno81 78 195 8 medio84 71 196 8 medio

    96 81 203 8 medio104 86 126 6 medio121 81 173 7 medio131 63 180 6 medio136 83 232 7 medio142 82 230 7 medio148 83 205 7 medio153 82 190 7 medio155 75 220 7 medio157 85 180 8 medio158 82 270 8 medio170 54 120 5 pobre172 59 280 4 pobre177 65 167 6 pobre189 62 122 5 pobre193 62 146 6 pobre195 60 165 5 pobre202 65 140 6 pobre209 64 175 4 pobre210 63 135 5 pobre211 59 125 5 pobre216 59 180 6 pobre

    Tabla 7.1: Extracto de una tabla de las fincas bananeras con las variables que describenla productividad.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    36/118

    J. TREJOS W. CASTILLO J. GONZLEZ 239

    C2 = {81, 84, 96, 104, 121, 131, 136, 142, 148, 153, 155, 157, 158}. C3 = {170, 172, 177, 189, 193, 195, 202, 209, 210, 211, 216}.

    El centro de gravedad total de la nube de puntos, es decir, el vector de

    medias, es

    g = (77.19, 197.31, 7.14)

    mientras que los centros de gravedad de las clases son

    g1 = (89.58, 229.00, 8.83),

    g2 = (79.38, 200.00, 7.23),

    g3 = (61.09, 159.55 5.18).

    Finalmente, se tiene D = diag(1/36) y los pesos de las clases sonq1 = 12/36 = 0.33, q2 = 13/36 = 0.36, q3 = 11/36 = 0.31.

    Como se supone que las variables son centradas entonces el centro de grave-dad del conjunto de todos los individuos es g = 0 y la matriz de covarianza(total) V, de las p variables calculadas sobre es

    V = XtDX =ni=1

    pixixti =

    rs=1

    iCs

    pixixit.

    Sea Vs la matriz de covarianza de las p variables, calculada sobre los indivi-duos de la s-sima clase,

    Vs =1

    qs iCspi(xi gs)(xi gs)t.

    El promedio de estas matrices se define como la matriz de covarianza detodas las clases y se denomina matriz de covarianza intraclase y se denota comoVW,

    VW =r

    s=1

    qsVs =r

    s=1

    iCs

    pi(xi gs)(xi gs)t.

    Finalmente la matriz VB de covarianza correspondiente a las p variablescalculadas sobre los centros de gravedad, se denomina matriz de covarianza in-terclase, la cual es igual a,

    VB =

    rs=1

    qsgsgts = C

    tgDqCg.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    37/118

    240 7.2 Los datos y notaciones

    Ejemplo 2 Para los datos del ejemplo 1, la tabla de datos centrada tiene laforma mostrada en la tabla 7.2.

    Una vez centrados los datos se tiene g = (0, 0, 0) y

    g1 = (12.39, 31.69 1.69),

    g2 = (2.19, 2.69, 0.09),

    g3 = (16.10, 37.76, 1.96).

    Por su parte, se tienen las siguientes matrices de varianzascovarianzas:

    V =

    158.93 318.83 17.36318.83 1882.32 41.5417.36 41.54 2.56

    VB = 132.13 317.86 17.14317.86 1745.10 40.4917.14 40.49 2.46

    .VW = 0.33

    30.74 2.92 0.682.92 411.67 3.170.68 3.17 0.31

    ++0.36

    37.47 0.69 0.760.69 1108.00 10.620.76 10.62 0.49

    ++0.31

    9.90 3.96 0.533.96 1871.52 12.83

    0.53 12.83 0.51

    =

    26.80 0.97 0.230.97 137.22 1.060.23 1.06 0.10

    .Ntese que la correlacin entre la circunferencia del tallo (variable 2) y el

    nmero de manos (variable 3) es muy alta, lo cual puede afectar los resulta-

    dos.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    38/118

    J. TREJOS W. CASTILLO J. GONZLEZ 241

    Objeto CircMadr AltHijo #manos3 1.8882928 0.2925948 1.1622769

    10 1.2537208 1.0993112 1.162276917 0.4605055 0.6383304 0.537769822 1.3330421 1.0993112 0.537769840 0.539827 1.4450468 1.162276944 1.1743991 1.1454093 1.162276947 0.69847 -0.2375332 0.537769849 0.381184 0.3847909 1.162276958 0.539827 0.984066 1.162276963 1.0157561 0.1773496 1.162276971 1.3330421 0.8227227 1.162276975 1.1743991 0.9149189 1.786783981 0.0638979 -0.0531409 0.537769884 -0.4913527 -0.0300918 0.5377698

    96 0.3018624 0.1312515 0.5377698104 0.69847 -1.6435246 -0.7112443121 0.3018624 -0.5602198 -0.0867372131 -1.1259249 -0.3988765 -0.7112443136 0.4605055 0.7996737 -0.0867372142 0.381184 0.7535756 -0.0867372148 0.4605055 0.1773496 -0.0867372153 0.381184 -0.1683861 -0.0867372155 -0.1740667 0.5230852 -0.0867372157 0.6191485 -0.3988765 0.5377698158 0.381184 1.6755372 0.5377698

    170 -1.8398186 -1.781819 -1.3357513172 -1.443211 1.9060276 -1.9602584177 -0.9672819 -0.698514 -0.7112443189 -1.2052464 -1.7357209 -1.3357513193 -1.2052464 -1.1825439 -0.7112443195 -1.3638895 -0.7446121 -1.3357513202 -0.9672819 -1.3208381 -0.7112443209 -1.0466033 -0.5141217 -1.9602584210 -1.1259249 -1.4360833 -1.3357513211 -1.443211 -1.6665736 -1.3357513216 -1.443211 -0.3988765 -0.7112443

    Tabla 7.2: Tabla de datos centrados de las fincas bananeras (extracto).

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    39/118

    242 7.2 Los datos y notaciones

    El siguiente teorema muestra que la covarianza total se puede descomponeren la suma de la covarianza intraclase ms la covarianza interclase.

    Teorema 7.1 Sean V, VB, VW las matrices de covarianza total, interclase eintraclase, respectivamente, entonces

    1. V = VB + VW.

    2.r

    s=1 qsgs = 0. Es decir rang (Cg) r 1.3. rang (Cg) = rang (VB).

    DEMOSTRACIN:Para demostrar 1, se calcula primeramente

    iCspi(xi gs)(xi gs)t = iCs(pixix

    ti

    pigsx

    ti

    pixig

    ts +pigsg

    ts)

    =iCs

    pixixti gs

    iCs

    pixti iCs

    pixigts+

    gsgts

    iCs

    pi

    =iCs

    pixixti qsgsgts qsgsgts + qsgsgts

    =iCs

    pixixti qsgsgts.

    Sustituyendo esta ltima expresin en VB + VW se tiene

    VB + VW =

    rs=1

    (qsgsgts + iCs

    pi(xi gs)(xi gs)t)

    =r

    s=1

    (qsgsgts +iCs

    pixixti qsgsgts)

    =r

    s=1

    iCs

    pixixit

    = V.

    La prueba de 2. sigue de sustituir el valor de gs en

    rs=1 qsgs, en efecto

    rs=1

    qsgs =

    rs=1

    iCs

    pixi =

    ni=1

    pixi = g = 0.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    40/118

    J. TREJOS W. CASTILLO J. GONZLEZ 243

    Para demostrar 3., ntese que las matrices VB y Cg tienen el mismo ncleo1 ypor lo tanto el mismo rango; en efecto, sea x Rr, se tiene

    VBx = 0 xtCgtDqCgx = 0 (Cgx)tDqCgx = 0 Cgx = 0.

    AdemsCgx = 0 VBx = 0.

    En el ejemplo 2 puede comprobarse que, en efecto, se cumpleV = VB + VW sobre estos datos.

    7.2.1 Caracterizacin de las funciones discriminantes

    En el primer objetivo descriptivo se plantea la necesidad de encontrar funcionesque permitan separar lo mejor posible las r categoras. Desde este punto de vista

    el problema que se propone resolver el anlisis discriminante puede formularseen los siguientes trminos: entre todas las combinaciones lineales de las p varia-bles, buscar aquellas que tienen una varianza interclase mxima (para resaltar lasdiferencias entre las clases) y una varianza intraclase mnima (baja dispersin alinterior de las clases). Estas combinaciones lineales sern las llamadas funcionesdiscriminantes, se denotan como z1, . . . , zm y se caracterizan ms precisamentecomo sigue:

    1. Cada funcin discriminante z Rp es una combinacin lineal de las pvariables originales. Esto es,

    z =

    p

    j=1

    ujxj

    = Xu, con u Rp

    .

    Como cada una de lasp variables es centrada, z tambin lo es y su varianzaes

    var (z) = (Xu)tDpXu = utXtDpXu = u

    tVu.

    De acuerdo con la parte 1 del teorema 7.1 se tiene que

    var (z) = utVu = utVWu + utVBu. (7.1)

    Esta ltima igualdad muestra que la varianza de la variable z se descom-pone en varianza al interior de las clases (intra) y varianza entre las clases

    (inter), por lo que para z = Xu se definen:1El ncleo de una matriz A es el conjunto de vectores x tales que Ax = 0.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    41/118

    244 7.2 Los datos y notaciones

    Varianza intraclase de zintra(z) = utVWu.

    Varianza interclase de z

    inter(z) = utVBu

    2. Como la idea es definir m funciones discriminantes z1, . . . , zm, es naturalplantear que ellas sean Dportonormadas, es decir, no correlacionadas yde varianza uno.

    3. Los valores de cada variable zj en los individuos de un mismo grupo,deben ser lo ms prximos posible. Es decir, se debe minimizar intra(zj),la varianza intraclase.

    4. Los valores de cada variable zj en los individuos pertenecientes a clases

    distintas, deben ser lo ms diferentes posible. Esto es, se debe maximizarinter(zj), la varianza interclase.

    7.2.2 Clculo de las funciones discriminantes

    Si se pide que u cumpla con utVu = 1, entonces de acuerdo con la ecuacin(7.1)

    var(z) = utVu = utVBu + utVWu = 1

    se ve que las propiedades 3. y 4. de las funciones discriminantes son equiva-lentes:

    max

    utVBuutVu = 1 min utVWu utVu = 1 .

    Luego es suficiente que la funcin z = Xu satisfaga

    max

    utVBuutVu = 1 . (7.2)

    Sea rang (X) = p, como

    utVBu = utVV1VBu = u, V1VBuV

    y la matriz V1VB es V-simtrica, se tiene que el mximo de (7.2) es 1 y se

    alcanza en u = u1 vector propio de la matriz V1VB asociado al primer valorpropio 1 (ver el teorema de Rayleigh en la seccin 7.4), pgina 259.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    42/118

    J. TREJOS W. CASTILLO J. GONZLEZ 245

    La primera funcin discriminante es por lo tanto z1 = Xu1. La segundafuncin discriminante z2 = Xu2 se obtiene entre las que el vector u2 satisfa-ce la relacin (7.2) y adems es V ortogonal con u1. Continuando de estamanera se tiene que la k-sima funcin discriminante zk = Xuk, est definida

    por el vector uk el cual es solucin del problema de mximo:

    k = utkVBuk

    = max{utVBu|utVu = 1, utVus = 0, s = 1, . . . , k 1}. (7.3)donde los u1, . . . , uk1 corresponden a las funciones discriminantes z1, . . . , zk1

    previamente calculadas.

    De acuerdo con la parte 1 del teorema de Rayleigh (ver la seccin 7.4) ukes vector propio de V1VB asociado al k-simo valor propio k. Ask es lainercia interclases de la ksima variable discriminante. Ntese que k [0, 1] .Los resultados anteriores indican que el problema de encontrar las funciones

    discriminantes se reduce al clculo de los valores y vectores propios de la matrizV1VB.

    El siguiente teorema muestra que las variables zj tambin se pueden calculara partir de un A.C.P., lo cual permite obtener representaciones bidimensionalesde los individuos, de las clases (en planos principales) y de las variables (encrculos de correlaciones), como se present en el captulo 3 sobre el Anlisisen Componentes Principales. Estas representaciones ayudan a verificar si lasvariables discriminan las clases a priori y si es posible describirlas en trminosde las variables originales.

    Teorema 7.2 Sea X de rango p, es decir, V es invertible. Si v1, . . . , vt son losvectores propios del A.C.P. de la nube de centros de gravedadNg = (Cg, V1, Dq), ortonormados segn la mtrica V1, con valores pro-pios correspondientes 1 > 2 > . . . > t, entonces las variables discrimi-nantes son zj = XV1vj = Xuj , j = 1, . . . , t .

    DEMOSTRACIN:En este caso los vectores v1, . . . , vt son vectores propios de la matrizCg

    tDqCgV1 = VBV1, de donde sigue que para j = 1, . . . , t, uj = V1vj

    es un vector propio de V1VB con valor propio correspondiente j . Adems,los vectores propios u1, . . . , ut son Vortonormados. Se tiene entonces que las

    componentes principales zj = Xuj = XV1vj ,j = 1, . . . , t, son las funcionesdiscriminantes.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    43/118

    246 7.2 Los datos y notaciones

    Cada valor propio i se llama poder discriminante y el vector propio corres-pondiente vi, eje discriminante. Los ejes discriminantes son entonces los ejes demxima inercia de la nube de centros de gravedad (baricentros). En este sentidose dice que son los ejes que ms discriminan los grupos a priori.

    Ejemplo 3 Dando continuacin al ejemplo 2, se tiene

    V1 =

    0.02 0.00 0.160.00 0.00 0.010.16 0.01 1.58

    .Al diagonalizar VBV

    1 se obtienen los valores propios1 = 0.89 y 2 =0.03, que explican respectivamente 97% y 3% de la inercia de la nube de cen-tros Ng. Los vectores propios respectivos son: v1 = (0.65, 0.08, 0.76)t ,v2 = (0.50, 0.80, 0.35)t . Las variables discriminantes se muestran en latabla 7.3.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    44/118

    J. TREJOS W. CASTILLO J. GONZLEZ 247

    Objeto Comp.1 Comp.23 -1.593 -8.632

    10 -1.355 -0.89017 -0.580 1.03522 -1.082 -8.73040 -1.025 7.50544 -1.319 0.04747 -0.605 -2.19149 -0.825 8.73258 -0.973 7.24663 -1.129 1.32671 -1.365 -1.95675 -1.607 6.84681 -0.298 5.20284 -0.013 11.594

    96 -0.441 2.572104 0.181 -16.837121 -0.050 -4.744131 0.984 4.819136 -0.284 -5.803142 -0.237 -4.918148 -0.214 -6.153153 -0.134 -5.436155 0.075 1.331157 -0.546 -1.370158 -0.655 2.528

    170 1.821 5.315172 1.519 -4.099177 0.935 2.828189 1.488 -1.949193 1.112 5.290195 1.460 0.430202 1.005 2.479209 1.584 -10.014210 1.414 -2.692211 1.604 0.824216 1.148 8.464

    Tabla 7.3: Variables discriminantes del anlisis discriminante de los sitios de banano.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    45/118

    248 7.2 Los datos y notaciones

    El teorema 7.3, cuya prueba se deja como ejercicio, tiene un inters prcticoen la implementacin computacional del Anlisis Discriminante Descriptivo. Sesabe que el proceso de diagonalizacin de una matriz representa un esfuerzocomputacional significativo. Para lograr ms eficiencia en ese proceso se debe

    procurar diagonalizar siempre una matriz simtrica del menor tamao posible,an cuando posteriormente se deban hacer ciertas transformaciones. El teorema7.3 garantiza que esto siempre es posible ya que as es suficiente diagonalizaruna matriz r r lo cual es ventajoso si r < p.

    Teorema 7.3 Sea C = CgtDq1

    2, p r. Entonces

    1. VB = CCt.

    2. Si e1, . . . , et son vectores propios Ir-ortonormados de CtV1C, asocia-

    dos respectivamente a los valores propios no ceros, 1, . . . , t. Entonces

    v1, . . . , vt son vectores propios V1

    -ortonormados de VBV1

    asocia-dos a los mismos valores propios j, donde vj =Cejj

    .

    7.2.3 Representaciones en Anlisis DiscriminanteDescriptivo

    A partir de los resultados obtenidos con el teorema 7.2, se pueden construir lassiguientes representaciones bidimensionales para el caso de ms de dos gruposa priori, es decir, r > 2.

    Representacin de los grupos a priori

    Se ha visto que el Anlisis Discriminante Descriptivo se puede interpretar comola bsqueda de los ejes (en Rp) ms discriminantes de los grupos a priori, en elsentido de maximizacin de la inercia interclases. Estos ejes son los vectorespropios del A.C.P. deNg =

    Cg, V

    1, Dq

    (ver teorema 7.2), lo que permite almismo tiempo calcular las funciones discriminantes. Para obtener las representa-ciones bidimensionales de los centros de gravedad de los grupos, se proyectanstos, V1 ortogonalmente sobre los planos principales del A.C.P.

    De lo anterior sigue que la coordenada del centro de gravedad gs del grupo

    Cs, sobre el eje j simo es: coordj (gs) = gtsV1vj. Se puede entonces haceruna representacin grfica de los centros de gravedad en un plano principal.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    46/118

    J. TREJOS W. CASTILLO J. GONZLEZ 249

    Ejemplo 4 El plano principal de representacin de los centros de los 3 grupos ositios de banano se muestra en la figura 7.1. Puede verse una buena separacin

    entre los centros, bien alejados entre s

    Eje 2

    Eje 1

    6

    ?

    - 1-BUENO

    2-MEDIO

    3-POBRE

    Figura 7.1: Plano principal de representacin de los centros de los sitios de banano.

    Representacin de las variables como son definidas por losgrupos a priori

    Las columnas de la matriz Cg, de dimensin r (el nmero de grupos), repre-sentan las variables tal como son descritas por los grupos a priori ya que cadacolumna yj de Cg es el vector (g1j , . . . , grj ), donde gsj es el promedio de lavariable explicativa xj en el grupo Cs. Se les llamar variables promedio.

    Por las frmulas de dualidad del A.C.P. (ver seccin 3.9, pgina 83) se sabe

    que las columnas de la matriz (v1 . . . vt) D son las coordenadas de las colum-nas yj de Cg. Es decir, coords

    yj

    =

    svjs para j = 1, . . . , p y s = 1, . . . , t .

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    47/118

    250 7.2 Los datos y notaciones

    Superponiendo el grfico de los grupos a priori y el de las variables prome-dio, es posible analizar la influencia de las variables en la determinacin de losgrupos a priori.

    Representacin de los individuos

    Los individuos se proyectan en suplementario sobre los ejes discriminantes, esdecir, sobre los ejes principales del A.C.P. de la nube de centrosNg = (Cg, V1, Dq). Sea xi el isimo individuo, su coordenada sobre elj simo eje es:

    coordj (xi) = xtiV

    1vj .

    Es claro que el vector de coordenadas de los individuos sobre el jsimoeje es la funcin discriminante z

    j

    = Xuj.

    Ejemplo 5 El plano principal de representacin de los individuos, como puntossuplementarios en el plano de los centros de los 3 grupos o sitios de banano, se

    muestra en la figura 7.2. Se aprecia que, en general, los puntos de cada sitio

    estn agrupados entre s y bien separados de los puntos de los otros sitios. Solo

    hay tres excepciones para algunos puntos del sitio medio, que se mezclan con

    los sitios vecinos.

    Representacin de las variables

    Las variables explicativas originales se representan en el sistema Dportonor-mado determinado por las variables discriminantes. La coordenada de lavariable xj (columna j sima de X) sobre el eje s simo es: coords

    xj

    =(xj)tDpz

    s = vjs . En efecto, como zs = XV1vs entonces el vector de

    coordenadas de las variables en la direccin de la variable discriminante zs es,

    XtDpzs = XtDpXV

    1vs = vs.

    Si las variables son estandarizadas (varianza igual a 1) entonces la coordenada

    est dada por la correlacin coords xj = r xj , zs y las variables se puedenrepresentar como en el A.C.P. normado, en un crculo de correlaciones.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    48/118

    J. TREJOS W. CASTILLO J. GONZLEZ 251

    Eje 2

    Eje 1

    6

    ?

    -

    b

    bb

    b

    b

    b

    b

    bb

    b

    b

    bm

    m

    m

    m

    m

    m

    mmmm

    m

    m

    m

    p

    p

    p

    p

    p

    pp

    p

    p

    p

    p

    Figura 7.2: Plano principal de representacin de los individuos, como suplementarios,en el plano de los centros de los sitios de banano (con b se representan losindividuos del sitio bueno, con m los de sitio medio y con p los de sitiopobre).

    Ejemplo 6 En el caso de los datos de banano que se han venido exponiendo, lascorrelaciones entre las componentes principales y las variables originales, todas

    con 36 dimensiones, se muestran en la tabla 7.4. El crculo de correlaciones

    respectivo se presenta en la figura 7.3.

    El caso de dos grupos a priori

    Cuando solo hay dos grupos a priori, las representaciones se simplifican ya que elrango de VB (y por tanto el de VBV1) vale 1. En este caso, si q1, q2 denotan

    los pesos de cada grupo, g2 g1 es un vector propio de VBV1 asociado alnico valor propio q1q2 g2 g1V1 (ver ejercicio 4). En consecuencia, las

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    49/118

    252 7.2 Los datos y notaciones

    Variable Comp.1 Comp.2CircMadre -0.961 -0.269AltHijo -0.676 0.083#Manos -0.961 0.258

    Tabla 7.4: Correlaciones entre las variables explicativas originales y las variables dis-criminantes.

    representaciones tanto de los individuos, los centros de gravedad y las variables,se hacen sobre una recta.

    Indices de calidad

    La calidad de la discriminacin en un subespacio principal de dimensin q es el

    porcentaje de inercia explicada:

    100 q

    j=1 j

    Inercia Total= 100

    qj=1 jtj=1 j

    donde t es el nmero de valores propios positivos del A.C.P. de la nubeNg =

    Cg, V

    1, Dq

    .

    La calidad de la representacin de los centros de gravedad de la clase l-simay del i-simo individuo sobre el s-simo eje discriminante se mide por medio delos cosenos cuadrados de la misma forma como se hace en A.C.P. Las frmulaspara el clculo de estos cosenos son:

    Centro de gravedad de la clase l:

    cos2(gl, s) =Prs (gl)2V1

    gl2V1=

    gtlV1vsvs2V1gtlV

    1gl=

    (gtlV1vs)2

    gtlV1gl

    .

    Individuos:

    cos2 (i, s) =Prs (xi)2V1

    xi2V1=

    xtiV1vsvs2V1xtiV

    1xi=

    (xtiV1vs)2

    xtiV1xi

    .

    donde Prs (gl) denota la proyeccin del vector gl a lo largo del vector vs quedefine el s-simo eje discriminante.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    50/118

    J. TREJOS W. CASTILLO J. GONZLEZ 253

    6

    -

    ?

    Eje 1

    Eje 2

    CircMadr

    AltHijo #manos

    Figura 7.3: Crculo de correlaciones entre las variables explicativas originales y las va-riables discriminantes.

    7.3 Ejemplo sobre el embalse La Garita

    Los siguientes datos son tomados del anlisis de la calidad del agua realizado

    por el Instituto Costarricense de Electricidad (ICE) en el complejo hidrolctricoVentanas Garita.

    La tabla de datos est conformada por las mediciones de 12 variables rela-cionadas con la contaminacin de los ros y un ndice de calidad obtenido conalgunas de ellas. Las mediciones son mensuales y se hicieron durante un ao ennueve puntos de muestreo, uno en cada ro que llega al embalse (cinco en total),tres en el embalse y una a la salida de ste.

    Las variables estn medidas en unidades de concentracin, salvo la Calidadque es un ndice entre cero y cien y son las siguientes (entre parntesis se colocael nombre abreviado de la variable): Nitratos (NIT), Fosfatos (FOS), Cali-

    dad del agua (CAL), Slidos totales (STT), potencial Hidrgeno (PH), Man-ganeso (MN), Zinc (ZN), Slidos Sedimentables (SS), Alcalinidad (ALC),

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    51/118

    254 7.3 Ejemplo sobre el embalse La Garita

    Cloro (CL), Caudal (CAU), Demanda Bioqumica de Oxgeno (DBO) y Por-centaje de Saturacin de Oxgeno (PSO).

    Los 9 puntos de muestreo son (entre parntesis se coloca el nombre abre-viado del punto de muestreo): Presa (P), Alajuela (A), Ciruelas (C), Virilla (V)y Quebrada Soto (Q), Embalse Orilla (EO), Embalse Centro (EC), EmbalseSalida (ES) y Desfogue (D). Los datos se pueden ver en la tabla 7.5.

    El objetivo es utilizar el Anlisis Factorial Discriminate para investigar larelacin entre la contaminacin de los ros y la estacin del ao, que en CostaRica son cuatro: Verano (V), transicin Verano-Invierno (VI), Invierno (I) y tran-sicin Invierno-Verano (IV).

    Para satisfacer este objetivo se organiza la informacin de la manera si-guiente: X es la matriz de tamao 36 13, donde cada fila es un sitio-estacinque corresponde al sitio de muestreo y la estacin del ao en que se realiz lamedicin, de esta manera cada punto de muestreo aporta cuatro filas, por ejem-plo para el Virilla son VV, VVI, VI, VIV (el nombre se forma con la etiquetadel punto de muestreo seguida de la etiqueta de la estacin). Las columnas estnformadas por el promedio de cada variable sobre los meses correspondientes acada estacin.

    Se asigna a todos los individuos (sitio-estacin) el mismo peso, es decirpi =

    136 para i = 1, . . . 36. De esta manera los cuatro grupos V,VI,I,IV, tie-

    nen el mismo peso qi =14 y estan formados por:

    Grupos Individuos

    G1: V PV DV EOV ESV ECV AV CV QV VVG2: VI PVI DVI EOVI ESVI ECVI AVI CVI QVI VVIG3: I PI DI EOI ESI ECI AI CI QI VI

    G4: IV PIV DIV EOIV ESIV ECIV AIV CIV QIV VIV

    La matriz Ctg cuyas columnas son los centros de gravedad calculados de lamatriz X centrada y reducida, se muestra en la Tabla 7.6.

    La matriz de covarianza de los centros de gravedad es VB =14C

    tgCg y la

    matriz de Covarianza de las variables definidas por la tabla X es, en este caso, la

    matriz de correlaciones. Los vectores y valores propios (positivos) de la matrizde rango 3, VBV1 se muestran respectivamente en las tablas 7.7 y 7.8.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    52/118

    J. TREJOS W. CASTILLO J. GONZLEZ 255

    Sitio/NIT FOS CAL STT PH MN ZN SS ALC CL CAU DBO PSO

    EstacinPV 1.44 0.78 58.25 126.75 7.29 0.21 0.02 0.66 120.50 3.92 17.85 25.00 53.25PVI 2.70 1.13 62.50 195.00 7.50 0.20 0.02 1.15 104.50 4.10 28.20 90.70 77.00PI 3.89 0.35 79.25 176.50 7.41 0.37 0.28 0.62 80.25 3.35 53.27 3.77 89.75

    PIV 1.87 0.48 68.00 171.00 7.50 0.18 0.66 0.75 97.50 3.05 46.75 26.60 72.50

    AV 2.36 0.43 69.00 156.50 8.41 0.06 0.03 0.20 150.75 7.85 0.45 16.70 87.25AVI 1.88 0.96 68.50 230.00 8.10 0.16 0.16 0.95 116.50 17.70 0.90 46.35 84.00AI 2.13 0.24 80.25 176.25 7.74 0.25 0.07 0.62 104.75 5.90 1.64 4.47 86.00AIV 1.06 0.46 73.00 180.50 8.05 0.12 0.25 0.45 135.00 10.55 1.21 8.90 79.00

    EOV 0.83 0.63 53.25 169.00 7.70 0.18 0.26 0.70 136.75 3.60 12.00 22.17 76.50EOVI 2.31 1.20 60.50 224.50 7.27 0.16 0.06 0.95 97.00 4.10 12.00 24.25 61.00EOI 3.96 0.27 81.25 160.50 7.17 0.36 0.05 0.32 158.00 3.25 20.00 1.32 82.00EOIV 1.37 0.36 66.50 158.00 7.30 0.14 0.21 0.85 99.50 2.60 20.00 6.60 49.50

    ECV 1.06 0.69 55.50 177.25 7.21 0.18 0.02 0.72 127.75 3.70 12.00 13.55 58.25ECVI 2.57 1.21 58.50 288.00 7.25 0.41 0.05 0.65 95.00 4.25 12.00 22.45 57.00

    ECI 3.86 0.27 81.50 168.00 7.16 0.17 0.48 0.46 78.75 3.35 20.00 1.35 81.75ECIV 1.11 0.45 60.50 157.50 7.25 0.16 0.07 1.00 99.50 2.75 20.00 9.65 41.50

    ESV 0.91 0.66 59.00 160.25 7.25 0.18 0.03 0.49 125.75 3.37 12.00 14.02 43.25ESVI 2.52 1.10 61.50 217.00 7.35 0.21 0.10 0.85 98.00 4.25 12.00 21.65 64.00ESI 4.14 0.25 82.75 152.25 7.26 0.20 0.09 0.37 79.50 3.35 20.00 1.45 84.50

    ESIV 1.05 0.37 64.50 156.50 7.30 0.14 0.16 0.45 101.50 2.75 20.00 8.10 47.00

    QV 2.14 0.55 71.25 188.25 8.36 0.03 0.02 0.20 165.00 3.60 0.14 3.27 66.50QVI 2.42 1.58 68.50 209.00 8.20 0.04 0.03 0.35 153.00 4.55 0.35 20.10 85.50QI 2.66 0.40 82.25 186.50 8.00 0.02 0.06 0.16 162.50 3.42 0.61 1.75 85.25QIV 2.22 0.75 78.00 185.50 8.30 0.00 0.15 0.20 178.50 2.90 0.36 1.50 85.50

    CV 3.60 0.52 72.25 184.75 8.44 0.03 0.01 0.42 149.50 8.12 1.37 4.77 88.25

    CVI 3.73 1.39 63.50 232.50 8.05 0.12 0.04 0.75 128.50 9.30 3.04 46.00 70.00CI 3.71 0.37 80.00 190.25 7.75 0.22 0.05 0.46 113.25 7.07 4.68 1.85 83.00CIV 4.76 0.83 72.50 159.00 8.05 0.08 0.15 0.40 105.00 6.65 3.58 3.50 84.50

    VV 7.64 1.19 58.50 335.50 8.05 0.28 0.06 1.85 182.25 12.90 16.67 21.50 83.50VVI 5.72 1.91 57.00 404.00 8.05 0.31 0.07 1.75 153.50 12.85 17.25 116.9 86.50VI 6.09 0.87 67.00 321.25 7.80 0.28 0.11 1.27 136.00 9.05 50.05 9.35 90.50VIV 4.65 0.76 73.00 254.00 8.05 0.20 0.32 0.95 144.50 7.80 42.20 6.50 88.00

    DV 0.88 0.70 61.00 172.25 7.31 0.19 0.02 0.55 129.00 3.75 19.90 11.07 48.50DVI 2.32 0.90 64.00 227.50 7.40 0.26 0.16 0.95 101.00 4.10 37.10 54.15 68.50DI 4.08 0.27 81.25 169.00 7.32 0.17 0.04 0.70 85.75 3.27 59.75 1.92 84.50DIV 1.05 0.32 67.00 134.00 7.30 0.17 0.03 0.70 103.50 2.90 62.25 8.10 51.00

    Tabla 7.5: Tabla de datos del embalse La Garita.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    53/118

    256 7.3 Ejemplo sobre el embalse La Garita

    Variable G1 G2 G3 G4FOS -0.30 0.07 0.64 -0.42NIT -0.07 1.36 -0.85 - 0.44

    CAL -0.73 -0.65 1.28 0.10STT -0.23 0.84 -0.17 -0.45PH 0.28 0.05 -0.37 0.03MN -0.31 0.30 0.50 -0.49ZN -0.51 -0.33 0.10 0.73SS -0.12 0.62 -0.36 -0.13ALC 0.74 -0.21 -0.39 -0.14CL 0.03 0.49 -0.26 -0.26CAU -0.46 -0.27 0.40 0.32DBO -0.17 1.23 -0.65 -0.41PSO -0.37 -0.02 0.81 -0.42

    Tabla 7.6: Matriz Ctg de los centros de gravedad.

    Vector propiov1 v2 v3

    1 0.36 0.18 0.202 0.56 0.68 0.133 0.84 0.09 0.184 0.13

    0.50 0.15

    5 0.23 0.05 0.046 0.27 0.29 0.217 0.17 0.12 0.598 0.22 0.32 0.009 0.30 0.26 0.30

    10 0.18 0.24 0.1211 0.30 0.04 0.3012 0.42 0.64 0.1013 0.47 0.16 0.19

    Tabla 7.7: Vectores propios de la matriz VBV1

    .

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    54/118

    J. TREJOS W. CASTILLO J. GONZLEZ 257

    Valor propio Inercia % explicado % acumulado1 0.8834 38.65% 38,65%2 0.8705 38.08% 76.73%3 0.5320 23.27% 100.00%

    Tabla 7.8: Valores propios de la matriz VBV1.

    Eje 2

    Eje 1

    6

    ?

    -

    PV-1

    PVI-2

    P -3

    PIV-4

    AV-1

    AVI-2

    AI-3

    AIV-4

    EOV-1

    EOVI-2

    EOI-3 EOIV-4 ECV-1

    ECVI-2

    ECI-3

    ECIV-4

    ESV-1

    ESVI-2

    ESI-3

    ESIV-4

    QV-1

    QVI-2

    QI-3 QIV-4

    CV-1

    CVI-2

    CI-3

    CIV-4

    VV-1

    VVI-2

    VI-3

    VIV-4

    DV-1

    DVI-2

    DI-3

    DIV-4

    G

    1

    G 2

    G 3

    G 4

    Figura 7.4: Representacin suplementaria de los individuos en los ejes discriminantesv1, v2.

    cos2(gl, 1) cos2(gl, 2) cos

    2(gl, 3) TotalG1 0.241 0.332 0.427 1G2 0.128 0.870 0.002 1G3 0.949 0.000 0.051 1G4 0.016 0.131 0.853 1

    Tabla 7.9: Cosenos cuadrados de los centros de gravedad con las funciones discrimi-nantes.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    55/118

    258 7.3 Ejemplo sobre el embalse La Garita

    Eje 3

    Eje 1

    6

    ?

    -

    PV-1PVI-2

    PI-3

    PIV-4

    AV-1

    AVI-2

    AI-3

    AIV-4

    EOV-1

    EOVI-2

    EOI-3

    EOIV-4

    ECV-1

    ECVI-2

    ECI-3ECIV-4

    ESV-1

    ESVI-2

    ESI-3

    ESIV-4QV-1QVI-2

    QI-3

    QIV-4

    CV-1

    CVI-2

    CI -3

    CIV-4

    VV-1

    VVI-2VI-3

    VIV-4

    DV-1

    DVI-2DI -3

    DIV-4

    G-1

    G-2G-3

    G-4

    Figura 7.5: Representacin de los individuos como elementos suplementarios en losejes discriminantes v1, v3.

    6

    -

    ?

    Eje 2

    Eje 1

    NIT

    FOS

    CAL

    STT

    PH

    MN

    ZN

    SS

    ALC

    CL

    CAU

    DBO

    PSO

    Figura 7.6: Correlacin entre variables y variables discriminantes z1, z2.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    56/118

    J. TREJOS W. CASTILLO J. GONZLEZ 259

    6

    -

    ?

    Eje 3

    Eje 1

    NITFOS

    CAL

    STT

    PH

    MN

    ZN

    SS

    ALC

    CL

    CAU

    DBO

    PSO

    Figura 7.7: Correlacin entre variables y variables discriminantes z1, z3.

    De la observacin de los grficos de planos y crculos, adems de las tablasde vectores propios y cosenos cuadrados, se puede decir lo siguiente:

    El primer eje discriminante separa el grupo 3 (Invierno) de los restantes.El segundo eje separa el grupo 2 (fin del Verano ) y el tercer eje opone elgrupo 1 (Verano) al grupo 4 (fin del Invierno).

    La variable discriminante z1 est determinada por una mayor contribucin(mayor peso absoluto en la combinacin lineal) de las variables Caudal,Porcentaje de saturacin de oxgeno, Alcalinidad y pH, todas ellas de im-portancia en la calidad del agua. El grupo 3 corresponde a la poca llu-viosa, con los mayores caudales, mejor oxigenacin del agua. y por endeun mayor ndice de calidad. La variable z2, definida fundamentalmentepor las variables STT, SS, DBO y FOS, indicadores de la presencia deslidos, minerales y contaminacin con desechos rganicos contribuye ala separacin del grupo 2, poca del fin del verano, caracterizada por elbajo caudal, alta DBO y gran presencia de slidos, todo lo cual contribuyea un bajo ndice de calidad del agua. La variable discriminante z3 definida

    en mayor grado por las variables ZN, ALC y Caudal, separa el grupo 4 (findel Invierno) del grupo 1 (inicio del Verano). El grupo 4 tiene una mayor

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    57/118

    260 7.4 Cociente de Rayleigh

    presencia de Zinc que el grupo 1.

    No se ha puesto el grfico de las variables definidas sobre los cuatro grupos,

    por el hecho que en este ejemplo, el valor propio 1 es aproximadamente igual a2, por lo que la representacin en el crculo de correlaciones es similar al de lasvariables definidas sobre el total de individuos (ver la Tabla 7.8 y la Figura 7.6).

    7.4 Cociente de Rayleigh

    Sea M una mtrica sobre el espacio Rn y sea A un operador M-simtrico, es de-cir, tal que el producto interno definido por M cumple Ax, yM = x, AyM =xtAtMy, para todo par de vectores x, y

    Rn (o, lo que es equivalente matri-

    cialmente, cumple que (MA)t = MA). Si x Rn, x = 0, la expresin

    R(x) =Ax, xM

    x2M

    se denomina cociente de Rayleigh y tiene, entre otras, las propiedades que seenuncian en los dos teoremas que siguen.

    Teorema 7.4 (Teorema de Rayleigh) Sean A un operadorMsimtrico sobreRn, x

    Rn, x

    = 0,

    B=

    {u1

    , . . . , un}

    la base de Rn de vectores propios

    de A, Mortonormados, asociados a los valores propios ordenados en orden

    decreciente 1 2 . . . n.Si Ek = Cl{u1, . . . , uk} denota el subespacio de Rn generado por los vec-

    tores propios correspondientes a los k primeros valores propios y Ek denota elcomplemento M-ortogonal de Ek, entonces

    1. k = maxxEk1

    R(x) = minxEk R(x) con x = 0, k = 2, . . . , n 1.

    2. 1 = maxxRn R(x) y n = minx

    Rn R(x), con x

    = 0.

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    58/118

    J. TREJOS W. CASTILLO J. GONZLEZ 261

    DEMOSTRACIN:Expresando x Rn en trminos de la base Bse tiene:

    x =n

    j=1x, ujMuj;A(x) =

    ni=1

    x, uiMA(ui)

    =ni=1

    ix, uiMui.

    Luego

    Ax, xM = ni=1

    ix, uiMui,n

    j=1

    x, ujMujM

    =n

    i=1n

    j=1ix, uiM x, ujM ui, ujM=

    ni=1

    ix, ui2M (por ortonormalidad de B).

    Si x Ek1 se tiene que x, uiM = 0 por i = 1, . . . , k 1. Adems comopara k i se tiene que k i se sigue que:

    Ax, xM =ni=1

    ix, ui2M =n

    i=k

    ix, ui2M

    kn

    i=kx, ui2M kx2M.

    Por otra parte si x Ek se tiene x, uiM = 0 para i = k + 1, . . . , n

    Ax, xM =ni=1

    ix, ui2M =ki=1

    ix, ui2M

    kk

    i=1

    x, ui2M = kx2M.

    Como R(uk) = k y uk Ek1, uk Ek, se tiene que:

    maxxEk1 R(x) = kminxEk R(x) = k

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    59/118

    262 7.4 Cociente de Rayleigh

    si x Ese tiene que:

    nx2M Ax, xM 1x2M

    Luego:n R(x) 1.

    Teorema 7.5 Sea A un operador Msimtrico sobre Rn, B= {u1, . . . , un}una base M-ortonormal de Rn formada de vectores propios de A asociados a

    1 . . . n respectivamente.Si {x1, . . . , xk} un subconjunto arbitrario de vectores de Rn, M-ortonor-

    males, entoncesk

    j=1Axj , xjM k

    j=1 j.La igualdad se tiene para {x1, . . . , xk} = {u1, . . . , uk}, los vectores propiosde A asociados a 1 . . . k.

    DEMOSTRACIN:

    xj =ni=1

    xj , uiM ui

    Axj , xjM = ni=1

    ixj , uiM ui,ni=1

    xj , uiM uiM

    =ni=1

    ixj , ui2Mk

    j=1

    Axj , xjM =k

    j=1

    ni=1

    ixj , ui2M

    =ni=1

    i

    kj=1

    xj , ui2M

    =ni=1

    iCi,

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    60/118

    J. TREJOS W. CASTILLO J. GONZLEZ 263

    con Ci =k

    j=1xj , ui2M. Adems vase quen

    i=1 Ci = k:

    n

    i=1Ci =

    n

    i=1k

    j=1xj, ui2M =

    k

    j=1n

    i=1xj, ui2M

    =k

    j=1

    xj2M = k.

    Finalmente,

    kj=1

    Axj, xjM =ni=1

    iCi =k1i=1

    iCi +ni=k

    iCi

    k1i=1

    iCi + k

    ni=k

    Ci

    =k1i=1

    iCi + k(k k1i=1

    Ci)

    =k1i=1

    (i k)Ci + kk k

    i=1

    i.

    La ltima desigualdad sigue del hecho que Ci 1. En efecto, se puede comple-tar una base {xi|i = 1, , n} y ui2M =

    nj=1xj, ui2M = 1.

    Ejercicios

    1. Demostrar que si u es vector propio de V1VB asociado a = 1, en-tonces u es vector propio de W1VB asociado a = 1 .

    2. Para el caso de dos grupos a priori de centros de gravedad g1, g2.Demuestre que:

    (a) Solamente hay una variable discriminante y en tal caso el eje dis-criminante est determinado por el vector v = g1 g2.

    (b) Si q1, q2 son los pesos de las clases (q1g1 + q2g2 = 0 y q1 + q2 = 1);demuestre que

    VB = q1g1(gt

    1 gt

    2)VB = q2g2(gt1 gt2).

  • 7/29/2019 ANLISIS MULTIVARIADO DE DATOS

    61/118

    264 7.4 Cociente de Rayleigh

    3. Use el ejercicio 2 para demostrar que VB = q1q2(g1 g2)(g1 g2)t.

    4. Demuestre que u = V1(g1 g2) es vector propio de