Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion...

download Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

of 110

Transcript of Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion...

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    1/110

    UNIVERSIDAD NACIONALAUTNOMA DE MXICO

    FACULTAD DE ESTUDIOS SUPERIORESACATLN

    LAS REDES NEURONALES ARTIFICIALES COMO UNAHERRAMIENTA ALTERNATIVA O COMPLEMENTARIA A LOS

    MTODOS DE CLASIFICACIN TRADICIONALES

    T E S I N A

    QUE PARA OBTENER EL TTULO DE

    A C T U A R I A

    P R E S E N T A

    ALMA ROSA AGUILAR SNCHEZ

    ASESOR: VCTOR MANUEL ULLOA ARELLANO

    AGOSTO, 2008

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    2/110

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    3/110

    II

    Contenido

    Prlogo .................................................................................................... III

    Introduccin.............................................................................................V

    1.- Fundamentos de las Redes Neuronales Artificiales............................ 11.1 Introduccin .................................................................................................... 1

    1.2 Breve introduccin biolgica......................................................................... 4

    1.3 Generacin y transmisin de la seal nerviosa ........................................... 6

    1.4 Procesos plsticos en la sinapsis ................................................................... 7

    1.5 Sistemas paralelos, distribuidos y adaptativos ............................................. 8

    1.6 Caractersticas generales de los modelos neuronales artificiales............... 9

    1.7 Modelo general de neurona artificial ............................................................ 13

    1.8 Modelos de Redes Neuronales (Taxonoma) .............................................. 17

    1.9 RNA y Estadstica........................................................................................... 29

    2.- Los mapas autoorganizados................................................................ 312.1 Introduccin .................................................................................................... 31

    2.2 Algoritmo de aprendizaje............................................................................... 35

    2.3 Interpretacin del algoritmo de aprendizaje................................................ 38

    2.4 Consideraciones prcticas .............................................................................. 38

    2.5 Modelos de neuronas de Kohonen Medidas de similitud ...................... 412.6 Modelos de aprendizaje en mapas autoorganizados .................................. 43

    2.7 Regla de aprendizaje eucldea ........................................................................ 45

    2.8 Regla de aprendizaje de Manhattan .............................................................. 46

    2.9 Regla de aprendizaje derivada del producto escalar ................................... 47

    3.- Ejemplo comparativo........................................................................... 513.1 Introduccin .................................................................................................... 51

    3.2 Descripcin del conjunto de datos ............................................................... 54

    3.3 Clasificacin de lirios mediante mapas autoorganizados........................... 55

    3.4 Clasificacin de lirios mediante anlisis cluster............................................. 62

    3.5 Clasificacin de lirios mediante rboles de decisin................................... 68

    3.6 Resumen comparativo de los 3 mtodos..................................................... 74Conclusiones............................................................................................. 76Anexo A. SOM Toolbox en MatLab......................................................... 77Anexo B. Anlisis cluster.......................................................................... 80Anexo C. rboles de decisin................................................................... 92Bibliografa................................................................................................ 103

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    4/110

    III

    Prlogo

    Hasta ahora, los mtodos de clasificacin ms ampliamente utilizados tanto con finesdidcticos como para la solucin de problemas reales son, entre otros, el anlisiscluster en cualquiera de sus variantes, los rboles de decisin y el anlisisdiscriminante. A diferencia del anlisis discriminante, los dos primeros mtodos(anlisis clustery rboles de decisin) funcionan tanto para fines de agrupacin comode clasificacin; mientras que el anlisis discriminante tiene bsicamente finesclasificatorios.

    Cuando se desea encontrar una propuesta de solucin a un problema de clasificacinse recomienda evaluar diferentes alternativas, es decir, obtener soluciones mediante

    diferentes tcnicas y con diversos escenarios (por ejemplo en el anlisis clusterpuedeoptarse por los mtodos jerrquicos o no jerrquicos) con la finalidad de probar laconsistencia de las soluciones o bien, elegir la que mejor se adecue al problemaplanteado.

    El objetivo de este trabajo es mostrar que las redes neuronales artificiales(especficamente, los mapas autoorganizados) pueden ser utilizadas como un mtodoalternativo o complementario a los mtodos de clasificacin tradicionales.

    Si se puede mostrar que para un mismo problema la solucin obtenida mediante

    redes neuronales artificiales es semejante o incluso superior a la solucin generadapor los mtodos tradicionales se podr entonces contar con la opcin de utilizar lasolucin de este mtodo (mapas autoorganizados) como un resultado vlido o bien,si se prefiere, complementarla con otros mtodos si se desea una solucin msrobusta.

    Para mostrar una posible semejanza entre mtodos, se realizar la comparacin delos resultados arrojados por cada uno identificando las ventajas y desventajas ascomo sus principales similitudes y diferencias desde la etapa de implementacinhasta la interpretacin de los resultados generados.

    En el caso de los mtodos tradicionales se contemplar nicamente el anlisis clusterylos rboles de decisin debido a que se realiza primero una agrupacin (la cual elanlisis discriminante no realiza) seguida de una clasificacin para determinar elmargen de error de cada mtodo.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    5/110

    IV

    La teora presentada se enfocar en las redes neuronales artificiales, en el caso delanlisis clustery los rboles de decisin se mostrar un anexo estadstico indicandotambin las fuentes en donde puede profundizarse la teora sobre estos mtodos.

    El trabajo consta de 3 captulos; en el primero se presentan los fundamentos de lasredes neuronales artificiales as como un breve repaso a la historia del desarrollo desistemas y mquinas dotadas de cierta inteligencia y su paralelismo con los sistemasneuronales biolgicos.

    Se exponen tambin las caractersticas generales de los modelos neuronalesartificiales y las motivaciones que desembocan en la introduccin de stas comoalternativa o complemento a los sistemas de procesamiento ms utilizados en laactualidad.

    Una vez expuestos los conceptos bsicos relacionados con las redes neuronalesartificiales, se da paso al captulo 2 centrado en el modelo de mapas autoorganizados,uno de los sistemas neuronales no supervisados ms conocidos y utilizados. Sepresenta el modelo general de mapas autoorganizados as como algunos de susalgoritmos de aprendizaje.

    Finalmente, en el captulo 3 se muestran las soluciones generadas por cada uno delos tres mtodos expuestos, se resaltan las ventajas y desventajas de cada uno de talforma que el lector pueda decidirse sobre uno de ellos o bien, optar por unacombinacin para robustecer la solucin generada.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    6/110

    V

    Introduccin

    El cerebro es un procesador de informacin con caractersticas muy notables. Escapaz de procesar inmediatamente grandes cantidades de informacin procedentesde los sentidos, combinarla o compararla con la informacin almacenada y darrespuestas adecuadas incluso en situaciones nuevas. Logra discernir un susurro enuna sala ruidosa, distinguir una cara en una calle mal iluminada o leer entre lneas enuna conversacin; pero lo ms impresionante de todo es su capacidad de aprender arepresentar la informacin necesaria para desarrollar tales habilidades sininstrucciones explcitas para ello.

    Aunque todava se ignora mucho sobre la forma en que el cerebro aprende aprocesar la informacin, se han desarrollado modelos que tratan de mimetizar taleshabilidades; a este tipo de modelos se les conoce como Redes NeuronalesArtificiales. La elaboracin de estos modelos supone en primer lugar la deduccin delos rasgos o caractersticas esenciales de las neuronas y sus conexiones, y en segundolugar, la implementacin del modelo computacional de forma que se pueda simular.

    Existen varios tipos de modelos de Redes Neuronales Artificiales, cada uno con unalgoritmo y fin especfico. Los mapas autoorganizados o mapas de Kohonen(nombre de su desarrollador) se basan en el hecho de que en algunas partes delcerebro, las neuronas, estn interconectadas siguiendo una misma estructura, el lugaren donde las conexiones de las neuronas forman una estructura u organizacin es el

    reflejo del entorno sensitivo.

    En el cerebro podemos encontrarnos mapas topolgicos de los rganos sensorialesde nuestro cuerpo. En determinadas zonas del cerebro humano se ha encontradoexperimentalmente que las neuronas detectoras de rasgos se encuentrantopolgicamente ordenadas. Ante un estmulo proveniente de sensores de la pielprximos entre s, se estimulan neuronas del cerebro pertenecientes a una mismazona.

    Estos mapas se organizan de manera autnoma sin una referencia por medio de lacual se puedan corregir errores; pues el cerebro tiene la capacidad suficiente paraclasificar la informacin nueva sin tener una referencia anterior en la cual puedaapoyarse. As, el cerebro se organiza de manera automtica, o dicho de otra manera,se autoorganiza.

    La vida nos proporciona abundantes ejemplos de la autoorganizacin; cuando losalumnos asisten a un curso, el primer da se sientan en las sillas de forma aleatoria,conforme pasan los das se recolocan en el aula, de forma que conforme pasa el

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    7/110

    VI

    tiempo se sientan juntos segn sus afinidades. A menudo hay grupos exclusivamenteformados por chicas o chicos, el grupo de alumnos que se sientan en las ltimas filas,etc.

    Algunos problemas reales en los que los mapas autoorganizados han demostrado sueficacia incluyen tareas de clasificacin, reduccin de dimensiones y extraccin derasgos. Su utilidad ms importante se relaciona con la clasificacin de informacin oel agrupamiento de patrones. Este modelo neuronal utiliza una estrategia deaprendizaje que los humanos utilizamos frecuentemente, el llamado aprendizaje nosupervisado.

    Si el aprendizaje supervisado se asemeja al profesor que ensea y corrige al alumno,el aprendizaje no supervisado o autoorganizado es semejante al alumno que aprendepor s mismo, sin la ayuda de un profesor, pero disponiendo de material docente,libros, etc.

    Para generar un mejor entendimiento en cuanto a los fines que la autoorganizacinpersigue, conviene revisar los conceptos de agrupacin y clasificacin que en algunasocasiones son interpretados (errneamente) como lo mismo.

    El agrupamiento o clusteringtrabaja a partir de una serie de observaciones y determinasi existen clases en la que dichas observaciones puedan ser agrupadas. Es decir,determina la existencia de clases en las cuales poder agrupar. El nmero ycaractersticas de las clases son desconocidos a priori(aprendizaje no supervisado).

    Por su parte, la clasificacin trabaja a partir del conocimiento de la existencia de unconjunto de clases y determina la regla para asignar cada nueva observacin (oejemplo) a la clase que pertenece. Es decir, determina reglas de asignacin a clasesconocidas (aprendizaje supervisado).

    Al realizar un agrupamiento, al trmino de ste podemos generar una regla declasificacin que permita continuar categorizando la nueva informacin en las clasesahora ya existentes.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    8/110

    1

    Captulo 1

    1.- Fundamentos de las Redes Neuronales Artificiales

    En este captulo se realizar un breve repaso a la historia del desarrollo de sistemas ymquinas dotadas de cierta inteligencia as como su paralelismo con los sistemasneuronales biolgicos. Se expondrn las caractersticas generales de los modelosneuronales artificiales y las motivaciones que desembocan en la introduccin de stascomo alternativa o complemento a los sistemas de procesamiento ms utilizados enla actualidad.

    1.1 Introduccin

    Muchos de los desarrollos del hombre se deben a su capacidad para explicar yemular funciones que son realizadas por seres vivos. Por ejemplo, se puede citar elradar, que surge como imitacin de la forma en la que un murcilago es capaz dedetectar los objetos que estn en su camino sin necesidad de verlos, por medio de laemisin de una onda ultrasnica, la posterior recepcin de la seal de eco y su

    procesamiento.

    Aunque el hombre ha sido capaz de reproducir funciones de los animales, an seenfrenta con el reto de poder imitar, la llamada por muchos la mquina perfecta: elcerebro humano.

    Cuando la neurociencia pudo explicar de forma un poco convincente elfuncionamiento de la unidad principal de procesamiento de informacin que poseeel cerebro, la neurona, surge casi de manera automtica la idea de poder imitar dicho

    funcionamiento en un elemento artificial, "la neurona artificial".

    Una de las metodologas con mayor auge en la ltima dcada son los modelos deRedes Neuronales Artificiales (RNA)1, que en esencia son estructuras formales de

    1 En Hilera, J. y Martnez, V. (1995). Redes Neuronales Artificiales: Fundamentos, Modelos y aplicaciones. Ra-ma. Madrid, se define una red neuronal como una nueva forma de computacin, inspirada enmodelos biolgicos.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    9/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    2

    carcter matemtico y estadstico con la propiedad de aprendizaje, es decir, laadquisicin de conocimientos que en la mayora de los casos es a partir de ejemplos.

    Este aprendizaje se produce mediante un estilo de computacin que intenta simularalgunas de las capacidades que posee nuestro cerebro: la capacidad de memorizar yasociar hechos. Si examinamos con atencin aquellos problemas que no puedenexpresarse a travs de un algoritmo, nos daremos cuenta de que todos ellos tienenuna caracterstica comn: la experiencia.

    En definitiva, las redes neuronales artificiales no son ms que un modelo artificial ysimplificado del cerebro humano, es decir, un sistema para el tratamiento de lainformacin, que es capaz de adquirir conocimiento a travs de la experiencia y cuyaunidad bsica de procesamiento est inspirada en la clula fundamental del sistema

    nervioso humano, la neurona.

    Los modelos de redes neuronales son variados, al menos 50 diferentes tipos han sidoexplorados en investigacin o han sido desarrollados para aplicaciones. Se muestranlos principales de uso comn en la Tabla 1.1.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    10/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    3

    Red Ao Aplicaciones msimportantes

    Comentarios Inventada/desarrollada por

    Perceptrn 1957 Reconocimiento decaracteres impresos. La red ms antigua. Frank Rosenblatt.

    Adaline / Madaline 1960Filtrado de seales.Ecualizador adaptativo.Mdems.

    Rpida, fcil deimplementar. Bernard Widrow.

    Avalancha 1967Reconocimiento de habla.Control de brazos de robot.Ninguna red sencilla puedehacer todo esto. Stephen Grossberg.

    Cerebellatron 1969 Control de movimiento delos brazos de un robot.

    Semejante a Avalancha.David Marr, James

    Albus, AndresPellionez.

    Back Propagation 1974-85

    Sntesis de voz desde texto.Control de robots.Prediccin.

    Reconocimiento depatrones.

    Red ms popular.Numerosas aplicaciones conxito. Facilidad de

    aprendizaje. Potente.

    Paul Werbos, DavidParker, David

    Rumelhart.

    Brain-Estate-in-a-Box 1977Extraccin deconocimiento de bases dedatos.

    Posiblemente mejorrealizacin que las redes deHopfield.

    James Anderson.

    Neocognitrn 1978-84 Reconocimiento decaracteres manuscritos.Insensible a la translacin,rotacin y escala. K. Fukushima.

    Self-Organizing-Map(SOM). Topology-Preserving- Map (TPM)

    1980-84Reconocimiento depatrones, codificacin dedatos, optimizacin.

    Realiza mapas decaractersticas comunes delos datos aprendidos.

    Teuvo Kohonen.

    Hopfield 1982 Reconstruccin de patronesy optimizacin.

    Fcil de conceptualizar. John Hopfield.

    Memoria AsociativaBidireccional 1985

    Memoria heteroasociativade acceso por contenido.

    Aprendizaje y arquitecturasimples. Bart Kosko.

    Mquinas deBoltzmann y Cauchy 1985-86

    Reconocimiento depatrones (imgenes, sonar yradar). Optimizacin.

    Redes simples. Capacidad derepresentacin ptima depatrones.

    Jeffrey Hinton, TerrySejnowski, HaroldSzu.

    Teora de laResonancia Adaptativa(ART)

    1986Reconocimiento depatrones (radar, sonar, etc.) Sofisticada. Poco utilizada.

    Gail Carpenter,Stephen Grossberg.

    Counter- propagation 1986 Tratamiento de imgenes. Combinacin de Perceptrny TPM. Robert Hecht-Nielsen.

    Tabla 1.1. Modelos de RNA ms conocidos (Fuente: Adaptada de Hetch- Nielsen, 1998)

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    11/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    4

    1.2 Breve introduccin biolgica

    Antes de abordar el estudio de las RNA es conveniente exponer algunos conceptosbsicos de los sistemas neuronales biolgicos, para poder establecer ms fcilmenteel paralelismo entre ambos2.

    La historia de las redes neuronales artificiales comienza con el cientfico SantiagoRamn y Cajal, un gran neuroanatomista espaol descubridor de la estructuraneuronal del sistema nervioso. A finales del siglo XIX la teora reticularista3, quesostena que el sistema nervioso estaba formado por una red continua de fibrasnerviosas, era la creencia extendida.

    Sin embargo en 1888, tras aos de trabajo, Ramn y Cajal demostr que el sistema

    nervioso en realidad estaba compuesto por una red de clulas individuales, lasneuronas, ampliamente interconectadas entre s. Pero no slo observ almicroscopio los pequeos espacios vacos que separaban unas neuronas de otras,sino que tambin estableci que la informacin fluye de una neurona a otra desde lasdendritas hasta el axn, atravesando el soma, descubrimiento bsico para eldesarrollo de las neurociencias en el siglo XX .

    Se estima que el sistema nervioso contiene alrededor de cien mil millones deneuronas, este tipo de clulas puede presentarse en mltiples formas, aunque muchas

    de ellas tienen un aspecto similar muy peculiar (Figura 1.1.), con un cuerpo celularo soma (de entre 10 y 80 micras de longitud), del que surge un denso rbol deramificaciones (rbol dendrtico) compuesto por las dendritas, y del cual parte unafibra tubular denominada axn que tambin se ramifica en su extremo final paraconectarse con otras neuronas.

    2 Se trata de una visin simplificada (vlida para nuestro propsito) del funcionamiento del cerebro,sin embargo se puede mostrar cmo el sencillo modelo de neurona artificial que se emplea en lasRNA puede derivarse de modelos ms complejos, que reflejan ms fielmente la realidad biolgica.Para un mejor entendimiento del funcionamiento del cerebro se recomienda leer la obra de Eccles,J.C. (1973). The understanding of the Brain. McGraw-Hill.3 Varios investigadores defendieron la concepcin reticularista del sistema nervioso. Comparaban laestructura de la sustancia gris cerebral y de otros territorios nerviosos a un complejo retculoformado por la fusin de las prolongaciones de las clulas nerviosas. Esta teora implicaba negar laindividualidad de estas clulas. Cajal desminti la teora reticularista gracias a sus investigaciones,demostr que las relaciones entre las clulas nerviosas o neuronas eran de contigidad y no decontinuidad, dejando firmemente establecido que la neurona es la unidad histolgica y fisiolgica delsistema nervioso. Esta es la llamada Teora Neuronal, por la que se le concedi el premio Nobel en1906.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    12/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    5

    Figura 1.1. Estructura de una neurona biolgica tpica.

    Desde un punto de vista funcional, las neuronas constituyen procesadores deinformacin sencillos. Como todo sistema de este tipo, poseen un canal de entradade informacin, las dendritas, un rgano de cmputo, el soma, y un canal de salida,el axn4 . En el espacio inter neuronal el axn enva la informacin a otras neuronas,mientras que en las neuronas motoras lo hace directamente al msculo.

    Existe un tercer tipo de neuronas, las receptoras o sensoras, que en vez de recibir lainformacin de otras neuronas, la reciben directamente del exterior. Se calcula que

    una neurona del crtex cerebral recibe informacin, por trmino medio, de unas10,000 neuronas (convergencia), y enva impulsos a varios cientos de ellas(divergencias).

    En el crtex cerebral se aprecia la existencia de una organizacin horizontal en capas(se suelen sealar unas seis capas), coexistiendo una organizacin vertical en formade columnas de neuronas. Hay grupos neuronales, compuestos por millones deneuronas pertenecientes a una determinada regin del cerebro, que constituyenunidades funcionales especializadas en ciertas tareas (por ejemplo, existe un rea

    visual, un rea auditiva, etc.). Se tiene evidencia de que el procesamiento en elsistema nervioso involucra la actuacin de muchos subsistemas, que intercambiancontinuamente informacin.

    4 En realidad, en el rbol dendrtico tambin se lleva a cabo un cierto procesamiento; por otra parte,el soma tambin puede recibir informacin directamente de otros axones, sin la mediacin de lasdendritas.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    13/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    6

    1.3 Generacin y transmisin de la seal nerviosa

    La unin entre dos neuronas se denomina sinapsis5. En el tipo de sinapsis mscomn no existe un contacto fsico entre las neuronas, sino que stas permanecenseparadas por un pequeo vaco de unas 0.2 micras. En relacin a la sinapsis, sehabla de neuronas presinpticas (que envan las seales) y postsinpticas (que lasreciben).

    Las seales nerviosas se pueden transmitir elctrica o qumicamente. La transmisinqumica prevalece fuera de la neurona y se basa en el intercambio deneurotransmisores, mientras que la elctrica lo hace en el interior mediante descargasque se producen en el cuerpo celular, y que se propagan por el axn.

    La forma de comunicacin ms habitual entre dos neuronas es del tipo qumico. Laneurona presinptica libera unas complejas sustancias qumicas denominadasneurotransmisores (como la adrenalina), que atraviesan el vaci sinptico. Si laneurona postsinptica posee en las dendritas o en el soma canales sensibles a losneurotransmisores liberados, los fijarn, y como consecuencia de ello permitirn elpaso de determinados iones a travs de la membrana. Las corrientes inicas que deesta manera se crean provocan pequeos potenciales postsinpticos, excitadores oinhibidores, que se integrarn en el soma; ste es el origen de la existencia de sinapsisexcitatorias y de sinapsis inhibitorias6.

    Ante un estmulo mayor la frecuencia de respuesta aumenta, hasta que se alcanza unasaturacin conforme nos acercamos a la frecuencia mxima (umbral). La seal que esrecibida por la neurona posee diferentes grados de ponderacin; cuando laponderacin es alta, el potencial de membrana de la neurona se vuelve positivo,rebasa el umbral y enva la correspondiente seal a la siguiente neurona del circuito;contrariamente cuando la ponderacin es baja, el umbral no se rebasa y no setransmite seal a las otras neuronas.

    Para establecer una similitud directa entre la actividad sinptica y la analoga con las

    RNA, vamos a fijar los siguientes aspectos: las seales que llegan a la sinapsis son lasentradas a la neurona; stas son ponderadas (atenuadas o amplificadas) a travs de unparmetro, denominado peso sinptico, asociado a la sinapsis correspondiente.

    5 La palabra sinapsis viene del griego synapto que significa unin o conexin estrecha.6 Existen evidencias experimentales que indican que un axn slo puede generar sinapsis excitatoriaso inhibitorias, pero no de ambos tipos (Ley de Dale).

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    14/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    7

    Estas seales de entrada pueden excitar a la neurona (sinapsis con peso positivo) oinhibirla (peso negativo). El efecto es la suma de las entradas ponderadas. Si la sumaes igual o mayor que el umbral de la neurona, entonces la neurona se activa (dasalida). Esta es una situacin todo o nada, es decir, cada neurona se activa o no se

    activa.

    1.4 Procesos plsticos en la sinapsis

    Se ha observado que la conectividad entre dos clulas puede modificarse en funcinde la experiencia. A este tipo de procesos se les denomina procesos plsticos en lasinapsis o simplemente plasticidad sinptica.

    Para nuestro estudio de los procesos plsticos vamos a clasificarlos en procesospresinpticos, si los cambios ocurren en la presinapsis; postsinpticos, cuando loscambios ocurren en las postsinapsis; transinpticos, cuando los cambios ocurren porla accin concentrada entre la pre y la postsinapsis. Asimismo, haremos la divisinentre los procesos homosinpticos, que slo ocurren por la accin de una solasinapsis, y los heterosinpticos, cuando los cambios plsticos ocurren comoresultado de la interaccin de varias sinapsis. A los procesos heterosinpticospodramos a su vez clasificarlos como procesos cooperativos y de competencia7. Porltimo, definiremos que los cambios plsticos pueden ser a corto y a largo plazo.

    Los procesos plsticos ms ampliamente estudiados son:

    1) Habituacin. Consiste en una disminucin en la cantidad de transmisorliberado como resultado de la experiencia. Es un proceso homosinptico-presinptico, que tiene componentes de corto y largo plazo.

    2) Potenciacin postetnica. Es un incremento en la cantidad de transmisorliberado como resultado de la actividad repetitiva de una va, es un procesohomosinptico-presinptico, con componentes de corto y largo plazo.

    3) Sensibilizacin. Es el incremento de la cantidad de transmisor de una vapor la accin de otra neurona, es un proceso presinptico-heterosinpticocooperativo con componentes de corto y largo plazo.

    7 Este tipo de procesos son los que se utilizan en los mapas autoorganizados.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    15/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    8

    4) Inhibicin heterosinptica. Es la disminucin de la cantidad de transmisorde una va por la accin de otra neurona, es un proceso presinptico-heterosinptico competitivo, con componentes de corto y largo plazo.

    5) Condicionamiento. Es la capacidad que se tiene para modificar la conductaen base a la asociacin de dos estmulos, es un proceso presinptico-heterosinptico cooperativo de corto y largo plazo.

    1.5 Sistemas paralelos, distribuidos y adaptativos

    Los tres conceptos clave de los sistemas nerviosos que se pretende emular en losartificiales, son: paralelismo de clculo, memoria distribuida y adaptabilidad al

    entorno. De esta manera, podemos hablar de las RNA como sistemas paralelos,distribuidos y adaptativos.

    1.5.1 Procesamiento paralelo

    El cerebro tarda aproximadamente 20 ms en preprocesar una imagen compuesta pormillones de pxeles, extraer sus caractersticas, analizarla e interpretarla. Ningnsistema creado por el hombre es capaz de realizar algo semejante. La clave reside en

    que en este ltimo caso los miles de millones de neuronas que intervienen en elproceso de visin estn operando en paralelo sobre la totalidad de la imagen.

    1.5.2 Memoria distribuida

    Mientras que en un procesador la informacin ocupa posiciones de memoria biendefinidas, en las RNA se encuentra distribuida por las sinapsis de la red, de modoque si una sinapsis resulta daada, se pierde slo una parte muy pequea de lainformacin.

    Adems, los sistemas neuronales biolgicos son redundantes, de modo que muchasneuronas y sinapsis pueden realizar un papel similar; en definitiva, el sistema resultatolerante a fallos. Por ejemplo, cada da mueren miles de neuronas en nuestrocerebro, y sin embargo tienen que pasar muchos aos para que se resientan nuestras

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    16/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    9

    capacidades. La razn por la que las RNA son tolerantes a fallos es que tienen suinformacin distribuida.

    Las RNA son los primeros mtodos computacionales con la capacidad inherente detolerancia a fallos. Hay dos aspectos distintos respecto a la tolerancia a fallos:primero, las redes pueden aprender a reconocer patrones con ruido, distorsionados oincompletos, sta es una tolerancia a fallos respecto a los datos. Segundo, puedenseguir realizando su funcin (con cierta degradacin) aunque se destruya parte de lared.

    1.5.3 Aprendizaje adaptativo

    Es una de las caractersticas ms atractivas de las RNA. Esto es, aprenden a llevar acabo ciertas tareas mediante un entrenamiento con ejemplos ilustrativos, es decir, noes necesario elaborar modelos a priori ni especificar funciones de distribucin deprobabilidad. Una RNA no necesita un algoritmo para resolver un problema, ya queella puede generar su propia distribucin de los pesos de los enlaces medianteaprendizaje. Las RNA resuelven problemas mediante autoaprendizaje yautoorganizacin.

    1.6 Caractersticas generales de los modelos neuronales artificiales

    Los modelos neuronales asumen muchas simplificaciones del modelo biolgico parapoder plantear su desarrollo matemtico, en esta lnea, el primer modelo artificial fuediseado por McCulloch-Pitts (1943) (Figura 1.2.), el cual utilizaba unidades deprocesamiento denominadas neuronas que posean dos estados discretos. Asociadosa cada uno de ellos, se consegua una salida que se transmita a lo largo de laestructura vinculada a la red neuronal, pero con la limitacin que slo permitancomputar funciones booleanas.

    El modelo de McCulloch-Pitts se basa en las siguientes hiptesis. En primer lugar, elestado de una neurona en el tiempo, 1+t , depende solamente del estado queposea en el perodo anterior, t.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    17/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    10

    En segundo lugar, una neurona estar activada o no si supera un umbral , y enltimo lugar, se asume la sincrona8 entre las entradas y las salidas.

    Figura 1.2. Modelo de neurona McCulloch-Pitts

    La formalizacin del diseo del modelo de McCulloch-Pitts consiste, en primerlugar, en definir el estado de la entrada, tx y en segundo lugar, la salida en elmomento t, ty . La expresin que describe su funcionamiento es,

    ( )

    ( )

    =

    =

    =

    =

    coeasiaf

    afxwfy i

    n

    j

    jiji

    ..001

    1

    En los modelos neuronales la informacin se genera a partir del aprendizaje de laestructura interna de los datos, de forma que son las propias conexiones o pesosdonde se retiene el conocimiento. Es de gran importancia notar que no existe a prioriuna definicin explcita de la forma del conocimiento, el propio algoritmo iterativode estimacin de los parmetros (pesos) desconocidos, se encarga de extraer lapresencia de regularidades en los datos.

    8 La dinmica que rige la actualizacin de los estados de las neuronas (evolucin de la red neuronal)puede ser de dos tipos: asincrnico y sincrnico. En el primer caso, las neuronas evalan su estadocontinuamente, segn les va llegando informacin, y lo hacen de forma independiente. En el casosincrnico aunque la informacin llega de forma continua, los cambios se realizan simultneamente.Los sistemas neuronales biolgicos muy probablemente actan de forma mixta.

    ( )af

    1iw

    2iw

    3iw

    inw

    1x

    2x

    3x

    nx

    iy( )af

    1iw

    2iw

    3iw

    inw

    1x

    2x

    3x

    nx

    iy

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    18/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    11

    Los aspectos de mayor relevancia en los modelos neuronales son, primeramente, suarquitectura o topologa9, en segundo lugar, el tipo de sus unidades deprocesamiento, en tercer lugar, el tipo de conexiones de estas unidades o neuronas, yen cuarto lugar, los tipos de aprendizaje.

    El primer aspecto, la arquitectura de una red neuronal, se refiere a la forma de lasconexiones entre las unidades neuronales. Su forma genera toda una familia deposibles modelos, cuya gran variedad obliga a la vertebracin de los mismosmediante clasificaciones o taxonomas.

    En una primera aproximacin, podemos encontrar una clasificacin en funcin a lostipos de las salidas que genera el modelo, divididos en: modelos deterministas ymodelos estocsticos. Para el caso determinista tenemos que cada neurona sigue una

    ley del tipo,

    =

    =

    n

    i

    ii xwfy1

    donde ( )f es una funcin de activacin10, en cambio para las redes con neuronasestocsticas, la activacin de la red se interpreta como una probabilidad de un estadolgico tal y como se expresa en las siguientes ecuaciones,

    ( )

    ==

    =

    n

    i

    ii xwfyP1

    1

    y

    ( ) ( )

    ====

    =

    n

    i

    ii xwfyPyP1

    1110

    donde la salida es un valor continuo entre [ ]1,0 que se interpreta como unaprobabilidad.

    9 La topologa de la red (forma de la red) muestra cmo los diferentes nodos estn conectados entres, y la forma en cmo se comunican.10 Se definir ms a detalle en la siguiente seccin.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    19/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    12

    El segundo aspecto es la tipologa existente en las unidades de procesamiento oneuronas. Existen neuronas visibles y neuronas ocultas. Por neuronas visibles seentienden tanto las entradas (variables exgenas) como las salidas (variablesendgenas), en cambio las neuronas ocultas, poseen la funcin de capturar la

    representacin interna de los datos. stas pueden no estar conectadas directamentecon las neuronas visibles (Figura 1.3.).

    Figura 1.3. Tipologa de las unidades de procesamiento de neuronas

    El tercer aspecto descansa en el tipo de conexiones que se establecen entre lasunidades de procesamiento o neuronas. As tenemos, en primer lugar, los modelos

    que se propagan en una sola direccin, denominadosfeed-forward y en segundo lugar,los modelos recurrentes, cuyas conexiones se establecen en todas las direccionesincluso con procesos de realimentacin, es decir, las propias neuronas consigomismas.

    El cuarto aspecto hace referencia a los tipos de aprendizaje. Existen dos tipos deaprendizaje; supervisado y no supervisado. La diferencia fundamental entre ambostipos estriba en la existencia o no de un agente externo (supervisor o maestro) quecontrole el proceso de aprendizaje de la red.

    Visible

    Oculto

    Visible

    Visible

    Oculto

    Visible

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    20/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    13

    1.7 Modelo general de neurona artificial

    Los elementos bsicos de un modelo de neurona artificial son (Figura 1.4.):

    1. Un conjunto deentradas, ( )txj .

    2. Los pesos sinpticos de la neurona i , ijw .

    3. La regla de propagacin, ( ) ( )txwth jiji ,= .

    4. La funcin de activacin o transferencia, ( )( )thg ii .

    5. Y finalmente la funcin de salida, ( )( )( )thgf iii .

    Figura 1.4. Modelo genrico de neurona artificial

    Los elementos descritos posibilitarn una generalizacin formal, que permitiraglutinar tanto los modelos supervisados como los no supervisados. A continuacinse definen cada uno de estos elementos:

    ( )tx j

    1x

    2x

    nx

    M

    Regla depropagacin

    Funcin detransferencia

    o activacin

    Funcin desalida

    ijw

    ( ) ( )( )txwth jiji ,= ( )( )thg ii

    iy

    ( )( )( )thgf iii

    ( )tx j

    1x

    2x

    nx

    M

    Regla depropagacin

    Funcin detransferencia

    o activacin

    Funcin desalida

    ijw

    ( ) ( )( )txwth jiji ,= ( )( )thg ii

    iy

    ( )( )( )thgf iii

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    21/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    14

    1.7.1 Conjunto de entradas

    El conjunto de entradas ( )tx j se refiere a un vector de entradas procedentes del

    exterior o de otras neuronas, es decir, son las seales que llegan a la sinapsis.

    1.7.2 Pesos sinpticos

    Los pesos sinpticos de la neurona i , ijw representan la intensidad de interaccin

    entre cada neurona presinptica j y la neurona postsinptica i , al igual que en unaneurona biolgica se establecen sinapsis entre las dendritas de una neurona y el axnde otra. Si el peso es positivo tender a excitar a la neurona postsinptica, si esnegativo tender a inhibirla.

    1.7.3 La regla de propagacin

    La regla de propagacin ( ) ( )txwth jiji ,= , tambin conocida como funcin de

    ponderacin o de excitacin, proporciona el valor del potencial postsinptico de laneurona i en funcin de sus pesos y entradas. La regla de propagacin es unelemento relevante que puede poseer diferentes formas, en la Figura 1.5. semuestran algunas de ellas.

    La regla de propagacin habitual, especialmente en los modelos basados en el clculode distancias entre vectores (como en los mapas autoorganizados) es la distanciaeucldea que representa la distancia (al cuadrado) existente entre el vector de entradasy el de pesos. Cuando ambos vectores son muy similares, la distancia es muypequea; cuando son muy diferentes, la distancia crece. Se pueden utilizar tambinotros tipos de distancias, como la Manhattan o la de Mahalanobis.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    22/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    15

    Figura 1.5. Ejemplo de reglas de propagacin

    1.7.4 La funcin de transferencia o activacin

    La funcin de activacin o transferencia, ( )( )thg ii filtra el valor de la regla de

    propagacin para comparase con algn valor umbral para determinar la salida finalde la neurona. Si la suma es mayor que el valor umbral, la neurona generar unaseal. Si la suma es menor que el valor umbral, ninguna seal ser generada. Lafuncin de activacin puede o no existir, siendo en este caso la salida la misma

    funcin de propagacin.

    En ocasiones los algoritmos de aprendizaje requieren que la funcin de activacincumpla con la condicin de ser derivable. Las ms empleadas en este sentido son lasdel tipo sigmoideo, como la del back propagation. Otra funcin clsica es la gaussiana,que se utiliza junto con reglas de propagacin que involucran el clculo de cuadradosde distancias (por ejemplo, la eucldea) entre los vectores de entradas y pesos. Porltimo, en ocasiones se emplean funciones sinusoidales, como en aquellos casos enlos que se requiere expresar explcitamente una periodicidad temporal. La Figura

    1.6. muestra las principales funciones de activacin.

    Regla de propagacin

    Lineal CuadrticaDistancias

    (Ej. Eucldea)

    Polinmica

    (Ej. Orden 2)

    ( ) ( )( txwth jiji ,=

    ( ) =

    =

    p

    j

    jiji xwth0

    ( ) =

    =

    p

    j

    jiji xwth0

    2 ( )=

    =

    p

    j

    ijji wxh0

    2 ( ) += 21211 jjjijjiji xxwxwth

    Regla de propagacin

    Lineal CuadrticaDistancias

    (Ej. Eucldea)

    Polinmica

    (Ej. Orden 2)

    ( ) ( )( txwth jiji ,=

    ( ) =

    =

    p

    j

    jiji xwth0

    ( ) =

    =

    p

    j

    jiji xwth0

    2 ( )=

    =

    p

    j

    ijji wxh0

    2 ( ) += 21211 jjjijjiji xxwxwth

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    23/110

    Captulo 1. Fundamentos de las Redes Neuronales Artificiales

    16

    Figura 1.6. Funciones de transferencia o activacin (Nota: se han considerado en todos los

    casos regla de propagacin lineal y funcin de salida identidad).

    1.7.5 La funcin de salida

    La funcin de salida, ( )( )( )thgf iii proporciona la salida global de la neurona iy en

    funcin de su estado de activacin actual. Muy frecuentemente la funcin de salidaes simplemente la funcin identidad, de modo que el estado de activacin de laneurona se considera la propia salida.

    Funcin identidad o lineal

    Funcin lineal a tramos

    Funcin escaln

    Funcin escaln simtrica

    Funcin lineal a tramos simtrica

    Funcin Logstica o Log sigmoidea

    Funcin Gaussiana

    Funcin sinusoidal

    Funcin Tangente hiperblica sigmoidea

    aag )(

    =

    i gi g

    i g(2.9)

    Por tanto, en este caso una neurona pertenece a la vecindad de la ganadora

    solamente si su distancia es inferior a ( )R t . Con este tipo de funcin las vecindades

    adquieren forma circular, de bordes ntidos, en torno a la vencedora y la ecuacin

    (2.3) se reduce a

    ( )( )

    ( ) ( ) ( )( ) ( )

    0

    ijk

    k ijk

    si R t w t

    t x t w t si R t

    > =

    i g

    i g(2.10)

    18Ibid. Pp. 80.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    47/110

    Captulo 2. Los mapas autoorganizados

    40

    por lo que en cada iteracin nicamente se actualizan las neuronas que distan de la

    vencedora en una distancia menor a ( )R t .

    La funcin de vecindad Gaussiana tiene la siguiente forma:

    ( ) ( )( )

    2

    2, exp

    2h t t

    t

    =

    i gi g

    donde ( )t es otro ritmo de aprendizaje, y el parmetro ( )t define la amplitud de

    la vecindad. Tanto ( )t como ( )t son funciones montonamente decrecientes

    con el tiempo.

    Si la red SOM no es muy grande (digamos, unos cuantos cientos de nodos a lo ms),

    la seleccin de los parmetros del proceso no es crucial, y de hecho, se puede usar la

    funcin de vecindad definida en (2.9).

    La funcin de vecindad posee una forma definida, pero su radio ( )R t vara con el

    tiempo. Se parte de un valor inicial 0R grande, (incluso puede ser ms de la mitad del

    dimetro de la red), que determina vecindades amplias, con el fin de lograr la

    ordenacin global del mapa. ( )R t disminuye montonamente con el tiempo, hasta

    alcanzar un valor final de 1fR = con el que solamente se actualizan los pesos de laneurona vencedora y las adyacentes. Una posible funcin de actualizacin de ( )R t

    es la siguiente:

    ( ) ( )0 0fR

    t R t R R R

    t= + (2.11)

    donde t es la iteracin y Rt el nmero de iteraciones para alcanzar fR . Existen otras

    expresiones, como funciones exponencialmente decrecientes, de aspecto similar a

    (2.7).

    Si nicamente se dispone de un nmero relativamente pequeo de muestras,

    entonces stas debern ser recicladas para alcanzar el nmero deseado de

    iteraciones19.

    19Ibidem.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    48/110

    Captulo 2. Los mapas autoorganizados

    41

    2.5 Modelos de neuronas de Kohonen - Medidas de similitud

    El modelo de neurona de Kohonen se basa en el clculo de la similitud entre el

    vector de entradas y el de pesos. As, dependiendo del criterio que se seleccione, se

    tendr un modelo u otro.

    Uno de los modelos ms comunes es la correlacin o producto escalar:

    1

    n

    ij ijk k

    k

    C w x=

    = (2.16)

    segn el cual, dos vectores sern ms similares cuanto mayor sea su correlacin. Es

    interesante observar que una neurona SOM que utilice este criterio de distancia

    coincide bsicamente con el modelo de neurona estndar de las RNA. Sin embargo,

    esta medida es sensible al tamao de los vectores; grandes diferencias en sus

    longitudes pueden introducir una importante distorsin en la medida de similitud.

    Para resolver este problema puede dividirse por las normas de los vectores, con lo

    que se tiene el denominado criterio del coseno

    ( ) 1cos ,n

    ijk k kij

    ij

    w x==

    w xw x

    (2.17)

    su importancia radica en que esta medida se basa en una caracterstica relativa a

    ambos vectores, como es su ngulo, independientemente de sus tamaos.

    Otro de los criterios de ms amplio uso es la distancia eucldea

    ( ) ( )2

    1

    ,n

    ij ijk k

    k

    d w x=

    = w x (2.18)

    si se utiliza una red de Kohonen para anlisis cluster, la distancia eucldea es ms

    adecuada cuando los grupos a extraer estn compuestos por nubes esfricas de

    puntos en torno a su centro. Si no es as, el algoritmo tratar de ajustar los datos en

    mltiples grupos esfricos.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    49/110

    Captulo 2. Los mapas autoorganizados

    42

    La mtrica de Minkowski

    ( )1

    1

    , ,n

    ij ijk k

    k

    d w x

    =

    =

    w x (2.19)

    cuando 1 = , se trata de la distancia de Manhattan.

    La correlacin, el coseno y la distancia eucldea son los criterios ms utilizados,

    siendo fcil demostrar que coinciden para el caso de vectores normalizados. Por una

    parte, si las normas son iguales a uno en la ecuacin (2.16) se obtiene (2.17), y por

    otra, desarrollando la ecuacin de la distancia eucldea (2.18) y haciendo las normas

    igual a uno, se obtiene

    ( ) ( )2 2 22

    , 2 2 1T T

    ij ij ij ij ijd = = + = w x w x w x w x w x (2.20)

    de lo que se deduce que una correlacin mxima corresponde a una distancia

    eucldea mnima, luego ambas medidas tambin coinciden.

    Para vectores normalizados se puede realizar una neurona de Kohonen empleando la

    correlacin y la regla de actualizacin habitual (2.3), que se deduce del criterio de

    distancia eucldea. La forma de este modelo coincide con el de neurona estndar

    definida en el captulo 1, y resulta de gran sencillez.

    Existen algunos otros criterios de distancia, como la medida de similitud de

    Tanimoto, la de Mahalanobis o la de Hamming, aplicadas para el caso de patrones

    cuyas componentes no sean nmeros reales, sino variables lgicas o cadenas de

    caracteres.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    50/110

    Captulo 2. Los mapas autoorganizados

    43

    2.6 Modelos de aprendizaje en mapas autoorganizados

    En primer lugar, se presenta un procedimiento sistemtico para la deduccin de

    reglas de aprendizaje para los SOM.

    Se propone una cierta funcin objetivo o error E, dependiendo de los pesos de la

    red, y se obtiene la regla de actualizacin a partir de su optimizacin mediante

    descenso por el gradiente20.

    Sea ( ), ijd x w una funcin de error la cual es una distancia genrica definida en el

    espacio de las seales, supondremos que es diferenciable, y que mide el error decuantificacin para el vector de entrada x . La neurona ganadora g ser la que

    cumple

    ){ }xwg ,min ijij

    d= (2.21)

    la definicin de una funcin error en el caso supervisado resulta bastante obvia, pues

    lo que se pretenda era que las salidas actuales tendieran a las deseadas, con lo cual

    una funcin objetivo a minimizar consiste en la suma de los errores asociados a cada

    patrn. En el caso no supervisado la definicin no resulta tan evidente, puesto que

    no se dispone de un objetivo explcito al que deban tender las salidas de la red.

    Aqu, el objetivo ser encontrar una funcin de error que permita deducir

    sistemticamente reglas de aprendizaje. Como se pretende que los pesos ajusten la

    distribucin de entradas, un objetivo puede ser que los pesos sinpticos tiendan a

    ellas, es decir, que los errores de cuantificacin sean lo ms pequeos posibles. Con

    esta premisa, puede definirse una funcin objetivo global de la red de la siguiente

    manera

    ( ) ( )( ) ( ), ii

    E h f d p d = i g x w x x (2.22)

    20 Es decir, habr que modificar los pesos en la direccin opuesta al gradiente, esto es

    ij

    ijw

    Ew

    = . Uno de los algoritmos de optimizacin de descenso por el gradiente ms conocidos

    es el algoritmo de back propagation, que modifica los valores de los parmetros proporcionalmente algradiente de la funcin de error con objeto de alcanzar un mnimo local.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    51/110

    Captulo 2. Los mapas autoorganizados

    44

    con ( )p x la funcin de distribucin del espacio sensorial, ( )f una cierta funcin

    del error de cuantificacin (introducida por generalidad), y ( )h la funcin de

    vecindad. Esta funcin objetivo global al mapa se basa en la suma a todas las

    neuronas de los errores de cuantificacin, ponderada en la vecindad, y promediadopor medio de la funcin de distribucin para todas las posibles entradas.

    Para aplicar la aproximacin estocstica definiremos la siguiente funcin

    ( ) ( ) ( ) ( )( )( )1 , , ii

    E t h t f d t t = i g x w (2.23)

    que es una muestra tomada en t de la funcin global objetivo E. Para esta muestra,g es constante, una solucin aproximada se obtiene mediante descenso por el

    gradiente

    ( ) ( ) ( ) ( )11 ii it t t E t + = ww w (2.24)

    con ( )t el ritmo de aprendizaje, que debe cumplir las dos condiciones habituales

    ( ) ( )20 0

    ,t t

    t t

    = =

    = < (2.25)

    al estar realizando descensos por los gradientes locales proporcionados por ( )1E t , y

    no descensos por la mxima pendiente que proporciona E, se obtienen soluciones

    no globalmente ptimas. No obstante, se ha mostrado que el punto que se alcanza

    est muy prximo al ptimo, y que puede considerarse que las soluciones que

    proporciona son casi ptimas. Este procedimiento permite deducir sistemticamente

    algoritmos de aprendizaje slo con cambiar el criterio de distancia ( )d y la

    funcin ( )f .

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    52/110

    Captulo 2. Los mapas autoorganizados

    45

    2.7 Regla de aprendizaje eucldea

    Si consideramos como criterio la distancia eucldea

    ( ) ( )2

    1

    ,n

    ij ijk k

    k

    d w x=

    = w x (2.26)

    y como funcin ( ) 2 f d d = , la muestra ( )1E t de la funcin objetivo queda

    ( ) ( ) ( )2

    1

    1

    ,n

    ijk k

    ij k

    E t h t w x=

    =

    i g (2.27)

    si calculamos su gradiente

    ( ) ( ) ( )2

    1

    1

    ,ijk

    n

    w ijk k

    ij kijk

    E t h t w xw =

    = =

    i g (2.28)

    por ser g constante para la muestra ( )1E t , se tiene

    ( ) ( ) ( ) ( )2

    1

    , 2 ,n

    ijk k ijk k

    ij kijk

    h t w x h t w x

    w =

    = =

    i g i g(2.29)

    y, llamando ( ) ( )2t t = , de (2.29) se obtiene

    ( ) ( ) ( ) ( ) ( )1 ,i i k ijk t t t h t x w+ = + w w i g (2.30)

    que es la regla de aprendizaje de Kohonen (2.3) por lo tanto, la regla

    convencionalmente utilizada en el aprendizaje de una red de Kohonen procede de la

    mtrica eucldea.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    53/110

    Captulo 2. Los mapas autoorganizados

    46

    2.8 Regla de aprendizaje de Manhattan

    Otro de los criterios de distancia comentados es la norma de Manhattan

    ( )1

    ,n

    ij ijk k

    k

    d w x=

    = w x (2.31)

    Para obtener su regla de aprendizaje asociada se toma ( ) f d d = .

    ( ) ( )11

    ,n

    ijk k

    ij k

    E t h t w x=

    =

    i g (2.32)

    y calculando el gradiente

    ( ) ( )

    ( )

    1

    1

    ,

    ,

    ijk

    n

    w ijk k

    ij kijk

    ijk k

    ijk

    E t h t w xw

    h t w xw

    =

    = =

    = =

    i g

    i g

    (2.33)

    la funcin valor absoluto no es derivable en el origen. Considerando el caso 0ijkw > ,

    se tiene

    ( ) ( ) ( ) ( )1 , ,ijkw ijk k ijk

    E t h t w x h t w

    = =

    i g i g (2.34)

    y para el caso 0ijkw

    ( ) ( ) ( )( ) ( )1 , ,ijkw ijk k ijk

    E t h t w x h t w

    = =

    i g i g

    (2.35)

    Agrupando ambas expresiones haciendo uso de la funcin signo

    ( )

    1 0

    0 0

    1 0

    si x

    y sign x si x

    si x

    (2.36)

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    54/110

    Captulo 2. Los mapas autoorganizados

    47

    y llamando ( ) ( )t t = la regla de aprendizaje queda

    ( ) ( ) ( ) ( ) ( )1 ,i i k ijk t t t h t sign x w+ = + w w i g (2.37)

    la frmula obtenida, aunque con apariencia similar a la eucldea, es mucho ms

    simple de realizar, como se puede apreciar slo con rescribirla as

    ( )

    ( ) ( )

    ( ) ( )

    ( ) ( )

    0

    k ijk

    ijk k ijk

    k ijk

    h si x t w t

    w t si x t w t

    h x t w t

    + >

    = =

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    55/110

    Captulo 2. Los mapas autoorganizados

    48

    con ( )ijc un cierto criterio de similitud, que es mayor cuanto ms parecidos sean x y

    iw , y ( )f , una cierta funcin que se introduce por generalidad. En esta ocasin, se

    trata de maximizar ( )2E t , y se obtiene una solucin aproximada iterando de la forma

    conocida

    ( ) ( ) ( ) ( )21 ii it t t E t + = + ww w (2.40)

    con ( )t el ritmo de aprendizaje. Obsrvese que en este caso hemos cambiado el

    signo en el gradiente, puesto que para maximizar debe efectuarse un ascenso por l.

    Consideremos que ( ) ijccf = , la ecuacin (2.39) se convierte en

    ( ) ( )21

    ,n

    ijk k

    i k

    E t h t w x=

    =

    i g (2.41)

    y calculando el gradiente

    ( ) ( ) ( )21

    , ,ijk

    n

    w ijk k k

    kijk

    E t h t w x h t xw =

    = =

    i g i g

    (2.42)

    se obtiene la regla de actualizacin

    ( ) ( ) ( ) ( )1 ,ijk ijk k w t w t t h t x+ = + i g (2.43)

    Esta regla presenta el problema de que con las sucesivas presentaciones de los x , los

    pesos pueden crecer indefinidamente, para evitarlo hay que normalizar los pesos en

    cada iteracin

    ( )

    ( ) ( ) ( )

    ( ) ( ) ( )

    ,

    1 ,

    ijk k

    ijk

    i

    w t t h t x

    w t t t h t

    +

    + = +

    i g

    w i g x (2.44)

    Esta es, junto con la eucldea, una de las reglas de aprendizaje ms conocidas y

    empleadas. Un grave problema de este algoritmo de aprendizaje es que la

    normalizacin de los pesos que se debe efectuar en cada paso supone un alto costo

    computacional. Por ello, se deducir a partir de (2.44) un nuevo algoritmo de

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    56/110

    Captulo 2. Los mapas autoorganizados

    49

    aprendizaje que preserve la norma de los vectores de pesos; as, si estn

    normalizados inicialmente, tambin lo estarn en cada iteracin, de manera que no

    sea preciso normalizarlos en cada paso.

    Para ello, suponiendo que ( ) 1ij t =w , y pretendiendo obtener una regla para que

    tambin lo estn en 1t+ . La expresin del desarrollo en serie de Taylor de una cierta

    funcin ( )f x en torno a un punto a es

    ( ) ( ) ( ) ( ) ( ) ( )2' ''1 ...

    2!f x f a f a x a f a x a= + + +

    (2.45)

    reescribiendo la regla de aprendizaje (2.44) en la forma

    ( )( )

    ( )

    ( )

    ( )( )1

    ijk k ijk k

    ijk

    ii

    w t hx w t hxw t

    L t ht h

    + ++ = =

    ++ w xw x(2.46)

    considerando la norma ( )L x como una funcin dependiente del parmetro y

    desarrollando en serie en torno a 0 = , resulta

    ( ) ( ) ( ) ( )2 20 0

    0 1dL dL

    L L O Od d

    = =

    = + + = + +

    (2.47)

    donde se han supuesto pesos iniciales normalizados ( )0 1L = .

    De la expresin de la norma al cuadrado

    ( ) ( ) ( )2

    2 22 2

    22 2

    2

    1 2

    T

    i i i

    T

    i i

    T

    i

    L h h h

    h h

    h h

    + = + +

    = + +

    = + +

    w x w x w x

    w x w x

    x w x

    (2.48)

    se obtiene su derivada

    22

    22 2

    2 2

    2 1 2

    T

    i

    T

    i

    h hdL

    d h h

    + =

    + +

    x w x

    x w x

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    57/110

    Captulo 2. Los mapas autoorganizados

    50

    y por tanto

    T

    i

    dLh

    d

    =

    w x

    = 0

    As, de (2.47) resulta

    ( ) ( )21 Ti L h O = + +w x

    con lo que los pesos en 1t+ quedan

    ( )( )

    ( )( )

    ( )

    ( )( )

    ( )( ) ( )( )

    2

    2

    1

    1

    1

    ijk k ijk k

    ijk

    Ti i

    T

    ijk k i

    w t hx w t hxw t

    L t h h O

    w t hx h O

    + ++ = =

    + + +

    = + +

    w x w x

    w x

    y desarrollando

    ( ) ( ) ( ) ( )

    ( ) ( ) ( )( )

    21 Tijk ijk k ijk i

    T

    ijk k i ijk

    w t w t hx hw t O

    w t h x w t

    + = + +

    +

    w x

    w x(2.49)

    considerando despreciables los trminos ( )2O por ser pequeo. La expresin

    (2.49) coincide con la regla de aprendizaje que se propone en Kohonen, y que se

    puede escribir en la forma

    ( ) ( ) ( ) ( )( )1ijk ijk k ij ijk w t w t h x y t w t + = +

    donde se denomina ( )ijy t al producto escalar del vector de entradas por el de pesos

    de la neurona ( ),i j , que se consider como salida de la neurona ( ),i j .

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    58/110

    51

    Captulo 3

    3.- Ejemplo comparativo

    En este captulo se mostrarn las soluciones generadas por cada uno de los tresmtodos a comparar, se identificarn las ventajas y desventajas de cada uno desde suimplementacin hasta la interpretacin de resultados.

    3.1 Introduccin

    Cuando se desea encontrar una propuesta de solucin a un problema de clasificacinse recomienda evaluar diferentes alternativas, es decir, obtener soluciones mediantediferentes tcnicas y con diversos escenarios con la finalidad de probar laconsistencia de las soluciones o bien, elegir la que mejor se adecue al problemaplanteado.

    Tanto el anlisis cluster (tambin conocido como anlisis de conglomerados) comolos rboles de decisin son dos herramientas muy utilizadas para la clasificacin, sin

    embargo, se ha demostrado la eficiencia de los mapas autoorganizados en problemasreales, incluyendo la clasificacin, el reconocimiento de patrones y la reduccin dedimensiones entre otras cosas.

    En este captulo se mostrar mediante un ejemplo clsico que los mapasautoorganizados pueden ser utilizados como un mtodo alternativo ocomplementario a los mtodos de clasificacin tradicionales (anlisis clustery rbolesde decisin), adems de identificar las ventajas y desventajas as como las principalessimilitudes y diferencias entre estos tres mtodos desde su implementacin hasta la

    interpretacin de los resultados generados.

    En la actualidad existe una gran variedad de paquetes para implementar los mtodosestadsticos tradicionales, por otro lado, existen varios paquetes para laimplementacin de redes neuronales artificiales, de hecho algunos son dedistribucin gratuita. Sin embargo, son pocos los que tienen integrados ambosmtodos (mtodos estadsticos y redes neuronales).

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    59/110

    Captulo 3. Ejemplo comparativo

    52

    Se evaluaron diferentes alternativas para elegir el paquete con el que se realizara laimplementacin tomando en cuenta la limitada oferta de paquetes que cuentan tantocon mdulos estadsticos como de redes neuronales (especficamente mapasautoorganizados). Se evaluaron las siguientes opciones obteniendo los siguientes

    resultados:

    1. Clementine: se compone de un mdulo Base + mdulo de Clasificacin(rboles de decisin) + mdulo de Segmentacin (anlisis cluster en susdiferentes variantes) + mdulo de Asociacin + mdulo de minera de datos(incluyendo mapas autoorganizados). Es decir, mediante este paquete esposible desarrollar cada uno de los mtodos propuestos en este trabajo, sinembargo, no cuenta con versiones de prueba o para estudiantes y el costo esbastante elevado22.

    2. MatLab: ofrece la posibilidad (en su versin completa) de realizar anlisiscluster, redes neuronales y rboles de decisin; sin embargo, no incluye unaamplia variedad de mtodos para anlisis clustery de rboles de decisin.

    3. SPSS: cuenta con diversos mtodos para el anlisis cluster y rboles dedecisin; sin embargo, la seccin de redes neuronales no incluye mapasautoorganizados (slo incluye modelos de Funcin de Base Radial yperceptrn multicapa).

    Debido a que ninguno de los paquetes evaluados cumpla con las caractersticasdeseables para poder realizar la implementacin de los tres mtodos, se opt realizarel ejercicio en dos de ellos (MatLab y SPSS) de tal forma que la implementacin paralos mapas autoorganizados se realizar mediante MatLab, mientras que el anlisisclustery los rboles de decisin mediante SPSS (los rboles de decisin mediante unmdulo especfico denominado AnswerTree).

    22 De acuerdo a una cotizacin en febrero de 2008 por parte de SPSS Mxico, los precios en dlarespara licencias monousuario son: Mdulo Base $13,200; Mdulo de Clasificacin $3,600; Mdulo deSegmentacin $3,600; y Mdulo de Minera de Datos $14,400. Es decir $34,800 dlares en total.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    60/110

    Captulo 3. Ejemplo comparativo

    53

    Se describen a continuacin las principales caractersticas de los paquetes a utilizar:

    MatLab es la abreviatura de MATrix LABoratory. Se trata de un softwarematemtico muy verstil, entre sus caractersticas bsicas se encuentran lamanipulacin de matrices, la representacin de datos y funciones, la implementacinde algoritmos, la creacin de interfaces de usuario y la comunicacin con programasen otros lenguajes y con otros dispositivos hardware. MatLab ofrece un entorno dedesarrollo integrado con un lenguaje de programacin propio (lenguaje M) as comociertas libreras (Toolboxes) con las que puede extender an ms sus capacidades. Esmuy usado en universidades y centros de investigacin y desarrollo.

    SPSS es un programa estadstico informtico ampliamente utilizado tanto para fineseducativos como aplicaciones reales. Originalmente SPSS fue creado como el

    acrnimo de Statistical Package for the Social Sciences. En la actualidad, la sigla se usatanto para designar el programa estadstico como la empresa que lo produce.

    Como programa estadstico es muy popular su uso gracias a la capacidad que tienepara trabajar con bases de datos de gran tamao. El programa consiste en unmdulo base y mdulos adicionales (regresin, tablas, reduccin de datos,tendencias, categoras, etc.) que se han ido actualizando constantemente con nuevosprocedimientos estadsticos. AswerTree es un mdulo especfico de SPSS quecuenta con varios mtodos para la construccin de rboles de decisin.

    Cada uno de estos paquetes por s mismos proporcionan varias alternativas(mtodos) para realizar el anlisis, para el ejemplo comparativo se mostrarnnicamente los resultados de aquel mtodo que haya arrojado los mejores resultados.

    En la mayora de los problemas reales, se desconoce el nmero de grupos en los quelos datos tienen que ser clasificados, normalmente se parte de un nmero que elinvestigador considera razonable de acuerdo a su experiencia, incrementndolo odisminuyndolo hasta que finalmente (en la mayora de los casos) se elige el mtodocuya clasificacin genere un mejor entendimiento y tratamiento de la informacin.

    En nuestro caso, al tratarse de un ejemplo conocido del cual evidentemente ya seconocen los resultados, es decir, sabemos que hay tres grupos (las tres especies aclasificar) as como la especie real a la que pertenece cada lirio, la comparacin de losresultados no tiene como propsito encontrar qu mtodo puede determinar elnmero ideal de grupos que genere el menor error de clasificacin; el objetivo ms

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    61/110

    Captulo 3. Ejemplo comparativo

    54

    bien, est enfocado en determinar qu mtodo genera el menor error de clasificacinpartiendo del hecho de que los lirios se tiene que clasificar en tres grupos.

    De igual forma, los anlisis previos recomendados al realizar cualquier tipo deanlisis multivariado (como grficos para ver el comportamiento natural de los datos,correlacin entre variables, etctera), por las caractersticas de este ejercicio puedenomitirse, sin embargo, se recomienda siempre hacer este tipo de pruebas paraaplicaciones reales en las que no sabemos a prioricmo se estn comportando losdatos.

    3.2 Descripcin del conjunto de datos

    El conjunto de datos Iris (Fisher, 1936) es probablemente el ms conocido entrelos textos sobre clasificaciones. Si bien, la clasificacin de Fisher es relativamentesimple, su estudio representa un clsico en la materia y con frecuencia se recurre a lcomo material de referencia.

    El conjunto de datos a estudiar contiene informacin sobre 3 diferentes especies delirios (setosa, versicolor y virginica) (Figura 3.1.), las cuales difieren en lamedida (ancho y longitud) de sus ptalos y spalos23.

    Figura 3.1. Tipos de lirios

    El archivo de datos para este ejemplo contiene cuatro variables de medida continuasen cada observacin (ancho del ptalo, longitud del ptalo, ancho del spalo ylongitud del spalo) y una variable de clasificacin denominada especies la cualmuestra la especie real a la que pertenece cada lirio.

    23Cada una de las hojas, generalmente de color verde, que forman el cliz de una flor.

    Setosa Versicolor VirginicaSetosa Versicolor Virginica

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    62/110

    Captulo 3. Ejemplo comparativo

    55

    En el caso de SPSS el archivo de datos se encuentra en formato sav (formatomediante el cual SPSS almacena las bases de datos); en el caso de MatLab se trata deeste mismo archivo pero en formato de archivo de datos (.data).

    3.3 Clasificacin de lirios mediante mapas autoorganizados

    Para poder realizar la implementacin de mapas autoorganizados en MatLab esnecesario instalar SOM Toolbox la cual contiene las funciones necesarias para lacreacin, visualizacin y anlisis de estos mapas24.

    Esta librera se encuentra disponible sin cargo en la siguiente direccin electrnica:http://www.cis.hut.fi/projects/somtoolbox/

    Al igual que en SPSS, en la librera SOM se pueden insertar etiquetas de textoasociadas a cada dato de la muestra; estas etiquetas resultan tiles para lainterpretacin de los resultados.

    El archivo de datos de los lirios debe cargarse en MatLab mediante la funcinsom_read_data y dado que los datos se encuentran en distintas escalas de medicindeben ser estandarizados de tal forma que cada variable tenga varianza 1. Una vezque el conjunto de datos est listo, la red es entrenada.

    Dado que el conjunto de datos est etiquetado, el mapa tambin debe ser etiquetadoutilizando som_autolabel. Es importante sealar que aunque se est etiquetandoel mapa, el aprendizaje es no supervisado, es decir, la variable especiesque es laque muestra a qu especie pertenece cada lirio no se utiliza durante el anlisis ya queson slo las 4 variables de medidas las que lo conforman.

    % Creacin del conjunto de datos

    sD = som_read_data(iris.data);

    sD = som_normalize(sD,var);

    % Creacin del mapa autoorganizado SOM

    sM = som_make(sD);

    sM = som_autolabel(sM,sD,vote);

    24 En el Anexo A se detallan las funciones utilizadas para la implementacin del ejemplo delconjunto de datos Iris en MatLab.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    63/110

    Captulo 3. Ejemplo comparativo

    56

    % Visualizacin bsica

    som_show(sM,umat,all,comp,1:

    4,empty,Labels,norm,d);

    som_show_add(label, sM, subplot, 6);

    La funcin som_make inicializa y entrena el mapa. El tamao del mapa, en este casoes de 6 x 14 de tal forma que el mapa est compuesto por 84 neuronas de salida. Elentrenamiento se realiz en dos etapas. En la primera etapa, cuyo objetivo consisteen organizar el mapa, se utiliz una tasa de aprendizaje alta igual a 1 y un radio devecindad tambin grande igual al dimetro del mapa.

    A medida que avanzada el aprendizaje, tanto la tasa de aprendizaje como el radio de

    la vecindad iban reducindose de forma lineal hasta alcanzar los valores (mnimos)0.05 y 1 respectivamente. En la segunda etapa, cuyo objetivo es el ajuste fino demapa, se utiliz una tasa de aprendizaje pequea y constante igual a 0.05 y un radiode vecindad constante y mnimo igual a 1. La primera fase consto de 1,000iteraciones mientras que la segunda fase de 2,000 iteraciones.

    Una vez entrenado el mapa, se calcul el error de cuantificacin promedio el cual esde 0.0156 lo que representa un error de casi el 2%.

    Los mapas autoorganizados ofrecen grandes ventajas de visualizacin, como lo sonla matriz de distancias25 y las componentes. Cada componente muestra los valoresde una variable en cada neurona del mapa usando la misma codificacin de colordescrita para la matriz de distancias.

    Esto da la posibilidad de examinar visualmente cada celda (correspondiente a cadaneurona del mapa). El mapa se puede visualizar utilizando som_show. La matriz dedistancias se muestra junto con las cuatro componentes.

    Tambin las etiquetas de cada neurona del mapa se muestran en un bloque de celdasutilizando som_show_add. Los valores de los componentes se desentandarizan demodo que los valores mostrados en la barra de colores estn dentro del rango devalores original.

    25 La matriz de distancias nombrada en MatLab como U-matrix Unified distance matrix es la matrizen la que se visualizan las distancias entre las vecindades del mapa, ayuda a visualizar la estructura delos clustersdel mapa de tal forma que las reas uniformes o niveles bajos en la matriz muestran losclustersexistentes mientras que valores altos valores en esta matriz indican la frontera entre ellos.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    64/110

    Captulo 3. Ejemplo comparativo

    57

    La siguiente imagen (Figura 3.2.) representa la matriz de distancias, misma quemuestra en la parte superior izquierda, enseguida se encuentran las cuatrocomponentes, finalmente en la parte inferior derecha se ubican las etiquetas delmapa. En la matriz de distancias existen hexgonos adicionales entre todas las

    parejas de neuronas vecinas. Por ejemplo, la neurona en la esquina superior izquierdatiene valores pequeos para la longitud del spalo, as como para la longitud y anchodel ptalo, y valores relativamente grandes para el ancho del spalo.

    Figura 3.2. Visualizacin del mapa del conjunto de datos de lirios

    La etiqueta asociada a estas neuronas es se (setosa), y podemos ver tambin enla matriz de distancias que las neuronas vecinas estn muy unidas.

    A partir de la matriz de distancias es fcil detectar que las primeras 3 filas del mapaforman un cluster claramente definido. Al ver las etiquetas se puede ver quecorresponden a la especie setosa.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    65/110

    Captulo 3. Ejemplo comparativo

    58

    Las otras dos especies, versicolor y virginica, forman el otro cluster. La matriz Uno muestra una clara separacin entre estas ltimas dos especies, pero por lasetiquetas parece que corresponden a dos clustersdiferentes.

    A partir de las cuatro componentes se puede deducir que el largo y el ancho delptalo estn altamente relacionados el uno con el otro. Tambin existe unacorrelacin entre ellos y el largo del spalo. La especie setosa exhibe ptalospequeos y cortos pero spalos anchos. El factor de separacin entre versicolor yvirginica es que esta ltima tiene hojas ms grandes.

    Las grficas de las componentes son convenientes cuando se tiene que visualizarmucha informacin de una sola vez. No obstante, cuando solo unas pocas variablesson de inters, las grficas de dispersin son mucho ms eficientes. La Figura 3.3.

    muestra la proyeccin de componentes principales tanto del conjunto de datos comodel mapa.

    % Proyeccin de componentes principales de los datos

    [Pd, V, me] = pcaproj(sD, 3);

    % Genera la grfica de la proyeccin del mapa

    som_grid(sM, Coord, pcaproj(sM, V, me), marker, none, ...

    Label, sM.labels, labelcolor, k);

    % Grfica de datos originales con especies diferenciadas porcolorhold on, grid on

    colD = [repmat ([1 0 0], 50, 1); ...

    repmat ([0 1 0], 50, 1); ...

    repmat ([0 0 1], 50, 1)];

    som_grid(rect,[150 1], Line, none, Coord ,Pd, ...

    markercolor, colD);

    Las tres especies fueron graficadas utilizando distintos colores. El mapaautoorganizado tambin es proyectado en el mismo sub espacio. Las neuronas vecinas en el mapa estn conectadas mediante lneas. Se muestran tambin lasetiquetas de las neuronas asociadas al mapa.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    66/110

    Captulo 3. Ejemplo comparativo

    59

    La Figura 3.4.visualiza las cuatro variables del SOM usando marcadores de tamaoy color. Se muestran tres coordenadas y marcadores de tamao y color. Losmarcadores de color indican los sub espacios. Los datos se muestran en la partesuperior de la grfica mediante cruces (x).

    % Desestandarizacin de los pesos de los vectores

    M = som_denormalize (sM. Codebook, sM);

    colM = zeros (length (sM.codebook), 3);

    un = unique(sD.labels);

    for i=1:3, ind = find(strcm(sM.labels, un(i))); colM(ind,i) =1;

    end

    %Grfica del mapa

    som_grid(sM,Coord,M(:,2:4),Markersize,(M(:,1)-4)*5, ...

    Markercolor, colM);

    % Grfica de los datos

    hold on, grid on

    D = som_denormalize (sD.data, sD);

    Som_grid(rect, [150 1], Coord, D(:, 2:4), Marker, x,...

    MarkerSize,(D(:,1)-4)*5,Line,none,Markercolor,

    colD);

    % Muestra el mapa y la informacin de la especie

    som_cplane (sM.topol.lattice, sM.topol.msize, colM);

    % Muestra las cuatros variables con grficas de barras

    hold on

    som_barplane(sM.topol.lattice,sM.topol.msize,M,w,unitwise)

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    67/110

    Captulo 3. Ejemplo comparativo

    60

    Figura 3.3. Proyeccin del conjunto de datos

    Figura 3.4. Las cuatro variables del SOM usando marcadores de tamao y color

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    68/110

    Captulo 3. Ejemplo comparativo

    61

    Figura 3.5. Las cuatro variables se muestran con grficas de barras en cada neurona.

    El color indica la especie.

    La Figura 3.5.muestra las cuatro variables del mapa junto con la informacin de laespecie. En cada uno de los hexgonos del mapa se muestra una grfica compuestapor cuatro barras, cada una de las cuales, asociada a las variables usadas para laclasificacin (ancho y largo de los spalos y ptalos).

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    69/110

    Captulo 3. Ejemplo comparativo

    62

    3.4 Clasificacin de lirios mediante anlisis cluster

    El algoritmo a utilizar es k-medias26. Este algoritmo (as como los mtodosjerrquicos) depende de distancias y dado que las variables no se encuentran en lasmismas escalas, es necesario estandarizar los datos antes de realizar el anlisis.

    Para ello, utilizamos la opcin Guardar variables tipificadas que se encuentra en laopcin de Estadsticos descriptivos del men Analizar(Figura 3.6.).

    Figura 3.6. Estandarizacin de los datos

    A continuacin se selecciona el algoritmo k-mediasubicado en el men Analizar enla opcin Clasificar. Como variables se introducen las cuatro medidas de los lirios yse establece como nmero de grupos tres. En este caso sabemos que en realidad se

    trata de tres especies diferentes de lirios, si no lo supiramos de antemanotendramos que realizar el anlisis con diversos escenarios intercambiando el

    26 En el Anexo B se muestran los mtodos de los anlisis cluster incluidos en SPSS as como unavisin simplificada de sus aspectos tericos. Para mayor detalle sobre el anlisis cluster, se recomiendaconsultar el libro de Everitt, B.S., Landau, S., and Leese, M. (2001). Cluster Analysis, Applications andProgramming Techniques. Adison Wesley. USA.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    70/110

    Captulo 3. Ejemplo comparativo

    63

    nmero de grupos o bien utilizando algn otro mtodo de agrupacin, por ejemplo,algn mtodo jerrquico y elegir aquel que arroje los mejores resultados tantoestadsticos como acordes con el problema planteado (Figura 3.7.).

    Dentro de la opcin Guardar de esta misma pestaa se selecciona Guardarconglomerados de pertenencia y la Distancia desde el centro del conglomerado (estaopcin debe seleccionarse slo cuando se cuenta ya con el nmero ideal de grupos,que en este caso sabemos que es tres). Y en la pestaa Opciones seleccionarAnlisis ANOVA.

    Figura 3.7. Seleccin del mtodo a utilizar y especificacin de las opciones

    Una vez seleccionados los centros de los conglomerados, cada caso es asignado alclusterde cuyo centro se encuentra ms prximo y comienza un proceso de ubicaciniterativa de los centros. En la primera iteracin se reasignan los casos por sudistancia al nuevo centro y, tras la reasignacin, se vuelve a actualizar el valor del

    centro y as sucesivamente. En la Figura 3.8. se resume el historial de iteraciones (8en este caso) con indicacin del cambio (desplazamiento) experimentado por cadacentro en cada iteracin.

    Puede observarse que, conforme avanzan las iteraciones, el desplazamiento de loscentros se va haciendo ms pequeo, hasta llegar a la octava iteracin, en la que yano existe ningn desplazamiento.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    71/110

    Captulo 3. Ejemplo comparativo

    64

    Figura 3.8. Historial de Iteraciones

    La Figura 3.9. muestra los centros de los conglomerados finales, es decir, loscentros de los conglomerados tras el proceso de actualizacin iterativa. Esta tabla esde utilidad para interpretar la constitucin de los clusters pues resume los valorescentrales en cada clusteren las variables de inters.

    La Figura 3.10. indica la distancia entre cada caso y su centro de clasificacin. Se

    observa que la menor distancia se da entre los tipos de lirios 1 y 2 lo cual puedegenerar que el mayor traslape se de entre estos dos grupos; de manera semejante lamayor distancia se da entre los tipos de lirios 1 y 3 por lo que el traslape entre estosdos grupos debe ser menor.

    Figura 3.9. Centros de los conglomerados finales

    Historial de iteracionesa

    1.985 1.786 1.811

    .034 .281 .236

    .018 .673 .297

    .119 .258 .030

    .122 .177 .000

    .090 .100 .000

    .039 .045 .000

    .000 .000 .000

    Iteracin1

    23

    4

    5

    6

    7

    8

    1 2 3

    Cambio en los centros

    de l os conglomerados

    Se ha l ogrado la convergencia debido a que l os

    centros de los conglomerados no presentan ningn

    cambio o ste es pequeo. El cambio mximo de

    coordenadas absol utas para cual quie r centro es de

    .000. La i teracin actual es 8. La distancia mnima

    entre los centros in icia les es de 5.058.

    a.

    1 2 3

    Puntua: spalo - longitud 1.03015 -0.16784 -0.99872

    Puntua: spalo - ancho 0.01384 -0.96684 0.89212

    Puntua: ptalo - longitud 0.94054 0.25875 -1.29862Puntua: ptalo - ancho 0.96902 0.17551 -1.25244

    Centros de los conglomerados finales

    Conglomerado

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    72/110

    Captulo 3. Ejemplo comparativo

    65

    Figura 3.10. Distancias entre los centros de los conglomerados

    La tabla ANOVA (Figura 3.11.) muestra la tabla resumen del anlisis de varianzacon un estadstico F univariante para cada una de las variables incluidas en elanlisis. El anlisis de varianza se obtiene tomando los grupos definidos por losgrupos como factor y cada una de las variables incluidas en el anlisis como variabledependiente.

    Una nota al pie de pgina de la tabla informa que los estadsticos F slo debenutilizarse con una finalidad descriptiva pues los casos no se han asignadoaleatoriamente a los conglomerados sino que se han asignado intentando optimizarlas diferencias entre los conglomerados.

    Adems, los niveles crticos asociados a los estadsticos F no deben serinterpretados de manera habitual pues el procedimiento de k mediasno aplica ningntipo de correccin sobre la tasa de error (es decir, sobre la probabilidad de cometer

    errores tipo I cuando se llevan a cabo contrastes). Lgicamente, la tabla de ANOVAno se muestra cuando todos los casos son asignados a un nico cluster.

    Figura 3.11. Tabla ANOVA

    En la Figura 3.12. se muestra el nmero de casos que se asign a cada cluster,sabemos que en realidad el archivo de datos contiene 50 casos de cada especie, asimple vista parece que los casos faltantes en los clusters 1 y 2 fueron asignados al

    Conglomerado 1 2 3

    1 1.869 3.852

    2 1.869 2.934

    3 3.852 2.934

    Distancias entre los centros de los conglomerados

    cuadrtica gl cuadrtica gl

    Puntua: spalo - longitud 54.268 2 0.275 147 197.153 0.000

    Puntua: spalo - ancho 41.004 2 0.456 147 89.975 0.000

    Puntua: ptalo - longitud 67.185 2 0.100 147 675.014 0.000

    Puntua: ptalo - ancho 64.961 2 0.130 147 500.559 0.000

    Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para

    maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no

    pueden interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son iguales.

    ANOVA

    Conglomerado Error

    F Sig.

  • 8/3/2019 Las RNA Como Una Herramienta Alternativa o Complement Aria a Los Metodos de Clasificacion Tradicionales

    73/110

    Captulo 3. Ejemplo comparativo

    66

    cluster1, sin embargo debemos realizar pruebas de validacin para evaluar el error encada asignacin de casos.

    Figura 3.12. Nmero de casos en cada conglomerado

    3.4.1 Pruebas de validacin

    Como primera prueba de validacin se realizar un anlisis de medias en donde la variable dependiente es la variable de agrupacin (SPSS genera esta variable y laincluye en la base de datos normalmente con el nombre QCL_1) y las variablesindependientes son las variables usadas para el anlisis cluster sin estandarizar(medidas de ancho y largo de los ptalos y spalos).

    Figura 3.13. Informe sobre el anlisis de medias

    En la Figura 3.13. observamos que los clusters1 y 3 son los ms diferenciados. Elcluster 1 se encuentra conformado principalmente por aquellos lirios con la mayorlongitud en sus ptalos y spalos as como con los ptalos ms anchos que el resto,mientras que en el cluster 3 se encuentran los lirios con la longitud de ptalos yspalos as como el ancho de sus ptalos, ms chicos que el resto, pero el ancho de

    1 55.000

    2 46.000

    3 49.000

    150.000

    0.000Perdidos

    Nmero de casos en cada conglomeradoConglomerado

    Vlidos

    Nmero inicial de

    casos spalo - longitud spalo - ancho ptalo - longitud ptalo - ancho

    Media 6.6964 3.0600 5.4182 1.9382

    N 55 55 55 55Desv. tp. 0.50807 0.26006 0.63540 0.33802

    Media 5.7043 2.6348 4.2152 1.3326

    N 46 46 46 46

    Desv. tp. 0.42109 0.26265 0.70395 0.31202

    Media 5.0163 3.4408 1.4673 0.2429

    N 49 49 49 49

    Desv. tp. 0.34842 0.34876 0.17367 0.10801

    Media 5.8433 3.0540 3.7587 1.1987

    N 150 150 150 150

    Desv. tp. 0.82807 0.43359 1.76442 0.76316