Redes Neuronales Artificialescursos.itam.mx/akuri/2004/RNF_MTIA2004/01ANNS.pdf · Las redes...

Redes Neuronales Artificiales

Academia Mexicana deInformática A.C.

Aplicación de Redes Neuronales Artificiales

Angel KuriCentro de Investigación en

ComputaciónI.P.N.

Abril de 1999

El Modelo Conexionista

El paradigma conexionista se caracteriza por la obtención de capacidades decómputo a través de la interconexión demúltiples elementos, cada uno de los cuales posee poca capacidad de proce-so pero que, en su conjunto, exhiben robustez y permiten implementar un tipode aprendizaje interesante.

El Modelo Conexionista

Dentro de los diversos modelos de redes neuronales artificiales (ANNs, por sus iniciales en inglés) uno muy usado es el de los perceptrones multicapa.

En este modelo se interconecta un con-junto de neuronas (perceptrones), en unesquema similar al que se muestra en la siguiente figura.

El Perceptrón Multicapa

Figura 1. Una Red de Perceptrones.

Un perceptrón consiste de una neurona con pesos adaptables wj j=1,...,n y un umbral u como se muestra en la figura 2.

Los perceptrones (como el que se mues-tra en la figura 2) al ser interconectadosen red logran completez computacional.

Figura 2. Un Perceptrón.

La salida del perceptrón es +1 si v>0 y 0 en otro caso. Puede demostrarse que el perceptrón, como unidad lógica, es incompleto. Es decir, existen ciertas funciones lógicas básicas que un perceptrón no puede calcular.

Dado un vector de entradas x ),...,( 1 nxx= la entrada neta a la neurona es

jjj uxwv

Sin embargo, el perceptrón multicapa (PM) que se ilustra en la figura 1 puede formar fronteras de decisión de complejidad arbitraria y representar cualquier función booleana. El conjunto de entradas está representado por círculos sólidos. Las entradas y, posteriormente, cada neurona está fuertemente conectada a las neuronas de la siguiente capa.

Un algoritmo de entrenamiento muy usado para este tipo de redes es eldenominado “de retropropagación”. En este algoritmo es importante tener una función de activación derivable. Por ello, la función escalón de la figura 2 suele reemplazarse por la función sigmoide cuya gráfica se muestra en la figura 3.

El Algoritmo de Retropropagación

1. Inicialice los pesos (wij) a pequeños valores aleatorios.2. Aleatoriamente seleccione un patrón de entrada x(u).3. Propague la señal hacia delante a través de la red.4. Calcule L

iδ en la capa de salida ( Lii yo = ), en donde:

])[(' Li

Li ydhg −=δ

lih representa la entrada neta a la i-ésima unidad de la l-ésima capa y g’ es la derivada de la

función de activación g; iu

d representa la salida deseada.

5. Calcule las deltas para las capas precedentes por medio de la propagación de los erroreshacia atrás;

hgil 1

para l = (L – 1), ... ,1; g’(h) es la derivada de la función de activación.

El Algoritmo de Retropropagación

6. Actualice los pesos usando

=∆ δη ; 10 ≤<η

7. Vaya al paso 2 y repita para el siguiente patrón hasta que el error en la capa de salidaesté por debajo de un valor específico o un número máximo de iteraciones sea alcanzado.

La Función Logística

Figura 3.

Derivabilidad de Funciones

Algunas funciones usadas son:Función Derivada

)(1)(1)(')(

))(1()()('1

zfzfzf

eeeezf

zfzfzfe

−⋅=+

Derivabilidad de Funciones

La función logística y la tangente hiperbólica (tanh) son fácilmente derivables.

Tanto la logística como la tanh tienen laventaja de que su derivada puede serexpresada usando la función misma.

Caso de Estudio 1:Clasificación de Vinos

Presentamos aquí un caso de estudio endonde se aplica un red de percep-trones.

El problema consiste en lo siguiente:“Dado un conjunto de características químicas (13) de tres diferentes vinos,entrenar a la red para que reconozca a qué tipo corresponde un conjunto dado”.

En la siguiente figura se muestra un seg-mento de los datos de entrenamiento.

Nótese que existen 13 características(“features”) y 3 columnas depertenencia (Wine_A, Wine_B, Wine_C).

La tabla de entrenamiento consta de un total de 160 filas.

Antes de entrenar a la red, es muy importante normalizar los valores. Estose hace usando la siguiente fórmula:

Su aplicación mapea los valores alintervalo

minmax

minnn xx

xxx−

La arquitectura de la red está dictada porel número de entradas, el número desalidas y el número de capas ocultas.

El entrenamiento de la red consiste enencontrar los mejores valores correspondientes a los pesos que mejor ajusten los datos de prueba.

Figura 4. Arquitectura de la Red.

Figura 5. Resultado del Entrenamiento

Figura 6. Resultado del Entrenamiento

Figura 7. Interconexiones (vista parcial).

En la figura 8 se muestran los resultadosde una prueba.

La parte superior de la figura muestra los valores de los datos de entrenamiento. La parte inferior muestra los resultadosde pasar dichos datos por la red neuronal.

Nótese la concordancia casi perfecta.

Figura 8. Resultados de una Prueba

Caso de Estudio 2:Predicción de Demanda de Pasajeros

El segundo caso es el relativo a lapredicción de la demanda de pasajerosen una aerolínea.

Se conoce el comportamiento histórico de la demanda y se desea, en función deéste, predecir el comportamiento futuro.

Predicción de Demanda de Pasajeros

Los datos de la figura 9 indica una tendencia creciente muy clara.

Indican también, sin embargo, una conjunto de factores no lineales debidosa parámetros desconocidos

Predicción de Demanda dePasajeros

Figura 9. Comportamiento Histórico

Figura 9a. Promedios Móviles

Promedios Móviles

La tendencia se elimina de los datos restando los promedios móviles, que secalculan de:

En donde f es el tamaño de la ventana.

fjnnj ,...,1

1=∀= ∑

Correlaciones

El proceso de análisis de correlaciones es cuantificar la independencia entre parámetros.

La interdependencia entre los valores x e y estádada por:

∑ ∑

−−

−−=

Correlaciones

A r se le llama el coeficiente de correlación Bravais-Pearson en donde:

N = número de datosxn= atributo del objeto n con relación a la característica

X= media de N atributos de la característica X

yn= atributo del objeto n con relación a la característicaY

= media de N atributos de la característica Y

Figura 9b. Datos sin tendencias

En este caso, las salidas deseadas serefieren a los mismos datos de entrada desplazados en el tiempo(12 meses).

El primer dato de entrada se refiere a los datos en t=1; el segundo dato deentrada se refiere a los datos en t=2, etc.

Esto se observa en la figura 10.

Predicción de Demanda dePasajeros

Figura 10. Datos de entrenamiento

Como en el caso anterior, la arquitectura está dictada por la cantidad de datos de entrada ysalida.

Aquí tenemos 12 neuronas en la capa deentrada, pero solamente una neurona en lacapa oculta y 1 neurona en la capa de salida.

Figura 11. La arquitectura de la red neuronal

Predicción de Demanda...

Figura 12. Resultados del entrenamiento

Figura 13. Resultados del entrenamiento

Figura 14. Interconexiones

Neuronas de Umbral

Las neuronas del PMC incluyen un umbral que condiciona el disparo de la función detransferencia. En las variantes primarias sepensaba que los valores de umbral se podían determinar manualmente.

Los diseños más recientes logran el ajuste deumbrales agragando una capa interna deneuronas que consiste exactamente de una neurona cuya entrada se ajusta a “1”.

Neuronas de Umbral

La denominada “neurona de umbral” (NP) seconecta a todas las neuronas de la red yactúa como un umbral ajustable para excitara las neuronas.

La ventaja de este modelo es que las conexiones de la NP (y sus umbrales) seentrenan junto con las conexiones “normales” del PMC, haciendo que la configuraciónmanual supérflua.

Existen varias medidas de ajuste.Cada una de ellas expresa, de manera

diferente, qué tan lejana está la red bajo entrenamiento de los valores deseados.

Algunas de las posibles normas son MAE, MSE, RMSE y MAPE cuyos histogramas se muestran en la figura15.

iii etTForecast

2)arg(1

iii etTForecast

2)arg(1

etTetTForecast

1 argarg1

iii etTForecast

Figura 15. Medidas de Ajuste de la Red.

Figura 16. Valores reales vs. proyectados

Figura 17. Valores reales vs. proyectados (sintendencias)

Conclusiones

Las redes neuronales, en particular los perceptrones multicapa, son herra-mientas adecuadas para hacer análisisde datos que nos permiten clasificar ypredecir acertadamente.

El modelo de aprendizaje, aunque efectivo, tiene el inconveniente de notener características explicativas.

Redes Neuronales Artificialescursos.itam.mx/akuri/2004/RNF_MTIA2004/01ANNS.pdf · Las redes...

Documents

Transcript of Redes Neuronales Artificialescursos.itam.mx/akuri/2004/RNF_MTIA2004/01ANNS.pdf · Las redes...

PERCEPTRONES SIMPLE, MULTICAPA Y BACKPROPAGATION · BACKPROPAGATION Presentada como requisito parcial para la aprobaci on del curso Sistemas Adaptativos y Redes Neuronales. Estudiante:

Redes neuronales