Redes Neuronales Artificialescursos.itam.mx/akuri/2004/RNF_MTIA2004/01ANNS.pdf · Las redes...

Post on 18-Aug-2020

1 views 0 download

Transcript of Redes Neuronales Artificialescursos.itam.mx/akuri/2004/RNF_MTIA2004/01ANNS.pdf · Las redes...

Redes Neuronales Artificiales

Academia Mexicana deInformática A.C.

Aplicación de Redes Neuronales Artificiales

Angel KuriCentro de Investigación en

ComputaciónI.P.N.

Abril de 1999

El Modelo Conexionista

El paradigma conexionista se caracteriza por la obtención de capacidades decómputo a través de la interconexión demúltiples elementos, cada uno de los cuales posee poca capacidad de proce-so pero que, en su conjunto, exhiben robustez y permiten implementar un tipode aprendizaje interesante.

El Modelo Conexionista

Dentro de los diversos modelos de redes neuronales artificiales (ANNs, por sus iniciales en inglés) uno muy usado es el de los perceptrones multicapa.

En este modelo se interconecta un con-junto de neuronas (perceptrones), en unesquema similar al que se muestra en la siguiente figura.

El Perceptrón Multicapa

Figura 1. Una Red de Perceptrones.

El Perceptrón Multicapa

Un perceptrón consiste de una neurona con pesos adaptables wj j=1,...,n y un umbral u como se muestra en la figura 2.

Los perceptrones (como el que se mues-tra en la figura 2) al ser interconectadosen red logran completez computacional.

El Perceptrón Multicapa

Figura 2. Un Perceptrón.

El Perceptrón Multicapa

La salida del perceptrón es +1 si v>0 y 0 en otro caso. Puede demostrarse que el perceptrón, como unidad lógica, es incompleto. Es decir, existen ciertas funciones lógicas básicas que un perceptrón no puede calcular.

Dado un vector de entradas x ),...,( 1 nxx= la entrada neta a la neurona es

∑=

−=n

jjj uxwv

1

El Perceptrón Multicapa

Sin embargo, el perceptrón multicapa (PM) que se ilustra en la figura 1 puede formar fronteras de decisión de complejidad arbitraria y representar cualquier función booleana. El conjunto de entradas está representado por círculos sólidos. Las entradas y, posteriormente, cada neurona está fuertemente conectada a las neuronas de la siguiente capa.

El Perceptrón Multicapa

Un algoritmo de entrenamiento muy usado para este tipo de redes es eldenominado “de retropropagación”. En este algoritmo es importante tener una función de activación derivable. Por ello, la función escalón de la figura 2 suele reemplazarse por la función sigmoide cuya gráfica se muestra en la figura 3.

El Algoritmo de Retropropagación

1. Inicialice los pesos (wij) a pequeños valores aleatorios.2. Aleatoriamente seleccione un patrón de entrada x(u).3. Propague la señal hacia delante a través de la red.4. Calcule L

iδ en la capa de salida ( Lii yo = ), en donde:

])[(' Li

ui

Li

Li ydhg −=δ

lih representa la entrada neta a la i-ésima unidad de la l-ésima capa y g’ es la derivada de la

función de activación g; iu

d representa la salida deseada.

5. Calcule las deltas para las capas precedentes por medio de la propagación de los erroreshacia atrás;

∑+

=j ij

lw

il

hgil 1

)('δ

para l = (L – 1), ... ,1; g’(h) es la derivada de la función de activación.

El Algoritmo de Retropropagación

6. Actualice los pesos usando

jl

yil

jil

w1−

=∆ δη ; 10 ≤<η

7. Vaya al paso 2 y repita para el siguiente patrón hasta que el error en la capa de salidaesté por debajo de un valor específico o un número máximo de iteraciones sea alcanzado.

La Función Logística

Figura 3.

Derivabilidad de Funciones

Algunas funciones usadas son:Función Derivada

)(1)(1)(')(

))(1()()('1

1)(

1)(

zfzfzf

eeeezf

zfzfzfe

zf

zzf

zz

zz

z

−+=

+−=

−⋅=+

=

=

Derivabilidad de Funciones

La función logística y la tangente hiperbólica (tanh) son fácilmente derivables.

Tanto la logística como la tanh tienen laventaja de que su derivada puede serexpresada usando la función misma.

Caso de Estudio 1:Clasificación de Vinos

Presentamos aquí un caso de estudio endonde se aplica un red de percep-trones.

El problema consiste en lo siguiente:“Dado un conjunto de características químicas (13) de tres diferentes vinos,entrenar a la red para que reconozca a qué tipo corresponde un conjunto dado”.

Vinos

En la siguiente figura se muestra un seg-mento de los datos de entrenamiento.

Nótese que existen 13 características(“features”) y 3 columnas depertenencia (Wine_A, Wine_B, Wine_C).

La tabla de entrenamiento consta de un total de 160 filas.

Vinos

Vinos

Antes de entrenar a la red, es muy importante normalizar los valores. Estose hace usando la siguiente fórmula:

Su aplicación mapea los valores alintervalo

minmax

minnn xx

xxx−

−=*

]1,0[

Vinos

La arquitectura de la red está dictada porel número de entradas, el número desalidas y el número de capas ocultas.

El entrenamiento de la red consiste enencontrar los mejores valores correspondientes a los pesos que mejor ajusten los datos de prueba.

Vinos

Figura 4. Arquitectura de la Red.

Vinos

Figura 5. Resultado del Entrenamiento

Vinos

Figura 6. Resultado del Entrenamiento

Vinos

Figura 7. Interconexiones (vista parcial).

Vinos

En la figura 8 se muestran los resultadosde una prueba.

La parte superior de la figura muestra los valores de los datos de entrenamiento. La parte inferior muestra los resultadosde pasar dichos datos por la red neuronal.

Nótese la concordancia casi perfecta.

Vinos

Figura 8. Resultados de una Prueba

Caso de Estudio 2:Predicción de Demanda de Pasajeros

El segundo caso es el relativo a lapredicción de la demanda de pasajerosen una aerolínea.

Se conoce el comportamiento histórico de la demanda y se desea, en función deéste, predecir el comportamiento futuro.

Predicción de Demanda de Pasajeros

Los datos de la figura 9 indica una tendencia creciente muy clara.

Indican también, sin embargo, una conjunto de factores no lineales debidosa parámetros desconocidos

Predicción de Demanda dePasajeros

Figura 9. Comportamiento Histórico

Predicción de Demanda de Pasajeros

Figura 9a. Promedios Móviles

Promedios Móviles

La tendencia se elimina de los datos restando los promedios móviles, que secalculan de:

En donde f es el tamaño de la ventana.

Nfjxf

xj

fjnnj ,...,1

1=∀= ∑

+−=

Correlaciones

El proceso de análisis de correlaciones es cuantificar la independencia entre parámetros.

La interdependencia entre los valores x e y estádada por:

∑ ∑

= =

=

−−

−−=

N

n

N

nnn

n

N

nn

yyxx

yyxxr

1 1

22

1

)()(

))((

Correlaciones

A r se le llama el coeficiente de correlación Bravais-Pearson en donde:

N = número de datosxn= atributo del objeto n con relación a la característica

X= media de N atributos de la característica X

yn= atributo del objeto n con relación a la característicaY

= media de N atributos de la característica Y

x

y

Predicción de Demanda de Pasajeros

Figura 9b. Datos sin tendencias

Predicción de Demanda de Pasajeros

En este caso, las salidas deseadas serefieren a los mismos datos de entrada desplazados en el tiempo(12 meses).

El primer dato de entrada se refiere a los datos en t=1; el segundo dato deentrada se refiere a los datos en t=2, etc.

Esto se observa en la figura 10.

Predicción de Demanda dePasajeros

Figura 10. Datos de entrenamiento

Predicción de Demanda de Pasajeros

Como en el caso anterior, la arquitectura está dictada por la cantidad de datos de entrada ysalida.

Aquí tenemos 12 neuronas en la capa deentrada, pero solamente una neurona en lacapa oculta y 1 neurona en la capa de salida.

Predicción de Demanda de Pasajeros

Figura 11. La arquitectura de la red neuronal

Predicción de Demanda...

Figura 12. Resultados del entrenamiento

Predicción de Demanda...

Figura 13. Resultados del entrenamiento

Predicción de Demanda...

Figura 14. Interconexiones

Neuronas de Umbral

Las neuronas del PMC incluyen un umbral que condiciona el disparo de la función detransferencia. En las variantes primarias sepensaba que los valores de umbral se podían determinar manualmente.

Los diseños más recientes logran el ajuste deumbrales agragando una capa interna deneuronas que consiste exactamente de una neurona cuya entrada se ajusta a “1”.

Neuronas de Umbral

La denominada “neurona de umbral” (NP) seconecta a todas las neuronas de la red yactúa como un umbral ajustable para excitara las neuronas.

La ventaja de este modelo es que las conexiones de la NP (y sus umbrales) seentrenan junto con las conexiones “normales” del PMC, haciendo que la configuraciónmanual supérflua.

Predicción de Demanda...

Existen varias medidas de ajuste.Cada una de ellas expresa, de manera

diferente, qué tan lejana está la red bajo entrenamiento de los valores deseados.

Algunas de las posibles normas son MAE, MSE, RMSE y MAPE cuyos histogramas se muestran en la figura15.

Predicción de Demanda...

∑=

−=N

iii etTForecast

NMSE

1

2)arg(1

∑=

−=N

iii etTForecast

NRMSE

1

2)arg(1

∑=

−=N

i i

ii

etTetTForecast

NMAPE

1 argarg1

∑=

−=N

iii etTForecast

NMAE

1arg1

Predicción de Demanda...

Figura 15. Medidas de Ajuste de la Red.

Predicción de Demanda...

Figura 16. Valores reales vs. proyectados

Predicción de Demanda...

Figura 17. Valores reales vs. proyectados (sintendencias)

Conclusiones

Las redes neuronales, en particular los perceptrones multicapa, son herra-mientas adecuadas para hacer análisisde datos que nos permiten clasificar ypredecir acertadamente.

El modelo de aprendizaje, aunque efectivo, tiene el inconveniente de notener características explicativas.