Arquitectura RNA Perceptrón Multicapa aplicado a la predicción de inundaciones

118
Modelado de Redes Neuronales Basado en Aprendizaje Supervisado Aplicado a la Predicción de Inundaciones Autores: Andrea Fidela Lezcano Irala Mirna Gabriela Cuba Molinas Director: Dr. Horacio Kuna Asesor Experto: Ing. Lucas Chamorro

Transcript of Arquitectura RNA Perceptrón Multicapa aplicado a la predicción de inundaciones

Modelado de Redes Neuronales Basado en Aprendizaje Supervisado

Aplicado a la Predicción de Inundaciones

Autores:Andrea Fidela Lezcano IralaMirna Gabriela Cuba Molinas

Director: Dr. Horacio KunaAsesor Experto: Ing. Lucas Chamorro

Introducción

Inundación

Minería de Datos

Redes Neuronales

Inundaciones

Las inundaciones son fenómenos naturales en las cuales el agua cubre

superficies o terrenos que normalmente estarían secos, los tipos de

inundaciones son:

Tipo de Inundaciones

Inundaciones predecibles, regulares (Hasta 3 meses)

Inundaciones regulares de mayor tamaño (Hasta 3 meses)

Inundaciones repentinas (De pocos días a semanas)

Inundaciones urbanas (De días a semanas)

Inundaciones Costeras (Pocos días)

Inundaciones de comienzo lento por lluvias continuas (3-6 meses)

Minería de Datos

La minería de datos, es “un proceso no trivial, novedoso, potencialmente útil y

entendible que integra un conjunto de aéreas y tienen como propósito la identificación de patrones comprensibles que se encuentran

ocultos en los datos”

Redes Neuronales

Neurona BiológicaUna neurona consta de un cuerpo celular el cual tiene un núcleo encargado de procesar

información. De ese cuerpo se desprende una rama principal o axón y varias ramas más

cortas llamadas terminal de axon. Cuando las neuronas se combinan, estas se conectan a través de las terminales y dentritas y forman redes que propagan señales electroquímicas

de unas a otras.

Neurona ArtificialLas neuronas artificiales son modelos que tratan de

simular el comportamiento de las neuronas bilógicas y se modelan mediante unidades de

proceso

Clasificación de la RNA

Según su Tipo de Aprendizaje las redes pueden clasificarse en:

● Aprendizaje Supervisado● Aprendizaje No Supervisado

Aprendizaje Supervisado

Son aquellas RNA que poseen alguna regla de aprendizaje responsable de la modificación de

los pesos sinápticos, en función de los ejemplos de entrada que son presentados a la red. En

otras palabras se puede decir que la red aprende a partir de ejemplos

Aprendizaje No Supervisado

Las redes con aprendizaje no supervisado (auto supervisado) no requieren influencia externa

para ajustar los pesos de las conexiones entre sus neuronas

PerceptrónEs el modelo más simple de red neuronal, en el cual varias unidades de procesamiento están

conectadas únicamente a una unidad de salida a través de los pesos sinápticos.

El Perceptrón básico de dos capas (entrada con neuronas lineales, analógicas, y la de salida con función de activación de tipo escalón, digital) solo pude establecer dos regiones separadas por una

frontera lineal en el espacio de patrones de entrada.

Limitaciones del Perceptrón

Soluciona Problemas linealmente Separables

Incapaz de Resolver Problemas no linealmente separables

Perceptrón Multicapa

El procedimiento Perceptrón Multicapa (MLP) genera un modelo predictivo para una o más variables dependientes (de destino) basada en los valores de las

variables predictoras

Arquitectura del Perceptrón Multicapa

Las Redes Neuronales Artificiales de tipo Perceptrón Multicapa se encuentran entre las arquitecturas de red más poderosas y

populares

Capacidad de Generalización

Es muy importante que una Red Neuronal Artificial posea una buena capacidad de

generalización, esto significa que debe ser capaz de responder adecuadamente a patrones que no fueron contemplados durante el proceso

de entrenamiento

Tamaño de la Capa Oculta

La construcción de una red neuronal tiene una inherente calidad de experimentación, ya que

todas las reglas de estimación para la cantidad de neuronas de la capa oculta no es más que

una ayuda para su estimación

Reglas de Estimación para la Capa Oculta

•  

Algoritmo de Backpropagation

En el Algoritmo Backpropagation el aprendizaje consiste en ajustar todos los pesos de acuerdo a la medida del error entre la salida deseada y

la salida actual

Algoritmo de Backpropagation

Fase Forward •  

Fase Forward •  

Fase Backward•  

Función de Activación

Cómo función de activación se decidió utilizar las funciones de trasferencia más conocidas y utilizadas para las RNA tipo MLP, las cuales son, la función sigmoide

logística y la tangente hiperbólica

Función de Activación•  

Función Objetivo o de Error

•   •  

Validación Cruzada

La validación cruzada tiene por objetivo detener el entrenamiento para evitar el

sobreajuste de los pesos. Para realizar la validación se pueden utilizar las mismas

funciones objetivo que durante el entrenamiento

Verificación del Desempeño

El conjunto de verificación es el que debe ser separado para validar el desempeño del

modelo ajustado

El Problema

El problema específico

Existen varios modelos de análisis hidráulicos los cuales están basados en las redes

neuronales y que permiten la predicción de inundaciones, sin embargo, estos modelos

están preparados para recibir varios patrones de entrada los cuales son distintos a los que

se disponen o no se encuentran configurados de alguna forma en la zona de estudio.

Objetivo

El objetivo es desarrollar una Arquitectura de Red Neuronal Artificial, para predecir crecidas del rio Paraná en la ciudad de

Ayolas. Se pretende asociar los modelos estadísticos actualmente utilizados con la

técnica propuesta y a través de esta última igualar o mejorar la precisión de los

resultados.

Solución PropuestaPredecir el nivel hidrométrico (NH) de la

ciudad de Ayolas utilizando los datos con los que se cuenta actualmente en la zona, que

son el caudal afluente, el caudal descargado, la combinación de los turbinados y los niveles hidrométricos de días anteriores registrados en el DTH como entradas de un modelo de RNA diseñado especialmente para que se

ajuste a todos estos datos y devuelva el NH del río Paraná con un día de anticipación

Metodologías

CRISP-DM

SCRUM

La Solucion

Fase 1Comprensión del

Negocio

Objetivo del Negocio• El objetivo principal del negocio es contar con un sistema que proporcione información anticipada de las variaciones en nivel hidrométrico del río Paraná, en la ciudad de Ayolas.

• Criterio de éxito: El proyecto es considerado exitoso si la predicción puede ser realizada con 24 horas de anticipación y la precisión se encuentra dentro de los márgenes tolerados por el DTH.

Situación Dentro del Departamento Técnico de

Hidrología

En el DTH se realizan las predicciones utilizando un modelo estadístico denominado ARIMA, a partir de niveles hidrométricos y los caudales afluentes y efluentes, registrados en

tres puestos de control situados en las ciudades de Ituzaingo, Ita Ibate y Ayolas

Objetivo de la Minería de Datos• Predecir el nivel hidrométrico de la ciudad de Ayolas utilizando las mediciones del caudal afluente, el caudal de descarga (añacua), el caudal de los turbinados, el caudal del vertedero principal de la presa y el caudal efluente, registrados en la CHY como entradas de un modelo de RNA diseñada especialmente para este propósito durante la etapa de modelado.

• Criterios de éxito: Se satisface el objetivo de la minería de datos si se constata que el margen de error de las predicciones hechas durante la etapa de verificación del desempeño de la RNA son iguales o menores a los establecidos durante el diseño de prueba.

Fase2Comprensión de Datos

Niveles Hidrométricos

Caudales Afluentes

Caudales Efluentes

Exploración y Verificación de la Calidad de los Datos

Luego de comprobar criterios como la cobertura de datos, el significado de los mismos, la plausibilidad

de los datos, fue realizada una revisión de la inconsistencia y búsqueda de ruido. Los registros

de los diferentes caudales no poseen inconsistencias ni ruido, son completos y guardan un orden cronológico. Sin embargo el registro de los niveles hidrométricos presenta datos faltantes

Fase 3Preparación de los Datos

Selección de los Datos

Los datos que fueron utilizados son los caudales afluentes, caudales efluentes, caudales de descarga, caudales del turbinado y niveles

hidrométricos de la ciudad de Ayolas desde 01 de septiembre de 1994 hasta el 21 de julio de 2011.

Datos FaltantesEl archivo de niveles hidrométricos presentaba

una gran cantidad de datos faltantes en los últimos 6 meses del año 2001 por lo que

teniendo en cuenta la opinión del experto y haciendo referencia al método de suprimir los casos (filas) que peor se comportan, descrito

en la sección de problemas de datos, se excluyen todos los registros pertenecientes al

año 2001

Datos Faltantes 2002

Estructuración de los Datos

Conjuntos de Datos• Relleno Mediana 1x1 Sin Lag • Relleno Mediana 1x1 con lag de 3 días• Relleno Mediana 1x1 con lag de 5 días• Relleno Mediana 1x1 con lag de 7 días• Relleno Mediana 3x1 Sin Lag• Relleno Mediana 3x1 con lag de 3 días• Relleno Mediana 3x1 con lag de 5 días• Relleno Mediana 3x1 Lag 7• Relleno Mediana 4x1 Sin Lag• Relleno Mediana 4x1 con lag de 3 días• Relleno Mediana 4x1 con lag de 5 días• Relleno Mediana 4x1 Lag 7

Fase 4 Modelado

Selección Técnicas de Modelado

Entre las distintas técnicas de modelado disponibles se escogió el MLP para predecir las inundaciones causadas por el río Paraná

en la ciudad de Ayolas, debido a que son capaces de modelar procesos complejos a

partir de ejemplos del proceso que se quiere representar.

Elección del Número de Capas

• Teniendo en cuenta que no existe una regla que permita anticipar el número de capas ocultas y la cantidad de neuronas para cada una de ellas.

• Y el objetivo de disminuir la cantidad de pruebas innecesarias, tomamos en cuenta las regiones de decisión formadas por los MLP de acuerdo a su número de capas.

Formas de regiones generadas por un Perceptrón Multicapa

Elección de Número de Neuronas en la Capa Oculta

• Teniendo en cuenta que cuanto más complejo sea el problema a modelar, mayor será también el número de neuronas necesarias en la capa oculta.

• Según Kolmogórov : “El número de neuronas en la capa oculta debe ser como máximo dos veces el número de entradas”

Reglas de Generalización Seleccioanadas

•Regla de la pirámide geométrica•2N-N/2 y N/2•Regla de la capa oculta – capa entrada•Basado en Algoritmos Genéticos•Entrada-Capas•Reglas Generales: (N+H)*2/3

Función de Activación

Cómo función de activación se decidió utilizar las funciones de trasferencia más conocidas y utilizadas para las RNA tipo MLP, las cuales son, la función sigmoide

logística y la tangente hiperbólica.

Construcción del Modelo y Verificación

• Se desarrolló una herramienta computacional para el entrenamiento, prueba y verificaición del modelo seleccionado, para el caso de estudio.

• El motivo por el cual hemos desarrollado nuestra propia herramienta para implementar este modelo, se debe a que en el mercado actual, las herramientas existentes son muy complejas de utilizar por un usuario que no sea experto en el área.

Entrenamiento y Validación

Prototipo de Interfaz para la implementación

Parámetros del Prototipo• Niveles Hidrométricos: Bloque donde se introducen los Niveles Hidrométricos

• Caudales: Bloque donde se introducen los caudales• Modelo: En este bloque se selecciona el modelo para el caso

• Resultado: En este bloque se muestra el Resultado de la predicción

• Al darle “Play” se crea una instancia del MLP que se encarga de realizar la predicción.

Pruebas y resultados

Tabla Conceptual

Prueba 1

Pruebas de Validación Cruzada

Grupos de Datos

• Función lineal, regla pirámide geométrica

• Función lineal, regla capa entrada

• Función lineal, regla Capa Número

• Función sigmoide , regla pirámide geométrica

• Función sigmoide , regla capa entrada

• Función sigmoide , regla Capa Número

• Función Hiperbólica , regla pirámide geométrica

• Función Hiperbólica, capa entrada

• Función Hiperbólica, regla Capa Número

• Cantidad de Registros: 3500

Parámetro de la Prueba 1

Ciclos=50I.D.A 0.2, 0.5, 0.7

Funciones de Activación:Función LinealFunción SigmoideFunción Tangente Hiperbólica

TopologíaPirámide Geométrica Capa Entrada Capa número

Archivos de Salida.

Gráficos Representativos

EMQ 1 EMQ 2

EMQ 3 EMQ 4

Filtrado de Modelos en la Prueba 1

Se obtuvieron 350 ficheros con los resultados de las pruebas

Conclusiones de la Prueba 1• Las funciones lineales NO son aplicables en la predicción.

• Los errores en la validación representados en el gráfico EMQ 4 se deben a que la razón o índice de aprendizaje posee un valor elevado.

• 50 ciclos no son suficientes para una adecuada evaluación de la curva de aprendizaje.

• Son necesarios otros índices de error además del Error Medio Cuadrático para una mejor evaluación de cada resultado obtenido en las pruebas.

Prueba 2

Consideraciones• Excluir del entrenamiento la función lineal.• Realizar pruebas con índices de aprendizajes más pequeños para mejorar la búsqueda del menor.

• Aumentar la cantidad de ciclos a 100 o 200 ciclos dependiendo del caso.

• A partir de esta etapa registrar los cinco índices de error mencionados al principio de éste capítulo por cada prueba realizada (EMQ, EP, EPMA, CR, EMA).

Gráficos de Funciones Objetivo

Filtrado de Modelos Para la Prueba 2

Pruebas 3 y 4Se realizaron siguiendo el mismo plan de pruebas que en las anterioes. Filtrando en cada interación de acuerdo a los criterios

mecionados.

Filtrado de modelos para la prueba 3

Filtrado de modelos para la prueba 4

Prueba 5• En la Prueba 5 decidimos probar las topologías basadas en Hetch Nielsen, Algoritmos genéticos y la Regla General para el cálculo de la cantidad de neuronas de la capa oculta con los datos pertenecientes a la mediana 1x1.

• Al evaluar estos resultados observamos que ninguno ofrecía un mejor rendimiento que los observados en las pruebas anteriores.

Filtrado de Modelos para la Prueba 5

Resultados de las pruebas de validación cruzada

Pruebas de VerificaciónAl ejecutar la verificación en la herramienta con los parámetros del modelo a ser verificado, se obtienen archivos que contienen las salidas

obtenidas.zoVerificacion-ciclo28-patron322.csv

Finalmente se crea una hoja de cálculo para comparar la salida obtenida con la salida

esperada y se generan gráficos.

Serie completa de datos de Verificación

Ilustración 28 se observa el comportamiento del Río Paraná a lo largo de 1132 días

Promedio de Errores en la Etapa de Verificación

Evaluación General

Evaluación de los Resultados

La evaluación del modelo final se realizó primeramente a través de los gráficos comparativos de las pruebas de verificación, teniendo en cuenta el

criterio de éxito de centímetros

Luego, la evaluación final del modelo escogido fue realizada conjuntamente con la opinión del experto,

quién valido positivamente el modelo propuesto

Parámetros Utilizados para llegar al modelo

Series Temporales Estacionarias

● Lag: 3● Función de Transferencia: Función

Sigmoide● Topología: Pirámide Geométrica● I.D.A: 0,02

Series Temporales Con Variabilidad Rápida del

Caudal● Lag: 3

● Función de Transferencia: Tangente Hiperbólica

● Topología: Pirámide Geométrica● I.D.A: 0,2

Series Temporales Estacionarias

● Lag: 3● Función de Transferencia: Tangente

Hiperbólica● Topología: Pirámide Geométrica● I.D.A: 0,2

Método de Imputación

El método de imputación que dio los mejores resultados en todas las pruebas fue el de la

mediana calculada con un vector 4x1

Revisión del Proceso

Series Temporales Estacionarias

● Perceptrón Multicapa con función sigmoide como función de transferencia, con nueve (9) neuronas en la capa de entrada, tres neuronas en la capa oculta y una neurona en la capa de salida.

● Para el entrenamiento debe utilizarse un índice de aprendizaje de 0,002 y la red queda ajustada (entrenada) en la iteración número 83

Series Temporales Estacionarias

● Perceptrón Multicapa con función tangente hiperbólica como función de transferencia, con nueve (9) neuronas en la capa de entrada, tres neuronas en la capa oculta y una neurona en la capa de salida.

● Para el entrenamiento debe utilizarse un índice de aprendizaje de 0,2 y la red queda ajustada (entrenada) en la iteración número 60.

Series Temporales Estacionarias

Serie Completa de la prueba de verificación hecha al modelo propuesto

Series Temporales Estacionarias

Comportamiento del modelo propuesto con 400 días de medición

Series Temporales con Variabilidad Rápida del Caudal

● Perceptrón Multicapa con función tangente hiperbólica como función de transferencia, con nueve (9) neuronas en la capa de entrada, tres neuronas en la capa oculta y una neurona en la capa de salida.

● Para el entrenamiento debe utilizarse un índice de aprendizaje de 0,2 y la red queda ajustada (entrenada) en la iteración número 60.

Series Temporales con Variabilidad Rápida del Caudal

● Una vez entrenado el modelo posee un índice de incertidumbre de ±0,1 cm a 10cm, en los días de lluvias intensas o grandes vertidas

● Es un modelo maximista y el que mejor responde ante los casos de inundación con caudal acelerado.

Series Temporales con Variabilidad Rápida del Caudal

Serie Completa de la prueba de verificación hecha al modelo maximista

Series Temporales con Variabilidad Rápida del Caudal

Serie Completa de la prueba de verificación hecha al modelo maximista

Series Temporales con Variabilidad Rápida del Caudal

Comportamiento del modelo propuesto frente los casos de inundación

Matriz de Confusión

Resumen de Evaluación

Para ambos modelos, inundación regular e inundación acelerada, la arquitectura propuesta, es un MLP compuesta por 9 neuronas en la capa de

entrada, 3 neuronas en la capa oculta y una neurona en la capa de salida, utilizando diferentes

funciones de activación y alfa dependiendo del caso como explicamos en la secciones anteriores.

Resumen de Evaluación

Conclusiones.

• La arquitectura propuesta posee 9 neuronas en la capa de entrada, 3 neuronas en la capa oculta, la cual es generada mediante la regla de aproximación de Pirámide Geométrica y 1 neurona en la capa de salida.

• Para series temporales con caudales estacionarios, esta arquitectura debe ser entrenada con un índice de aprendizaje de 0,02 y utilizar la Función Sigmoide Logística como función de transferencia

• Para series temporales con variabilidad rápida en el caudal, la misma arquitectura debe ser entrenada con un índice de aprendizaje de 0.2 y como función de transferencia utilizar la función Tangente Hiperbólica.

• Metodo de Impuación recomendado: Mediana 4x1

El criterio de éxito determinado al principio del trabajo fue un error de ±10cm. y el mejor promedio de errores obtenidos para los casos de inundaciones cuando existe una variabilidad rápida de caudales fue de 1cm a 10 cm aproximadamente y 3cm para las series estacionarias durante las cuales el incremento del nivel hidrométrico se da gradualmente.

Mediante el desarrollo de la herramienta adquirimos un profundo conocimiento del funcionamiento de las Redes Neuronales

La herramienta software para realizar las pruebas que a diferencia de las existentes en el mercado es sencilla y no requiere de un conocimiento profundo de las cuestiones técnicas que atañen a los aspectos hidrológicos o conocimientos técnicos de informática

No se ajusta a los casos en los cuales se da un incremento repentino del caudal causado por la apertura de las compuertas del vertedero de la represa, ya que esta es una operación técnica que se maneja según el manual de operaciones del embalse y no posee una periodicidad.

Finalmente podemos concluir que la Arquitectura de Red Neuronal Perceptrón Multicapa desarrollada para predecir inundaciones causadas por el Río Paraná en la ciudad de Ayolas satisface plenamente el objetivo del presente trabajo ya que logramos obtener iguales o mejores resultados que las técnicas estadísticas utilizadas actualmente tal como se comprobó durante las pruebas de verificación y a su vez validando los mismos con el Jefe del Departamento Técnico de Hidrología de la Central Hidroeléctrica Yacyreta

Trabajos Futuros

• Desarrollo de una arquitectura que incluya otras variables, tales como los factores climáticos, a los datos de entrada de la red para crear un modelo genérico para todos los casos de variación de caudal.

• Entrenar la red con los niveles hidrométricos de las zonas de Itaibaté e Ituzaingó que se encuentran sobre la ribera del río Paraná y se ven afectadas en forma inmediata por las vertidas de la CHY para poder predecir inundaciones en esas zonas.

• Utilización de otras técnicas de imputación durante el proceso de preparación de los datos para evaluar el impacto sobre los resultados obtenidos con la arquitectura propuesta.

• Construcción de una arquitectura que posea más neuronas en la capa de salida para realizar pronósticos a un plazo mayor de 24 horas.

• Generalizar el modelo para que sea aplicable a todas las zonas donde existan represas

¿Preguntas?

Muchas Gracias por su atención.