A. Cravero, O. Saldaña, R. Espinosa, C. Antileo · grandes de una amplia variedad de datos al...

7
Abstract— The combination of growth in demand for water, climate and hydrological gap, pushed the decision makers and water resource managers to search strategies for effective management of water resources. In this sense, the new generation of Business Intelligence technologies, known as Big Data, allows mass processing of complex data on a large scale. In recent years, several solutions have been proposed for management issues of water resources in general using Big Data. In this paper we provide an overview of proposed architectures features, serving as a starting point for further research. KeywordsBig Data; architecture; water; resources; systematic mapping. I. INTRODUCCIÓN os recursos hídricos son el punto de partida para la vida en todas las especies que viven en nuestro planeta. La mayoría de los seres vivos necesitan agua dulce, pero sólo el 0,3% del agua que está en el planeta está catalogado como agua potable [1]. La demanda de agua ha aumentado [2] debido al crecimiento de la población como consecuencia del desarrollo económico, mientras que en varias regiones sufren de inundaciones y de sequía, lo que lleva a la mala gestión de los recursos hídricos. Por otra parte, el cambio climático ejerce un gran impacto en los sistemas de agua causando grandes cambios en los recursos hídricos debido a sus efectos directos sobre los procesos hidrológicos como la precipitación, evaporación y humedad. La combinación de un crecimiento en la demanda de agua, el clima y la brecha hidrológica empujó a los tomadores de decisiones y los gestores de los recursos hídricos para buscar estrategias para la gestión eficaz de los recursos hídricos [3]. 1 Para lograr este beneficio se requiere aumentar la capacidad de las Tecnologías de Información y Comunicación (TIC) con el fin de ayudar a resolver muchos tipos de problemas que la gestión del agua enfrenta actualmente. En este sentido, el desarrollo de la economía social y la tecnología ha ampliado el campo de servicios de datos de los recursos hídricos, así como el desarrollo y la aplicación de RS, GIS, GPS, IOT y otras tecnologías modernas de recogida de información que consideran el tipo espacial y temporal de los datos, generando un fuerte aumento del volumen y tipos de datos que son almacenados en clusters [4], u otras tecnologías 1 A. Cravero. Depto. Cs Computación e Informática, CEIS, Universidad de la Frontera. Chile. [email protected] O. Saldaña, Depto. Cs Computación e Informática, CEIS, Universidad de la Frontera. Chile. [email protected] R. Espinosa. Depto. Cs Computación e Informática, CEIS, Universidad de la Frontera. Chile. [email protected] C. Antileo. Departamento de Ciencias Químicas. GECETco. Universidad de la Frontera. Corresponding author: Ania Cravero como el cloud computing [5]. Según Mocanu et al. (2013), hay varios desafíos relacionados con el desarrollo de TIC para la gestión del agua de hoy en día [4]: - La cantidad de datos crece progresivamente, por lo que se necesitan métodos para gestionar grandes volúmenes de datos; - Los datos provienen de muchos sistemas heredados que recogen y procesan la información (por ejemplo, con respecto a los ríos afluentes, o su afluente) por lo que a menudo tienen que componer las aplicaciones existentes. - La zona geográfica para el análisis es amplia. - Los datos son de distinto tipo, lo que hace el análisis de los mismos, más complejo. En este sentido, pensado en una nueva tecnología que permita el procesamiento de datos a gran escala, con una estructura compleja y un conjunto de datos de distintos tipos, estructurados y semi-estructurados, es que sale a la luz lo que se conoce hoy como Big Data [6]. Gartner [7] define Big Data como “un volumen de datos muy grande y de alta velocidad, y/o son los activos de información de alta variabilidad que requieren nuevas formas de procesamiento para mejorar la toma de decisiones, los descubrimientos, y la optimización de los procesos". Posteriormente Demchenko et al. (2013) propusieron una nueva definición que incluye las siguientes propiedades conocidas como las 5V: Volumen, Velocidad, Variedad, que constituyen las propiedades originales de Big Data; y agregan el Valor y Veracidad como resultado de la clasificación inicial y procesamiento de datos en el contexto de un proceso o modelo específico [8]. Como resultado del análisis de las prácticas existentes en las diferentes comunidades científicas y dominios tecnológicos de la industria, se ha propuesto una arquitectura básica para Big Data, que considera los siguientes componentes o bloques: (1) identificación de las fuentes de datos, (2) almacenamiento; (3) clasificación y filtrado, (4) análisis, (5) visualización, (6) análisis por los tomadores de decisiones [8]. Estos componentes, son la base de cualquier arquitectura que se diseñe. Hasta el momento, no existe una estrategia común para el diseño de arquitecturas de sistemas de Big Data para la administración de recursos hídricos. Sin embargo en los últimos años se han propuesto algunas soluciones que permiten mejorar la toma de decisiones. El objetivo de este estudio es ofrecer una visión general sobre las características de las arquitecturas propuestas para la mejora en la administración de los recursos hídricos, sirviendo como punto de partida para futuras investigaciones. La metodología utilizada para la selección de los trabajos es el mapeo sistemático [9]. El mapeo sistemático de estudios es una metodología utilizada frecuentemente en la Big Data Architecture for W ater Resources Management: A Systematic Mapping Study A. Cravero, O. Saldaña, R. Espinosa, C. Antileo L 902 IEEE LATIN AMERICA TRANSACTIONS, VOL. 16, NO. 3, MARCH 2018

Transcript of A. Cravero, O. Saldaña, R. Espinosa, C. Antileo · grandes de una amplia variedad de datos al...

Page 1: A. Cravero, O. Saldaña, R. Espinosa, C. Antileo · grandes de una amplia variedad de datos al permitir la captura ... Las cadenas de búsqueda básicas se construyeron a partir de

Abstract— The combination of growth in demand for water, climate and hydrological gap, pushed the decision makers and water resource managers to search strategies for effective management of water resources. In this sense, the new generation of Business Intelligence technologies, known as Big Data, allows mass processing of complex data on a large scale. In recent years, several solutions have been proposed for management issues of water resources in general using Big Data. In this paper we provide an overview of proposed architectures features, serving as a starting point for further research.

Keywords— Big Data; architecture; water; resources;

systematic mapping.

I. INTRODUCCIÓN os recursos hídricos son el punto de partida para la vida en todas las especies que viven en nuestro planeta. La mayoría de los seres vivos necesitan agua dulce, pero sólo

el 0,3% del agua que está en el planeta está catalogado como agua potable [1]. La demanda de agua ha aumentado [2] debido al crecimiento de la población como consecuencia del desarrollo económico, mientras que en varias regiones sufren de inundaciones y de sequía, lo que lleva a la mala gestión de los recursos hídricos. Por otra parte, el cambio climático ejerce un gran impacto en los sistemas de agua causando grandes cambios en los recursos hídricos debido a sus efectos directos sobre los procesos hidrológicos como la precipitación, evaporación y humedad. La combinación de un crecimiento en la demanda de agua, el clima y la brecha hidrológica empujó a los tomadores de decisiones y los gestores de los recursos hídricos para buscar estrategias para la gestión eficaz de los recursos hídricos [3].

1Para lograr este beneficio se requiere aumentar la capacidad de las Tecnologías de Información y Comunicación (TIC) con el fin de ayudar a resolver muchos tipos de problemas que la gestión del agua enfrenta actualmente. En este sentido, el desarrollo de la economía social y la tecnología ha ampliado el campo de servicios de datos de los recursos hídricos, así como el desarrollo y la aplicación de RS, GIS, GPS, IOT y otras tecnologías modernas de recogida de información que consideran el tipo espacial y temporal de los datos, generando un fuerte aumento del volumen y tipos de datos que son almacenados en clusters [4], u otras tecnologías

1 A. Cravero. Depto. Cs Computación e Informática, CEIS, Universidad de

la Frontera. Chile. [email protected] O. Saldaña, Depto. Cs Computación e Informática, CEIS, Universidad de

la Frontera. Chile. [email protected] R. Espinosa. Depto. Cs Computación e Informática, CEIS, Universidad

de la Frontera. Chile. [email protected] C. Antileo. Departamento de Ciencias Químicas. GECETco. Universidad

de la Frontera. Corresponding author: Ania Cravero

como el cloud computing [5]. Según Mocanu et al. (2013), hay varios desafíos

relacionados con el desarrollo de TIC para la gestión del agua de hoy en día [4]:

- La cantidad de datos crece progresivamente, por lo que se necesitan métodos para gestionar grandes volúmenes de datos;

- Los datos provienen de muchos sistemas heredados que recogen y procesan la información (por ejemplo, con respecto a los ríos afluentes, o su afluente) por lo que a menudo tienen que componer las aplicaciones existentes.

- La zona geográfica para el análisis es amplia. - Los datos son de distinto tipo, lo que hace el análisis de

los mismos, más complejo. En este sentido, pensado en una nueva tecnología que

permita el procesamiento de datos a gran escala, con una estructura compleja y un conjunto de datos de distintos tipos, estructurados y semi-estructurados, es que sale a la luz lo que se conoce hoy como Big Data [6]. Gartner [7] define Big Data como “un volumen de datos muy grande y de alta velocidad, y/o son los activos de información de alta variabilidad que requieren nuevas formas de procesamiento para mejorar la toma de decisiones, los descubrimientos, y la optimización de los procesos". Posteriormente Demchenko et al. (2013) propusieron una nueva definición que incluye las siguientes propiedades conocidas como las 5V: Volumen, Velocidad, Variedad, que constituyen las propiedades originales de Big Data; y agregan el Valor y Veracidad como resultado de la clasificación inicial y procesamiento de datos en el contexto de un proceso o modelo específico [8].

Como resultado del análisis de las prácticas existentes en las diferentes comunidades científicas y dominios tecnológicos de la industria, se ha propuesto una arquitectura básica para Big Data, que considera los siguientes componentes o bloques: (1) identificación de las fuentes de datos, (2) almacenamiento; (3) clasificación y filtrado, (4) análisis, (5) visualización, (6) análisis por los tomadores de decisiones [8]. Estos componentes, son la base de cualquier arquitectura que se diseñe.

Hasta el momento, no existe una estrategia común para el diseño de arquitecturas de sistemas de Big Data para la administración de recursos hídricos. Sin embargo en los últimos años se han propuesto algunas soluciones que permiten mejorar la toma de decisiones. El objetivo de este estudio es ofrecer una visión general sobre las características de las arquitecturas propuestas para la mejora en la administración de los recursos hídricos, sirviendo como punto de partida para futuras investigaciones.

La metodología utilizada para la selección de los trabajos es el mapeo sistemático [9]. El mapeo sistemático de estudios es una metodología utilizada frecuentemente en la

Big Data Architecture for Water Resources Management: A Systematic Mapping Study

A. Cravero, O. Saldaña, R. Espinosa, C. Antileo

L

902 IEEE LATIN AMERICA TRANSACTIONS, VOL. 16, NO. 3, MARCH 2018

Page 2: A. Cravero, O. Saldaña, R. Espinosa, C. Antileo · grandes de una amplia variedad de datos al permitir la captura ... Las cadenas de búsqueda básicas se construyeron a partir de

investigación médica, la que ha sido adaptado para su uso en el área de TIC [10].

El documento se estructura de la siguiente manera. La sección II presenta los conceptos básicos utilizados en el trabajo. La sección III describe las actividades realizadas en el mapeo sistemático realizado. La sección IV describe el análisis de los estudios con respecto a las preguntas de investigación. Finalmente, la sección V contiene las conclusiones.

II. CONCEPTOS BÁSICOS En esta sección se explican tres conceptos básicos,

necesarios para comprender el trabajo, definición de Big Data, la arquitectura básica de Big Data, y método de mapeo sistemático de estudios.

Big Data Una definición conocida de Big Data es la siguiente: "Una

nueva generación de tecnologías y arquitecturas diseñadas para extraer económicamente el valor de volúmenes muy grandes de una amplia variedad de datos al permitir la captura de alta velocidad, el descubrimiento y/o análisis" [11].

Posteriormente Demchenko et al. (2013, 2014) explica que no existe una definición consistente de Big Data. Los autores propusieron una nueva definición que incluye las siguientes propiedades conocidas como las 5V: Volumen, Velocidad, Variedad, que constituyen las propiedades originales de Big Data; y agregan el Valor y Veracidad como resultado de la clasificación inicial y procesamiento de datos en el contexto de un proceso o modelo específico [8]. Explican que Big Data no es sólo una base de datos o un problema Hadoop, sino que es todo el conjunto de componentes, o arquitectura, para almacenar, procesar, visualizar y entregar resultados para orientar las aplicaciones. Según los mismos autores, este conjunto de componentes interrelacionados se puede definir como el Ecosistema Big Data que se ocupa de la evolución de los datos, los modelos e infraestructura de apoyo durante todo el ciclo de vida de Big Data [12].

Arquitectura de Big Data Como resultado del análisis de las prácticas existentes en

las diferentes comunidades científicas y dominios tecnológicos de la industria, se ha propuesto el modelo del Big Data Lifecycle Management (BDLM) (ver Figura 1), que es el enfoque necesario para la gestión y procesamiento de los datos grandes [8].

La Fig. 1 describe el proceso general que se debe llevar a cabo a la hora de crear un proyecto de Big Data. El proceso se inicia con la identificación de las fuentes desde donde se extraerán los datos útiles. A continuación, los datos son almacenados en alguno de los modelos de datos diseñados, de acuerdo a si son datos estructurados o no. En el siguiente paso, los datos se clasifican y se filtran de acuerdo al tipo de análisis que se desee realizar. Los datos clasificados son analizados utilizando herramientas adecuadas para ello; ejemplo de ello,

son las de minería de datos, las de OLAP, y las de ciencias en general. Los datos obtenidos deben ser presentados con alguna herramienta de visualización. Finalmente los datos son analizados por los tomadores de decisiones [12].

Figura 1: Ciclo de vida del Ecosistema de Big Data [8].

Mapeo Sistemático de Estudios La técnica de mapeo sistemático (conocido como

systematic mapping) define un proceso y una estructura de informe que permite categorizar los resultados que han sido publicados hasta el momento en un área determinada [13].

El objetivo de un mapeo sistemático está en la clasi-ficación, y está por tanto dirigido al análisis temático y a la identificación de los principales foros de publicación. Permite responder preguntas genéricas como ¿Qué es lo que se ha hecho hasta el momento en el campo X? Como limitación, este tipo de estudios no toma en consideración la calidad de los estudios incluidos.

El proceso de mapeo sistemático consiste en las siguientes etapas: (i) definición de las preguntas de investigación, (ii) ámbito de la revisión, (iii) ejecución de la búsqueda, (iv) selección de estudios, (v) filtrado de estudios, (vi) clasifi-cación, (vii) extracción de datos, (viii) y mapa sistemático [13].

III. ACTIVIDADES DESARROLLADAS EM EL MAPEO SISTEMÁTICO

De acuerdo al proceso de mapeo sistemático descrito anteriormente, a continuación, se describen las actividades realizadas en cada etapa que se llevó a cabo.

Definición de las preguntas de investigación Las siguientes Preguntas de Investigación (PI) se definieron

de acuerdo al objetivo planteado en este estudio y a lo recomendado por [14]. PI1: ¿Qué arquitecturas de Big Data se han diseñado para solucionar problemas de recursos hídricos? PI2: ¿Cuáles son los componentes definidos en las diversas arquitecturas de Big Data encontradas? PI3: ¿Cuáles son las tecnologías o herramientas utilizadas en la implementación del Big Data? PI4: ¿Qué ámbito es el más utilizado al momento de aplicar la investigación, la academia o la industria? PI5: ¿Qué tipo de estudios se están utilizando (ejemplos, casos

CRAVERO et al.: BIG DATA ARCHITECTURE FOR WATER 903

Page 3: A. Cravero, O. Saldaña, R. Espinosa, C. Antileo · grandes de una amplia variedad de datos al permitir la captura ... Las cadenas de búsqueda básicas se construyeron a partir de

de estudio, experimentos, encuestas, otros)?

Ámbito de la revisión

El alcance se definió de acuerdo a lo recomendado por [14], como sigue: Población: Investigadores y Académicos que trabajan en temas relacionados con los recursos hídricos. Intervención: Cualquier estudio que describe arquitecturas de Big Data utilizadas en problemas de recursos hídricos. Diseño del estudio: aplicaciones en la industria o ejemplos académicos. Resultado: componentes y herramientas utilizadas en las arquitecturas.

Ejecución de la búsqueda La estrategia de búsqueda consistió en expresiones

booleanas formadas por las siguientes palabras claves (en inglés): "big data", “bigdata”, architecture, "water resources", "water management" y water, las cuales se generaron a partir de las preguntas creadas. Las cadenas de búsqueda básicas se construyeron a partir de las palabras claves mencionadas. Algunos de los términos fueron desglosados en expresiones booleanas de tipo OR y AND.

Por otro lado la selección de las fuentes de datos todas fueron digitales. Se seleccionaron estas fuentes, ya que incluyen motores de búsquedas y los artículos que ofrecen son de calidad, además son accesibles vía web. Las fuentes donde se aplicó la búsqueda fueron Google Scholar, IEEE Digital Library, ACM Digital Library, ScienceDirect y Springer.

En IEEE se encontraron 3 trabajos, y en Schoolar Google 1 trabajo. En la tabla I se presenta un resumen de estos resultados.

TABLA I.

RESULTADOS DE LA BÚSQUEDA Y FILTRADO.

Motor de Búsqueda IEEE ACM Science Direct

Springer Schoolar Google

Resultados de la búsqueda 15 20 6 12 980 Candidatos 6 3 8 9 30 Trabajos seleccionados 3 0 0 0 4

Selección de estúdios La selección de los estudios se ha formulado basada en los

siguientes criterios de inclusión/exclusión. (i) Inclusión: (1) trabajos de investigación escritos en inglés o español, que provienen de revistas o congresos, y que describan una arquitectura de Big Data utilizada para problemas de administración de recursos hídricos, y (2) trabajos publicados hasta el año 2016. (ii) Exclusión: (1) Documentos, y trabajos que tratan sobre problemas de recursos hídricos, pero que no describen la arquitectura de Big Data utilizada, y (2) trabajos que son reportes o revisiones sobre tecnologías aplicadas a los recursos hídricos. Para seleccionar los trabajos de investigación, en primera instancia utilizamos el criterio de inclusión para hacer análisis sobre el título, resumen y palabras claves, obteniendo de esta

manera el mayor número de trabajos que aportan contribuciones significativas sobre el uso de Big Data en problemas de recursos de hídricos. En segunda instancia utilizamos el criterio de exclusión donde nos centramos principalmente en el resumen, introducción y conclusiones, analizando un poco más aquellos trabajos que lo requerían para asegurarnos realmente de que eran relevantes para el campo de estudio.

Filtrado de estúdios El proceso de selección consta de tres etapas realizadas

secuencialmente por tres revisores. En la primera etapa, cada revisor aplicó los criterios de inclusión y exclusión para el título, resumen y palabras clave por 10 trabajos seleccionadas de forma aleatoria. Como medio de validación de concordancia entre los investigadores se aplicó el índice Kappa de Fleiss propuesto por Gwet [15], obteniendo una fiabilidad del 83%. En la siguiente etapa, cada revisor aplicó los mismos criterios a un conjunto de artículos que se le asignó, que ahora incluye la introducción y la conclusión, obtenido un conjunto de trabajos candidatos (ver segunda fila de la tabla I). En la tercera etapa, fueron analizados los trabajos candidatos. De esta manera se obtuvo un total de 4 estudios primarios para el mapeo (ver tercera fila de la tabla I).

La tabla 2 presenta la lista de estudios primarios seleccionados.

TABLA II.

ESTUDIOS PRIMARIOS SELECCIONADOS.

Autores Título Año Conferencia Ciolofan, Sorin N and Mocanu, Mariana and Ionita, Anca

Distributed cyberinfrastructure for decision support in risk related environments

2013 IEEE 12th International Symposium on Parallel and Distributed Computing

Dmitriyev, Viktor and Gómez, Jorge Marx and Osmers, Manuel

Big Data Inspired Water Management Platform for Sensor Data

2015 INFORMATIK

Ai, Ping and Yue, Zhaoxin and Yuan, Dingbo and Liao, Hengli and Xiong, Chuansheng

A Scene Analysis Model for Water Resources Big Data

2015 IEEE 14th International Symposium on Distributed Computing and Applications for Business Engineering and Science (DCABES)

Chalh, Ridouane and Bakkoury, Zohra and Ouazar, Driss and Hasnaoui, Moulay Driss

Big data open platform for water resources management

2015 IEEE International Conference on Cloud Technologies and Applications (CloudTech)

Esquema de clasificación

Una vez seleccionadas las publicaciones relevantes se definieron, en base a los objetivos del estudio, seis tipos de clasificaciones:

904 IEEE LATIN AMERICA TRANSACTIONS, VOL. 16, NO. 3, MARCH 2018

Page 4: A. Cravero, O. Saldaña, R. Espinosa, C. Antileo · grandes de una amplia variedad de datos al permitir la captura ... Las cadenas de búsqueda básicas se construyeron a partir de

(i) Tipo artículo: es el tipo de artículo encontrado, que puede ser revista o conferencia. (ii) Componentes de la arquitectura: Son todos los bloques que componen la arquitectura de Big Data para que pueda operar como un sistema. (iii) Tecnologías: son todas las tecnologías o herramientas que fueron utilizadas para conformar la arquitectura. Éstas las podemos subclasificar en tecnologías para: almacenar como Hadoop y RSGBD, analizar y visualizar los datos como es el caso de Pentaho BI. (iv) Ámbito de aplicación: el área donde se desarrolla la investigación, o donde apuntan los autores para aplicar su investigación, que puede ser la academia o la industria. Academia, esta clasificación es para aquellas publicaciones que dirigen su esfuerzo en realizar nuevas investigaciones y/o desarrollo de nuevas ideas. Industria, en este estudio esta clasificación corresponde a los trabajos que aplican su investigación en alguna organización (con o sin fines de lucro). (v) Tipo de investigación: Los tipos de investigación, pueden ser: caso de estudio, experimento, y ejemplo.

Extracción de datos y Mapeo Sistemático Tras definir el esquema de clasificación, el último paso del

mapeo sistemático consiste en la extracción de datos y el proceso de mapeo de las distintas dimensiones. El resultado completo de esta actividad se muestra en la siguiente sección. El resultado sintetizado de nuestro estudio se puede observar de manera gráfica en el diagrama de burbuja de la Fig. 2.

La Fig. 2 ilustra básicamente dos diagramas de dispersión XY con burbujas en las intersecciones de categoría, que permite tener en cuenta varias categorías al mismo tiempo y da una visión general rápida de un campo de estudio, proporcionando un mapa visual. En esta visualización de los resultados, el tamaño de una burbuja es proporcional al número de artículos que están en el par de categorías que correspondan a las coordenadas de la burbuja.

Figura 2. Diagrama de burbuja

En la Fig. 2 se puede observar la distribución de los

trabajos por tecnología utilizada, y por tipo de aplicación, versus el tipo de contribución.

En la siguiente sección se describe el análisis de los trabajos seleccionados.

IV. ANÁLISIS COMPARATIVO Y DISCUSIÓN A continuación damos respuesta a las preguntas de

investigación formuladas en la sección III a través de los resultados obtenidos.

PI1: ¿Qué arquitecturas de Big Data se han diseñado

para solucionar problemas de recursos hídricos? La metodología de mapeo sistemático permitió encontrar 4

artículos de conferencias en las que se describen arquitecturas de Big Data para solucionar problemas de administración de recursos hídricos. A continuación se resume cada una de ellas:

(i) Arquitectura propuesta por Ciolofan et al. (2013)[16]

Los autores presentan una solución particular de Big Data para apoyar la toma de decisiones en casos de contaminación de los recursos hídricos. El sistema lo nombraron Cyberinfrastruture o CIWRM, diseñado como un sistema basado en la tecnología cloud que incluye almacenamiento de datos distribuidos.

El Big Data está integrado con una aplicación SIG para presentar el grado de contaminación en un cuerpo de agua sobre un mapa de manera intuitiva (como el uso de iconos de colores codificados). Se estudian factores de riesgo relacionados con las precipitaciones, la contaminación, y los residuos domésticos.

El objetivo del Big Data, es que los tomadores de decisiones puedan evitar, mitigar o simplemente ser conscientes de los riesgos que se pueden alcanzar en casos de contaminación. (ii) Arquitectura propuesta por Dmitriyev et al. (2015) [17]

El trabajo de los autores tiene como objetivo demostrar la utilidad de una arquitectura de Big Data para ampliar el potencial en la gestión del agua, en particular, la arquitectura aborda los siguientes requisitos: (a) consolidar los datos de sensores y del acontecimiento, (b) ofrecer análisis interactivos y la presentación de informes normalizados, (c) ofrecer un enfoque de componentes conectables.

Por otro lado, la propuesta está diseñada para ser utilizado por empresas y clientes con objetivos económicos, así, por ejemplo, incorporándolos juntos en modelos de predicción o informes sustentables. (iii) Arquitectura propuesta por Ai et al. (2015) [18]

De acuerdo con los requerimientos del Centro de Datos de Recursos Hídricos o WRDC (Water resources scene analysis), los autores proponen un modelo de análisis de escenas para organizar y aplicar la información objetiva bajo la condición de Big Data. Este nuevo modelo tiene la capacidad de combinar el análisis causal y la deducción asociativa. La ventaja del método propuesto radica en su capacidad para el procesamiento rápido y análisis dinámico de los recursos hídricos cuando el volumen de datos es grande, para resolver problemas de evaluación de los recursos hídricos y la mejora en la toma de decisiones.

Ejemplos de escenas que describen los autores son: reflejar con exactitud la situación de control de inundaciones regional, la condición de la oferta y la demanda de recursos hídricos, el análisis de la evolución de la ecología regional del agua, la predicción del desarrollo de la sequía, entre otros.

CRAVERO et al.: BIG DATA ARCHITECTURE FOR WATER 905

Page 5: A. Cravero, O. Saldaña, R. Espinosa, C. Antileo · grandes de una amplia variedad de datos al permitir la captura ... Las cadenas de búsqueda básicas se construyeron a partir de

(iv) Arquitectura propuesta por Chalh et al. (2015)[19] En este trabajo los autores crean una plataforma con el fin

de resolver y discutir los problemas de los recursos hídricos que se ofrecen por un enorme volumen de recogida, analizados y los datos visualizados, para analizar la heterogeneidad de datos resultantes provenientes de varias fuentes, incluyendo datos estructurados, no estructurados y semi-estructurados, también para prevenir y/o evitar un evento catastrófico en relación con las inundaciones y/o las sequías, a través de infraestructuras hidráulicas diseñadas para tales propósitos. Este primer trabajo se centró en la primera etapa que fue desarrollada en J2EE y específicamente en el enfoque hypsometrical considerado como una herramienta de decisión que permite a los usuarios comparar los efectos de diferentes escenarios de gestión actual y futura y hacer la elección para preservar el medio ambiente y los recursos naturales.

PI2:¿Cuáles son los componentes definidos en las

diversas arquitecturas de Big Data encontradas? A continuación describimos las arquitecturas seleccionadas

y las funciones que lleva a cabo cada componente: (i) Componentes de la Arquitectura propuesta por Ciolofan et al. (2013)[16]

Los autores diseñan una arquitectura de tres capas, una para los datos, otra de lógica de negocio y por último de presentación. Ésta se basa en el estilo de arquitectura orientada al servicio (conocido como SOA).

El sistema de Big Data utiliza los servicios cloud de ArcGIS, con el fin de incorporar los datos medidos en el contexto geoespacial apropiado, mediante la representación de mapas en capas de la zona de interés. La arquitectura está compuesta por los siguientes bloques: (1) Monitorización (es la medición de los parámetros del agua, en tiempo real, utilizando una red de sensores), (2) Información (proveniente de agencias nacionales y regionales para la gestión del agua), (3) Decisión (permite tomar decisiones basadas en un sistema experto), (4) Configuración (se estiman parámetros off), y (5) Propagación (se ejecuta un modelo de propagación previamente configurado cada vez que hay una contaminación accidental que es una causa potencial de alerta temprana). Además están presentes dos bloques, (6) Extracción y almacenamiento, y (7) Visualización a través del sistema ArcGIS.

La Fig. 3 muestra la arquitectura completa.

Figura 3. Arquitectura propuesta por Ciolofan et al.

(ii) Componentes de la Arquitectura propuesta por Dmitriyev et al. (2015) [17]

El componente principal de la arquitectura general es una base de datos DBMS que utiliza la capacidad de la memoria principal y utiliza discos para el almacenamiento secundario. Una parte de la plataforma, que es responsable del almacenamiento de datos consta de 5 componentes principales: (1) El motor de procesamiento de eventos; (2) Almacenamiento a largo plazo; (3) Base de datos en memoria; (4) Notificación; y (5) Análisis interactivo. La plataforma recibe datos desde los sensores a través del Software Sensor Data Hub. La Fig. 4 presenta la arquitectura diseñada.

El enfoque propuesto sigue las siguientes etapas: (a) la consolidación de los datos históricos relacionados con el agua; (b) consolidar los datos desde los sensores en tiempo real; (c) visualizar los parámetros, la ubicación geográfica, el consumo de agua y la recuperación potencial de agua; (d) aplicar métodos estadísticos (por ejemplo, la minería de datos, aprendizaje automático, etc.).

Figura 4. Arquitectura propuesta por Dmitriyev et al.

(iii) Componentes de la Arquitectura propuesta por Ai et al. (2015) [18]

La arquitectura se basa en operar distintas escenas de los recursos de agua, para ello incluye los siguientes componentes: (1) Bloque de generación de escena, de acuerdo con el área especificada y el tiempo dado; (2) Extracción de características de la escena; (3) Deducción de escena; (4) y la Visualización de escenas.

Debido a la operación de la escena de los recursos hídricos tiene que lidiar con datos estructurados y no estructurados, el sistema de gestión de recursos hídricos tiene que tener la capacidad de organizar rápidamente la información por temas, y apoyar el procesamiento de grandes volúmenes de datos.

La Fig. 5 presenta los componentes de la arquitectura, que además incluye el sistema de almacenamiento que considera tres tipos: uno de Big Data para datos semi-estructurados, el almacenamiento convencional para datos estructurados y un Almacén de Datos o Bodega de Datos para generar reportes a través de OLAP. (iv) Componentes de la Arquitectura propuesta por Chalh et al. (2015)[19]

La estructura conceptual de la plataforma se muestra en la Fig. 6, que consiste en nueve bloques: (1) Herramientas de

906 IEEE LATIN AMERICA TRANSACTIONS, VOL. 16, NO. 3, MARCH 2018

Page 6: A. Cravero, O. Saldaña, R. Espinosa, C. Antileo · grandes de una amplia variedad de datos al permitir la captura ... Las cadenas de búsqueda básicas se construyeron a partir de

apoyo a las decisiones; (2) Sistema basado en el conocimiento, que recoge y almacena datos cuantitativos y cualitativos sobre el ciclo hidrológico del agua y su física, datos socioeconómicos y demográficos; (3) Sistema de información geográfica (GIS), se utiliza para analizar, manipular, integrar, almacenar datos y captura (como datos hidrológicos, meteorológicos características de las cuencas, suministro de agua datos y la información de la demanda de agua); (4) Sistema de análisis de datos grandes, incluye Big Data Computing, Big Data Mining, Big Data Analytics y Big Data Security; (5) Modelos de simulación, (6) Computación y procesamiento, (7) Sistema de comunicación, (8) Motor de búsqueda y, (9) Interfaces de usuarios.

Figura 5. Arquitectura propuesta por Ai et al.

Figura 6. Arquitectura propuesta por Chalh et al.

PI3: ¿Cuáles son las tecnologías o herramientas

utilizadas en la implementación del Big Data? Desde la Fig. 2 se puede inferir que no hay acuerdo en el

uso de tecnologías para implementar una arquitectura de Big Data para el análisis de recursos hídricos. Las herramientas de almacenamiento utilizadas son SQL Server, RSGBD, SGBDD, Cloud, y Hadoop. De todas las mencionadas, Cloud y Hadoop son tecnologías utilizadas en sistemas de Big Data en otros contextos. También se mencionan algunas herramientas de administración y visualización de la información, como Pentaho BI, que es una suite gratuita para implementar sistemas de Inteligencia de Negocios, Odysseus

Framework, es una herramienta de gestión de datos en memoria que procesa eventos complejos, puede ser integrado entre las diferentes fuentes de datos y sensores industriales. Por último, 2 trabajos utilizaron la tecnología J2EE para implementar el sistema de gestión de los recursos hídricos.

PI4: ¿Qué ámbito es el más utilizado al momento de

aplicar la investigación, la academia o la industria? Como se observa en la Fig. 2, sólo un trabajo es aplicado

en un caso real. Los otros 3 trabajos son sólo prototipos para aplicar una prueba de concepto en un caso determinado.

PI5: ¿Qué tipo de estudios se están utilizando

(ejemplos, casos de estudio, experimentos, encuestas, otros)?

Desde la Fig. 2 se obtiene que el 100% de los trabajos

encontrados son casos de estudio. Con ello concluimos que éste tipo de área de investigación

se encuentra en desarrollo sin resultados experimentales. Por ello, no es posible deducir si las arquitecturas diseñadas son las correctas para cada caso.

V. CONCLUSIONES Se ha realizado un mapeo sistemático de estudios sobre

arquitecturas de Big Data diseñadas para administrar los recursos hídricos de una localidad, presentando una visión global de la investigación disponible en este ámbito, lo que permite formular nuevos trabajos de investigación, y determinar los temas más y menos explotados del área.

Para ello, se formularon 5 preguntas que fueron respondidas utilizando distintas clasificaciones de los estudios.

Un tema interesante analizado en este trabajo son los componentes diseñados en cada arquitectura, y la tecnología utilizada. Se observó que las tecnologías utilizadas son diversas, no pudiéndose determinar la más adecuada para este tipo de estudio. Sin embrago, podemos destacar la arquitectura propuesta por Chalh et al., por ser la más completa, considerando componentes de seguridad, de sistemas basados en el conocimiento y modelos de simulación.

Finalmente, creemos que en la próxima década tomará especial importancia otros temas provenientes del desarrollo de sistemas, como son la ingeniería de requerimientos, la validación de datos, el desarrollo dirigido por modelos, entre otros.

AGRADECIMIENTOS

Este trabajo ha sido financiado por la Universidad de La

Frontera a través de los proyectos MacroFacultad de Ingeniería 2030 de CORFO y proyecto DIUFRO DI17-0043 patrocinado por la Vicerrectoría de Investigación y Postgrado.

CRAVERO et al.: BIG DATA ARCHITECTURE FOR WATER 907

Page 7: A. Cravero, O. Saldaña, R. Espinosa, C. Antileo · grandes de una amplia variedad de datos al permitir la captura ... Las cadenas de búsqueda básicas se construyeron a partir de

REFERENCIAS [1] P. Gleick, "Water in crisis: a guide to the world's fresh water resources,"

Oxford University Press, Inc., 1993. [2] D. García, J. Quevedo, V. Puig, and J. Saludes, "Water demand

estimation and outlier detection from smart meter data using classification and Big Data methods," 2nd New Developments in IT \& Water Conference, 8-10 February 2015, Rotterdam (Holland), pp. 1--8, 2015.

[3] S. Ciolofan, M. Mocanu, and A. Ionita, "Distributed cyberinfrastructure for decision support in risk related environments," 2013 IEEE 12th International Symposium on Parallel and Distributed Computing, pp. 109--115, 2013.

[4] M. Mocanu, M. Muste, V. Lungu, and R. Drobot, "Composite application for water resource management," Advances in Intelligent Control Systems and Computer Science, pp. 295--306, 2013.

[5] Y. Kim, N. Kang, J. Jung, and H. Kim, "A Review on the Management of Water Resources Information based on Big Data and Cloud Computing," Journal of Wetlands Research, vol. 18, pp. 100--112, 2016.

[6] N. Al-Najran and A. Dahanayake, " A Requirements Specification Framework for Big Data Collection and Capture. New Trends in Databases and Information Systems," pp. 12--19, 2015.

[7] C. Regina, M. Beyer, M. Adrian, T. Friedman, D. Logan, F. Buytendijk, M. Pezzini, R. Edjlali, A. White, and D. Laney, "Top 10 Technology Trends Impacting Information Infra- structure.," Gartner publication, 2013.

[8] Y. Demchenko, P. Membrey, P. Grosso, and C. de-Laat, "Addressing Big Data Issues in Scientific Data Infrastructure," First International Symposium on Big Data and Data Analytics in Collaboration (BDDAC 2013). Part of The 2013 Int. Conf. on Collaboration Technologies and Systems (CTS 2013). San Diego, California, USA, 2013.

[9] A. Cravero and S. Sepúlveda, "Using GORE in Data Warehouse: A Systematic Mapping Study," IEEE Latin America Transactions, vol. 13, pp. 1654--1660, 2015.

[10] B. Kitchenham, T. Dyba, and M. Jorgensen, "Evidence-based software engineering," Proceedings of the 26th international conference on software engineering, pp. 273--281, 2004.

[11] J.Gantz and D. Reinsel, "Extracting Value from Chaos, IDC IVIEW," http://www.emc.com/collateral/analystreports/ idc-extracting-value-from-chaos-ar.pdf, 2011.

[12] Y. Demchenko, C. De-Laat, and P. Membrey, "Defining architecture components of the Big Data Ecosystem," Collaboration Technologies and Systems (CTS), 2014 International Conference, pp. 104--112, 2014.

[13] K. Petersen, R. Feldt, S. Mujtaba, and M. Mattsson, "Systematic mapping studies in software engineering," EASE'08 Proceedings of the 12th international conference on Evaluation and Assessment in Software Engineering. British Computer Society Swinton., pp. 68-77, 2008.

[14] B. Kitchenham and S. Charters, "Guidelines for performing systematic literature reviews in software engineering," Thechnical Report EBSE´07, 2007.

[15] K. Gwet, "Inter-rater reliability: dependency on trait prevalence and marginal homogeneity," Statistical Methods for Inter-Rater Reliability Assessment Series, vol. 2, pp. 1-9, 2002.

[16] S. Ciolofan, M. Mocanu, and A. Ionita, "Distributed cyberinfrastructure for decision support in risk related environments," 2013.

[17] V. Dmitriyev, J. Gómez, and M. Osmers, "Big Data Inspired Water Management Platform for Sensor Data," INFORMATIK'15. Lecture Notes in Informatics (LNI), Gesellschaft fuÈr Informatik., 2015.

[18] P. Ai, Z. Yue, D. Yuan, H. Liao, and C. Xiong, "A Scene Analysis Model for Water Resources Big Data," 2015 14th International Symposium on Distributed Computing and Applications for Business Engineering and Science (DCABES), 2015.

[19] R. a. B. Chalh, Zohra and Ouazar, Driss and Hasnaoui, Moulay Driss, "Big data open platform for water resources management," Cloud Technologies and Applications (CloudTech), 2015 International Conference, pp. 1--8, 2015.

Ania Cravero es Ingeniera Civil Industrial m. Informática. Obtuvo su Doctorado en Cs. de la Computación y Sistemas Informáticos por la Atlantic International University, EE.UU (2010). Se desempeña como Académico en el Departamento de Ciencias de Computación e Informática, e investigadora en el

Centro de Estudios en Ingeniería de Software, Universidad de La Frontera, Chile.

Orlando Saldaña es Ingeniero Civil Informático. Alumno del Magister en Informática, de la Universidad de La Frontera (2015-2016). Se desempeña como Analista de BI en la empresa EVERIS de Temuco, Chile.

Roberto Espinosa es Ingeniero Informático. Obtuvo su Doctorado en Aplicaciones de la Informática por la Universidad de Alicante, España (2014). Actualmente realiza un Post Doctorado en el Departamento de Ciencias de Computación e Informática de la Universidad de La Frontera, Chile

Christian Antileo es Ingeniero Civil Químico. Obtuvo su Doctorado en Ciencias de la Ingeniería, en la Universidad de Concepción-Universidad Técnica de Berlín (2003). Actualmente es Director del Centro de Gestión y Tecnología del Agua, CEGETco, de la Facultad de Ingeniería y Ciencias, Universidad de La Frontera, Chile.

908 IEEE LATIN AMERICA TRANSACTIONS, VOL. 16, NO. 3, MARCH 2018