ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE...

19
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS JECAS 2018 Hilos computacionales, ETL y microservicios de procesamiento

Transcript of ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE...

Page 1: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

JECAS 2018

Hilos computacionales, ETL y microservicios de procesamiento

Page 2: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

Alberto González YanesJefe de Servicio de Estadísticas Econó[email protected]@algoya_dat

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSHilos computacionales, ETL y microservicios de procesamiento

JECAS 2018

Page 3: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

ESQUEMA GENERAL DE LA PRESENTACIÓN1. Entornos computacionales2. Hilos de procesamiento y microservicios

Page 4: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSEntornos computacionales

JECAS 2018

Page 5: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Datos

Modelo organizacional por tipología y naturaleza (esquemas-tipo)

Metadatos

Soporte de normalización semántica

Procedimientos

Soporte de procesos y procesamiento

Page 6: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Entornos del Banco de Datos

Entornos de recepción, captura y prealmacenamiento

Entorno repositorio

Entornos computacionales

Entornos analíticos

Entornos de difusión

Page 7: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Entornos computacionales

Almacenamiento de datos

Procesamiento de datos

Catalogación de procesos Entornos Clase de almacenamiento

Entornos de recepción y captura Transición

Entorno repositorio Destino

Entornos computacionales Transición

Entornos analíticos Destino

Entornos de difusión Destino

Page 8: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Entornos computacionales

Almacenamiento de datos

Procesamiento de datos

Catalogación de procesos

Page 9: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Entornos computacionales

Almacenamiento de datos

Procesamiento de datos

Catalogación de procesos

1. Almacenamiento 2. Documentación3. Ejecución

Page 10: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Relación entre entornos

Extensiones de refuerzo, por ejemplo Postgre

Unos entornos computacionales refuerzan el procesamiento llamando a otros entornos.

PostGIS, CitusData, PgRouting, Fuzzystrmatch, Pg_trgm, PgSimilarity, MADlib, PG-Strom, PL/pgSQL, PL/R, PL/Python

Page 11: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSHilos de procesamiento y microservicios

JECAS 2018

Page 12: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Hilos computacionales

Hilos de transferencia

Page 13: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Hilos computacionales

Se componen de diversas ETL que se ejecutan en entornos distintos (SAS o Kette) aprovechando las capacidades computacionales de otros entornos de cómputo.

Ejemplo de ETL en SAS dentro de hilo tipo HC-MDS-1

Page 14: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Hilos computacionales

Se componen de diversas ETL que se ejecutan en entornos distintos (SAS o Kette) aprovechando las capacidades computacionales de otros entornos de cómputo.

Esquema de profundidad en ETL de cómputo

Page 15: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Hilos computacionales

Para los que se identifican y catalogan los procesos, que se normalizan e industrializan mediante microservicios.

1. RECOGER / OBTENER DATOS (GSBPM-4)2. PROCESAR (GSBPM-5)

a. Codificaciónb. Normalización de códigosc. Integración d. Generación de subtotales derivadose. Generación de estimadores derivados para series temporalesf. Generación de estimadores corregidos de estacionalidad y calendario

3. ANALIZAR (GSBPM-6)a. Generación de atributos de estado OBS_STATUSb. Control de coherencia entre totales y subtotalesc. Detección de outliers en series temporalesd. Generación de atributos de confidencialiadad OBS_CONFIDENCIALITYe. Cargar en espacio repositorio (ETL de traspaso)f. Cargar en espacios analíticos (hilo de transferencia)

g. Análisis exploratorio en espacios analíticos (fuera de hilo computacional)

4. DIFUNDIR (GSBPM-7)a. Elaborar datasets cube (DSC)b. Cargar en espacio repositorio los DSCc. Cargar en espacios analíticos (hilo de transferencia)d. Análisis exploratorio en espacios analíticos e. Cargar en e-Cubos (hilo de transferencia)

Ejemplo de catálogos de procesos en HC-MDS-1

Page 16: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Hilos computacionales

Para los que se identifican y catalogan los procesos, que se normalizan e industrializan mediante microservicios.

Ejemplo de microservicios para procesos en HC-MDS-1

1. RECOGER / OBTENER DATOSa. Macro SAS-R de captura de datos de la API del INEb. Macro SAS-R de captura de datos de ficheros PC-Axisc. Macro SAS-R-PYTHON de captura de datos de AENAd. Macro SAS-R de captura de datos de Eurostat

2. PROCESARa. Librería R de lectura de listas de códigos y conceptos de

medida desde el repositorio de metadatosb. Macro SAS-R de lectura de listas de códigos y conceptos

de medida desde el repositorio de metadatosc. Macro SAS de estimadores derivados en series

3. ANALIZARa. Macro SAS de detección de outliers en series temporalesb. Macro SAS-R de control de secreto estadístico en

macrodatos

Page 17: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Bloque Capa Microservicio Descripción

Captura de datos Jupyter-Python getAENA Código Python, con documentación y ejecución desde Jupyter, que permite la realización de web-scrapping a los datos publicados por AENA.

Python getShops Código Python que permite la extracción de datos de empresas y establecimientos de Big Data.

Librería R INEbaseR Librería de extracción de datos de la API del INE. Permite extraer operaciones y series de datos de forma estructurada y eficiente.

Librería R istacr Librería en R para la extracción de datos y metadatos de las APIs del ISTAC.

Paquete Python istacpy Paquete en R para la extracción de datos y metadatos de las APIs del ISTAC.

Ejemplos de microservicios

Page 18: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

Bloque Capa Microservicio Descripción

Tratamiento de datos Macro SAS CALMAR Macro SAS desarrollada por el INSEE para el calibrado de muestras con información auxiliar.

Macro SAS MacroPX Macro de generación de tablas en formato PX a partir de tablas SAS.

Macro SAS-R GEOCODE Macros de geocodificación

Script R NORMANAME Script de aprovechamiento de las funcionalidades de APIname

Series temporales Macros SAS TIMEOUTLIER Macros de detección de observaciones atípicas en series.

Macros SAS TIMECHANGE Macros de cálculo de medidas de variación en series.

Ejemplos de microservicios

Page 19: ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE COMPUTO... · 2018. 10. 25. · ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos

www.gobiernodecanarias.org@istac_es

ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS

JECAS 2018