ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE...
Transcript of ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSJECAS 2018jecas.es/ponencias/presentaciones/J/ENTORNO DE...
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
JECAS 2018
Hilos computacionales, ETL y microservicios de procesamiento
Alberto González YanesJefe de Servicio de Estadísticas Econó[email protected]@algoya_dat
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSHilos computacionales, ETL y microservicios de procesamiento
JECAS 2018
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
ESQUEMA GENERAL DE LA PRESENTACIÓN1. Entornos computacionales2. Hilos de procesamiento y microservicios
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSEntornos computacionales
JECAS 2018
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Datos
Modelo organizacional por tipología y naturaleza (esquemas-tipo)
Metadatos
Soporte de normalización semántica
Procedimientos
Soporte de procesos y procesamiento
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos del Banco de Datos
Entornos de recepción, captura y prealmacenamiento
Entorno repositorio
Entornos computacionales
Entornos analíticos
Entornos de difusión
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos computacionales
Almacenamiento de datos
Procesamiento de datos
Catalogación de procesos Entornos Clase de almacenamiento
Entornos de recepción y captura Transición
Entorno repositorio Destino
Entornos computacionales Transición
Entornos analíticos Destino
Entornos de difusión Destino
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos computacionales
Almacenamiento de datos
Procesamiento de datos
Catalogación de procesos
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos computacionales
Almacenamiento de datos
Procesamiento de datos
Catalogación de procesos
1. Almacenamiento 2. Documentación3. Ejecución
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Relación entre entornos
Extensiones de refuerzo, por ejemplo Postgre
Unos entornos computacionales refuerzan el procesamiento llamando a otros entornos.
PostGIS, CitusData, PgRouting, Fuzzystrmatch, Pg_trgm, PgSimilarity, MADlib, PG-Strom, PL/pgSQL, PL/R, PL/Python
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOSHilos de procesamiento y microservicios
JECAS 2018
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Hilos de transferencia
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Se componen de diversas ETL que se ejecutan en entornos distintos (SAS o Kette) aprovechando las capacidades computacionales de otros entornos de cómputo.
Ejemplo de ETL en SAS dentro de hilo tipo HC-MDS-1
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Se componen de diversas ETL que se ejecutan en entornos distintos (SAS o Kette) aprovechando las capacidades computacionales de otros entornos de cómputo.
Esquema de profundidad en ETL de cómputo
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Para los que se identifican y catalogan los procesos, que se normalizan e industrializan mediante microservicios.
1. RECOGER / OBTENER DATOS (GSBPM-4)2. PROCESAR (GSBPM-5)
a. Codificaciónb. Normalización de códigosc. Integración d. Generación de subtotales derivadose. Generación de estimadores derivados para series temporalesf. Generación de estimadores corregidos de estacionalidad y calendario
3. ANALIZAR (GSBPM-6)a. Generación de atributos de estado OBS_STATUSb. Control de coherencia entre totales y subtotalesc. Detección de outliers en series temporalesd. Generación de atributos de confidencialiadad OBS_CONFIDENCIALITYe. Cargar en espacio repositorio (ETL de traspaso)f. Cargar en espacios analíticos (hilo de transferencia)
g. Análisis exploratorio en espacios analíticos (fuera de hilo computacional)
4. DIFUNDIR (GSBPM-7)a. Elaborar datasets cube (DSC)b. Cargar en espacio repositorio los DSCc. Cargar en espacios analíticos (hilo de transferencia)d. Análisis exploratorio en espacios analíticos e. Cargar en e-Cubos (hilo de transferencia)
Ejemplo de catálogos de procesos en HC-MDS-1
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Para los que se identifican y catalogan los procesos, que se normalizan e industrializan mediante microservicios.
Ejemplo de microservicios para procesos en HC-MDS-1
1. RECOGER / OBTENER DATOSa. Macro SAS-R de captura de datos de la API del INEb. Macro SAS-R de captura de datos de ficheros PC-Axisc. Macro SAS-R-PYTHON de captura de datos de AENAd. Macro SAS-R de captura de datos de Eurostat
2. PROCESARa. Librería R de lectura de listas de códigos y conceptos de
medida desde el repositorio de metadatosb. Macro SAS-R de lectura de listas de códigos y conceptos
de medida desde el repositorio de metadatosc. Macro SAS de estimadores derivados en series
3. ANALIZARa. Macro SAS de detección de outliers en series temporalesb. Macro SAS-R de control de secreto estadístico en
macrodatos
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Bloque Capa Microservicio Descripción
Captura de datos Jupyter-Python getAENA Código Python, con documentación y ejecución desde Jupyter, que permite la realización de web-scrapping a los datos publicados por AENA.
Python getShops Código Python que permite la extracción de datos de empresas y establecimientos de Big Data.
Librería R INEbaseR Librería de extracción de datos de la API del INE. Permite extraer operaciones y series de datos de forma estructurada y eficiente.
Librería R istacr Librería en R para la extracción de datos y metadatos de las APIs del ISTAC.
Paquete Python istacpy Paquete en R para la extracción de datos y metadatos de las APIs del ISTAC.
Ejemplos de microservicios
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Bloque Capa Microservicio Descripción
Tratamiento de datos Macro SAS CALMAR Macro SAS desarrollada por el INSEE para el calibrado de muestras con información auxiliar.
Macro SAS MacroPX Macro de generación de tablas en formato PX a partir de tablas SAS.
Macro SAS-R GEOCODE Macros de geocodificación
Script R NORMANAME Script de aprovechamiento de las funcionalidades de APIname
Series temporales Macros SAS TIMEOUTLIER Macros de detección de observaciones atípicas en series.
Macros SAS TIMECHANGE Macros de cálculo de medidas de variación en series.
Ejemplos de microservicios
www.gobiernodecanarias.org@istac_es
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
JECAS 2018