Curs 1.6 Datos Enlazados

Post on 10-Feb-2017

110 views 0 download

Transcript of Curs 1.6 Datos Enlazados

INICIATIVA BARCELONA OPEN DATA EL VALOR D’OBRIR LES DADES

Datos enlazadoscurso 1.6

Docente:Álvaro Sicilia @alvarosiciliago

OBJECTIVO DE LA SESIÓN

● Al final de la sesión seréis capaces de:

● Definir que son los datos enlazados y la web semántica

● Identificar datos enlazados y saber navegar por ellos

● Describir recursos en la web (RDF)

● Identificar tecnologías para enlazar datos

Facultar a los participantes para enlazar datos abiertos y su uso

Datos enlazados

ÍNDICE

1. Introducción a los datos enlazados2. De datos abiertos a datos enlazados3. Uso de vocabularios y DCAT4. Enlazar datos abiertos5. Describir recursos en la web6. Como transformar datos abiertos a RDF7. Tecnologías utilizadas en la web semántica8. Consultar datos enlazados

¿Que son los datos enlazados?Preparad una definición de este concepto

Actividad colectiva

Tiempo: 2 minutos

Actividad

* http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData** http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica

Los Datos Enlazados es la forma que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas web*

La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida**

INTRODUCCIÓN A LOS DATOS ENLAZADOS

INTRODUCCIÓN A LOS DATOS ENLAZADOS

INTRODUCCIÓN A LOS DATOS ENLAZADOS

IMDB Wikipedia

¿Lugar de nacimiento de Harrison Ford?

¿Número de habitantes de

Chicago?

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Preguntas sobre una fuente de datos?

ActoresCiudades

IMDB Wikipedia

¿Qué actores que han nacido en poblaciones de más de 2 millones de habitantes?

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Preguntas complejas sobre múltiples fuentes de datos?

ActoresCiudades

IMDB Wikipedia

Usar la Web como una única gran base de datos global Movernos de una Web de documentos a una Web de

Datos

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Preguntas complejas sobre múltiples fuentes de datos?

DE DATOS ABIERTOS A DATOS ENLAZADOS

1. Usar URIs como nombres de las cosas2. Usar HTTP URIs, para que cualquiera los pueda consultar3. Cuando alguien consulta una URI, proporcionar

información útil en lenguajes estándar (RDF, SPARQL) 4. Incluir enlaces a otras URIs

* http://www.w3.org/DesignIssues/LinkedData.html

Los Cuatro principios de la Web de datos enlazados (Tim Berners Lee, 2006)*

★ publicar los datos en la Web (en cualquier format) con una licencia abierta

★★ publicar los datos estructurados (ex: en Excel lugar de una imagen con datos)

★★★ publicar daots utilizando formatos no propietarios (ex:: CSV en lugar de Excel)

★★★★ utilitzar URIs para apuntar a cosas★★★★

★Enlazar datos con otros datos

DE DATOS ABIERTOS A DATOS ENLAZADOS

Las 5 estrellas de Tim Berners Lee

DE DATOS ABIERTOS A DATOS ENLAZADOS

Wikipedia

DE DATOS ABIERTOS A DATOS ENLAZADOS

Wikipedia

Navegar por portales de datos abiertos y enlazados listar los diferentes portales Actividad individual

Tiempo: 15 minutos

Actividad

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Cómo publicar datos enlazados?

1. Empezar por un plan

5. Mantenerl

o

2. Seleccion

ar los datos

4. Publicación3.

Creación de un

dataset

Proceso de los datos abiertos

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Cómo publicar datos enlazados?

Aplicar un formato abierto

Capturar los

metadatosAplicar una

licencia abiertaRevisar el dataset

Actividad¿Que es un vocabulario?Preparad una definición de este concepto

Actividad colectiva

Tiempo: 2 minutos

USO DE VOCABULARIOS Y DCAT

¿Qué es un vocabulario?

Los vocabularios definen los conceptos y relaciones utilizados para describir y representar un área de interés.

Definition taken from: http://www.w3.org/standards/semanticweb/ontology

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Ciudad Fecha creación Fundación Long Lat Alt Estado

Actividad¿Crear un vocabulario para el dataset de ejemplo?

Actividad en grupos

Tiempo: 5 minutos

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Estado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

RAE:1. f. Conjunto de edificios y calles, regidos por un ayuntamiento, cuya población densa y numerosa se dedica por lo común a actividades no agrícolas.

RAE:5. m. País soberano, reconocido como tal en el orden internacional, asentado en un territorio determinado y dotado de órganos de gobierno propios..

Estado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Uso de vocabularios y DCAT

¿Dónde está el vocabulario?

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

- fecha creación- fundación

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Punto

Localización

- longitud- latitud- altitud

- fecha creación- fundación

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

• Un vocabulario puede representar muchos datasets

• Los vocabularios son utilizados para integrar o armonizar datos de diferentes fuentes (CSV, bases de datos, páginas web…)

Punto

Localización

- longitud- latitud- altitud

- fecha creación- fundación

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

USO DE VOCABULARIOS Y DCAT

Ventajas de utilizar vocabularios

Un vocabulario:

- Da contexto (para moverse de datos a información)

- Facilita reutilización de los datos- Reduce ambigüedad- Facilita la integración- Facilita el mantenimiento

USO DE VOCABULARIOS Y DCAT

Data Catalog Vocabulary (DCAT)

DCAT es una especificación (vocabulario) para la descripción de catálogos de datos en la red. La especificación oficial ha sido elaborada por el W3C, basada en algunos proyectos anteriores.

DCAT-AP (Application Profile) es una especificación basada en DCAT para describir datasets del sector público en Europa.

USO DE VOCABULARIOS Y DCAT

Data Catalog Vocabulary (DCAT)

https://www.w3.org/TR/vocab-dcat/

USO DE VOCABULARIOS Y DCAT

Data Catalog Vocabulary (DCAT)Identificadores temáticos DCAT-AP Identificadores temáticos NTI-RISP

ciencia-tecnologia         Ciencia-tecnologia                

Agricultura, pesca, forestal y alimentación Medio-rural-pesca

Economía y finanzas       

EconomíaComercioHacienda       

Educación, cultura y deporte       

EducaciónCultura-ocioDeporte                    

Energía Energía   

Medio ambiente Medio-ambiente

Gobierno y sector público        Sector-publico

Salud        Salud        

Asuntos internacionales

Justicia, sistema legal y seguridad Legislacion-justiciaSeguridad       

Regiones y ciudades        Urbanismos-infraestructurasVivienda   

Población y sociedad DemografíaSociedad-bienestar            Empleo   

Transporte Transporte

IndustriaTurismo

Las temáticas de DCAT-AP han sido traducidas de su original en inglés. Esta equivalencia es realizada por Alberto Abella y no hay una guía oficial refrendándola

USO DE VOCABULARIOS Y DCAT

Vocabulary of Interlinked Datasets (VoiD)

http://richard.cyganiak.de/2011/gld/gld-dcat-and-void.pdf

ENLAZAR DATOS ABIERTOS

¿Cómo publicar datos enlazados?

Aplicar un formato abierto

Capturar los metadatos

Aplicar una licencia abierta

Revisar el dataset

Identificar enlaces con

otros datasets

Enlazar las instancias de los

diferentes datasets

ENLAZAR DATOS ABIERTOS

Enlazando datos abiertos

Procedimiento1. Identificar aquellos conceptos cuyos individuos

puedan ser enlazados dado su interés y potencial.

2. Identificar qué conjuntos de datos pueden contener instancias de los conceptos inidentificados previamente.

3. Seleccionar las herramientas mas adecuadas para llevar a cabo el enlazado (semi) automático.

4. Ejecutar estas herramientas sobre las fuentes de datos para obtener los correspondientes enlaces.

ENLAZAR DATOS ABIERTOS

Enlazando datos abiertos• Alineación por valores. Determinar cuando dos

valores de dos propiedades expresados de forma diferente son equivalentes

• Alineación por instancias. Determinar si dos instancias son equivalentes

• De acuerdo a las descripciones disponibles para dichas instancias

• Basado en agregación de técnicas de alineación de valores, transitividad de owl:sameAs, mapeos de ontologías, etc.

• Alineación por dataset. Utilizando un conjunto de potenciales mapeos de individuos entre dos datasets

Actividad¿Enlazar dos datasets de ejemplo?

Actividad en grupos

Tiempo: 15 minutos

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

Harrison Ford es un Actor

Harrison Ford mide 1,85

Harrison Ford nació en Chicago

ActividadEscribir triples para el dataset de ejemplo

Actividad en grupos

Tiempo: 15 minutos

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

http://es.dbpedia.org/resource/Harrison_Ford

http://es.dbpedia.org/ontology/Actor

https://www.w3.org/1999/02/22-rdf-syntax-ns#type

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

http://es.dbpedia.org/resource/Harrison_Ford

http://es.dbpedia.org/resource/Chicago

http://es.dbpedia.org/ontology/birthPlace

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

http://es.dbpedia.org/resource/Harrison_Ford

“1.85”

http://es.dbpedia.org/ontology/height

height

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

…/Harrison_Ford

“1.85”…/Chicago

…Actor

type

birthPlace

height

height

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

…/Harrison_Ford

“1.85”…/Chicago

…Actor

type …/RobinWilliams

“1.7”

type

birthPlace

COMO TRANSFORMAR DATOS ABIERTOS A RDF

dataset Rdf dump Triple store Consultas

Sparql

dataset SQL RDF wrapper

Consultas Sparql

• Rápido• No actualizado• Materializado

• No es rápido• Actualizado• Bases de datos relacionales

Mapeos R2RML

COMO TRANSFORMAR DATOS ABIERTOS A RDF

http://wifo5-03.informatik.uni-mannheim.de/pubby/

COMO TRANSFORMAR DATOS ABIERTOS A RDF

http://silkframework.org/

TECNOLOGÍAS UTILIZADAS EN LA WEB SEMÁNTICA

Triple stores:- Virtuoso Universal Server virtuoso.openlinksw.com- RDF4J www.rdf4j.org

Publicar datos- Pubby wifo5-03.informatik.uni-mannheim.de/

pubby- Elda github.com/epimorphics/elda

Enlazar datos- Silk silkframework.org- Limes aksw.org/Projects/LIMES.html

W3C listado de recursos:www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/SemWebClients

CONSULTAR DATOS ENLAZADOS

Breve introducción a SPARQL

SELECT Distinct ?Concepto

WHERE { ?x a ?Concepto.}

http://es.dbpedia.org/sparql

SELECT Distinct ?x

WHERE { ?x a <http://schema.org/Airport>.}

ActividadConsulta datos enlazados

Actividad individual

Tiempo: 10 minutos

OBJECTIVO DE LA SESIÓN

● Ara sois capaces de:

● Definir que son los datos enlazados y la web semántica

● Identificar datos enlazados y saber navegar por ellos

● Describir recursos en la web (RDF)

● Identificar tecnologías para enlazar datos

Facultar a los participantes para enlazar datos abiertos y su uso

Datos enlazados

Tiempo para preguntas