Metadatos y Web Semántica

Post on 16-Jul-2015

168 views 4 download

Transcript of Metadatos y Web Semántica

TIC APLICADA A LA

HISTORIA DEL ARTE

6 - Repositorios y Gestión de ActivosDigitales

6.2 Metadatos

Repositorios y Gestión Activos

Digitales

ContenidosMetadatos

Definiciones

Organización del conocimiento

La Web

La Web Semántica

Aplicaciones para Historia del Arte

Recursos

Recurso: Cualquier cosa, concreta o

abstracta Concretos: libro, obra de arte, foto, página web, ...

Abstractos: una colección, un estilo, un conjunto, ...

Recurso

Un árbolRecurso

Una foto

Recurso

Un álbum de fotos

Dato

Dato: Un valor cualquiera, un símbolo

No es verdadero ni falso

Ejemplos: "1984", "verde"

Nivel de abstracción más bajo

Puede pertenecer a un conjunto

Fecha, nº habitantes, colores

verde

Información

Información: Valor asociado a una

interpretación

Puede ser verdadero o falso según interpretación

Interpretación: asignación de significado en un

contexto

"La Regenta fue publicada en 1984"

"El árbol de mi casa es de color verde"

Conocimiento

Información adquirida por un agente

Ejemplo: "Ana sabe que el árbol de su casa es

verde"

Tradicionalmente el agente era una persona

Pero el agente también puede ser una máquina

RecursosAgente

Conocimiento

Organización del conocimiento

Catalogación

Metadatos

Clasificación facetada

Vocabularios controlados

Modelos entidad-relación

Ontologías

Folksonomías

Catalogación

Proceso de indexar un recurso para que

pueda ser encontrado posteriormente

Objetivo: Facilitar búsqueda y recuperación del

recurso

Catalogación = Gestionar metadatos de un

recurso

Sistemas de catalogación:

evolución

Orígenes: archivos y bibliotecas

Más de 4000 años de antigüedad

3 etapas

Catálogos como colecciones impresas

Estaban desfasados en el mismo momento de su

impresión

Tarjetas

Charles A. Cutter (1876)

Uso masivo en s. XX

Catálogos en la Web

s. XXI

Evolución de la Web

Crecimiento casi exponencial

Fuente: Netcraft webserver survey

http://www.facebook.com/note.php?note_id=76191543919

http://beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on-youtube/

Datos y datos...

Facebook: 250.000 millones fotos (2012)

Youtube: 100 horas de video subidas cada

minuto

Twitter: 218 millones de usuario activos

Flickr: 518 millones de fotos subidas en 2012

...

Fuente: http://www.coverpop.com/pop/flickr_interesting

Catálogos en la Web

Estamos en la era de los datos en la Web

Catálogos en el s. XXI

Si no está en la Web, no está

Catalogación vs Posicionamiento

Si está en la Web, pero no se encuentra, no está

Catálogos Web = publicación de metadatos

Algunos Problemas/retos:

Ingentes cantidades de datos

Confianza y Sistemas abiertos

Catalogación y Metadatos

Metadatos

Etimológicamente: "Datos acerca de otros datos"

Otra definición:

"Información estructurada que describe ó explica un

recurso"

Autor: Juan Torres

Lugar: Jardín de su casa

Álbum: Personal

Fecha: 22/02/2013

Resolución: 5Mpx

Metadatos

Recurso

Tipos de metadatos

Descriptivos: describen un recurso

Título, autor, lugar,...

Estructurales: relaciones entre objetos

Colección, álbum, ...

Administrativos: ayudan a gestionar el

recurso.

Fecha, nº de versión, derechos digitales, etc.

Autor: Juan Torres

Lugar: Jardín de su casa

Álbum: Personal

Fecha: 22/02/2013

Resolución: 5Mpx

Metadatos

Recurso

Proceso de metadatos

Metadatos deben ser procesables

automáticamente

Generación

Almacenamiento, catalogación

Transmisión

Búsqueda

Metadatos

Autor: Juan Torres

Lugar: Jardín de su casa

Álbum: Personal

Fecha: 22/02/2013

Resolución: 5Mpx

Fotos de

jardines

en

invierno

胡安花園照片

Sintaxis para metadatos

Solución de compromiso

Procesado automático por ordenadores

Manipulación por personas

001010000100100010010010010000010001

Formato ideal Formato ideal

El texto en lenguaje

natural es el formato

ideal para tí...

Codificaciones

MARC (MAchine Readable Cataloging)

Utilizado para información bibliográfica

001010000100100010010010010000010001

Formato ideal Formato ideal

El texto en lenguaje

natural es el formato

ideal para tí...

MARC

Vocabularios controlados

Tesauro

Utilizado para clasificación

001010000100100010010010010000010001

Formato ideal Formato ideal

El texto en lenguaje

natural es el formato

ideal para tí...

Tesauro

Lenguajes de marcado

Mezclan texto en lenguaje natural con marcas

Las marcas proporcionan metadatos

Lenguajes genéricos: SGML, XML

001010000100100010010010010000010001

Formato ideal Formato ideal

El texto en lenguaje

natural es el formato

ideal para tí...

XML

<work><artist id="23">Leonardo da Vinci</artist><title>La Gioconda</title><commentarios>Pudo haber sido realizado

por <artist id="24">Miguel Ángel</artist></comentarios></work>

RDF

Modelo de grafo.

Base para Web Semántica

Varias sintaxis procesables automáticamente

001010000100100010010010010000010001

Formato ideal Formato ideal

El texto en lenguaje

natural es el formato

ideal para tí...

RDF

http://museo.org/obras/23

2 Leonardo da

Vinci

La

Gioconda

http://museo.org/autores/4

3

http://xmlns.com/foaf/0.1/namehttp://purl.org/dc/elements/1.1/author

http://purl.org/dc/elements/1.1/title

Estándares para metadatos

Clasificación facetada

Vocabularios controlados

Clasificación facetada, vocabularios controlados,

conjuntos de términos, enumeraciones, anillos de

sinónimos, taxonomías, tesauros

Modelos entidad-relación

Ontologías

Folksonomías

Clasificación facetada

Facetas: atributos de un recurso

Ejemplo: color, resolución, estilo,...

Permite búsqueda de recursos a partir de

valores de dichos atributos

Algunos sistemas

CC. Colon Classification

Clasificación deciman de Dewey

CDU, Clasificación decimal universal

Vocabularios controlados

Disposición organizada de palabras o frases

Permiten indexar/buscar/recuperar recursos

Normalmente, en un dominio acotado

Ejemplos:

Conjuntos de términos

Encabezados de materia: Listas subject/heading

Enumeraciones

Anillos de sinónimos

Taxonomía

Tesauro

Conjuntos de términos

Definen un conjunto de términos y propiedades que se pueden asignar a un recurso

Ejemplo: Dublin-core

15 elementos

Utilizado para catálogos online

1. Title

2. Creator

3. Subject

4. Description

5. Publisher

6. Contributor

7. Date

8. Type

9. Format

10.Identifier

11.Source

12.Language

13.Relation

14.Coverage

15.Rights

Encabezamientos de materia

Listas subject/heading

Ejemplos:

LEMBP: lista encabezamientos bibliotecas

públicas

LCSH: Library of Congress Subject Heading

Charles A. CutterFuente: Wikipedia

Lista encabezamientos materias bibliotecas públicasFuente: http://www.mcu.es/bibliotecas/docs/MC/LEMBP/LEMBP.pdf

Enumeraciones

Una enumeración es una lista de términos

Preferiblemente únicos

Suelen aparecer como listas desplegables

Es posible enlazar términos entre diferentes

vocabularios

Gato

Perro

Animal

Persona

Objeto

Anillos de sinónimos

Una lista que incluye conjuntos de términos

que son equivalentes

Utilizada para búsquedas y recuperación

Enriquecimiento de términos de búsqueda

Pueden incluirse términos relacionados

Taxonomías

Clasificación ordenada de un dominio

Cuerpo de conocimiento dividido en categorías

Tesauro

Lista de términos y relaciones

Jerárquicas: todo/parte, ámbito más amplio/estrecho

Equivalencias: sinonimia, homonimia, antonimia, ...

Asociativas: términos relacionados

No tiene porqué incluir definiciones

En ese caso sería un diccionario

Múltiples tesauros especializados

SKOS

SKOS = Simple Knowledge Organization

System

Lenguaje para definir tesauros y vocabularios

controlados

Sintaxis RDF

Permite expresar términos, relaciones y

jerarquías

Muchos vocabularios han migrado a SKOS

Eurovoc, LCSH, MeSH, ...

Modelos entidad-relación

Técnica para describir bases de datos

Entidades: pueden identificarse de forma única

Relaciones entre entidades

Atributos: propiedades de entidades o relaciones

Artista Obra

nombre estilo

realiza

fecha

nombre

FRBR

FRBR - Functional Requirements for Bibliographical

Records

Modelo entidad-relación

Desarrollado por IFLA (Asociación Intl. de

bibliotecas)Work

Expression

Manifestation

Item

realization

embodime

nt

examplar

El Quijote

Versión inglés

Traductor John Ormsby1885

1604

2011Publicación

Simon&Brown

2013Ejemplar

comprado

1

n

1

n

1

n

Ontologías

Definición formal del conocimiento de un

dominio

Objetivo: representación de conocimiento

Contiene

Vocabulario de términos: clases, individuos

Relaciones entre términos: propiedades

Reglas y axiomas

Folksonomías

Etiquetado colaborativo

Semántica emergente

Sabiduría de las masas

Fuente: http://blog.ponoko.com/2008/09/10/folksonomy/

La Web

Mayor almacén de información jamás recopilado

por la humanidad

Acceso casi instantáneo desde cualquier lugar

No centralizado Cualquiera puede añadir

cosas

Multimedia (Texto, Imágenes, Vídeo, etc.)

Identificación de recursos unificada (URIs)

Interactividad: Aplicaciones Web

Características de la Web

Pilares de la Web

3 pilares

Protocolo: HTTP

Identificación: URIs

Formatos de representación: HTML, JSON, XML,

...

Identificación

URI

Protocolo

HTTPFormatos

HTML, JSON,...

WWW

Funcionamiento de la Web

Usuario Navegador

Cliente

Servidor

URI

Representación

WWW

HTTP

Protocolo HTTP:

Cliente (petición) - Servidor (respuesta)

URIs para identificar recursos

Lenguajes de representación: HTML, XML,

etc.

Protocolo HTTP

HTTP (Hypertext transfer protocol):

Arquitectura cliente/servidor (petición / respuesta)

Conjunto de acciones reducido:

GET, PUT, POST, DELETE, etc.

Mensajes de texto

línea inicial

cabecera del mensaje*

cuerpo del mensaje ?

Formato de mensajes

URIs

URI = Identificación de recurso

Recurso = Unidad básica, Cualquier cosa

URI ≠ Recurso ≠ Representación

URI http://tiempo.com/Asturias/Oviedo

Metadatos: Content-type: text/html

Datos:

<html><head><title>Tiempo</title></head><body><h1>Tiempo en Oviedo</h1><p>Nubes y claros</p>

</body></html>

Representación

Recurso

Tiempo en Oviedo

¿Qué se puede identificar con una

URI?

Cualquier cosa concreta o abstracta

http://www.uniovi.es

<!DOCTYPE html><html><head><title>Universidad de Oviedo</title>

</head><body><h1>Universidad de Oviedo</h1><p>Fundada en el año 1608 en <a

href="http://www.wikipedia.org/Oviedo">Oviedo</a></p>

. . .</body></html>

identifica

Ejemplo: Una página Web

Una página Web

Recurso de información

Formato HTML

¿Qué se puede identificar con una

URI?

Cualquier cosa concreta o abstracta

http://www.di.uniovi.es/~labra/images/asturias.jpg

identifica

Ejemplo: Una fotografía (recurso multimedia)

Una fotografía

Recurso de información

Formato JPG

¿Qué se puede identificar con una

URI?

Cualquier cosa concreta o abstracta

http://www.w3.org/People/Berners-Lee/card#i

identifica

Ejemplo: Una persona

Una persona (Tim Berners-Lee)

Recurso de no información

¿Qué se puede identificar con una

URI?

Cualquier cosa concreta o abstracta

http://xmlns.com/foaf/0.1/Person

identifica

Ejemplo: Conjunto de todas las personas

Conjunto de Personas (concepto abstracto)

Recurso de no información

¿Qué se puede identificar con una

URI? Cualquier cosa concreta o abstracta

http://purl.org/dc/terms/creator

identifica

Ejemplo: Propiedad de creación

Propiedad de creación (concepto abstracto)

Recurso de no información

¿Qué se puede identificar con una

URI? Cualquier cosa concreta o abstracta

http://purl.org/dc/terms

identifica

Ejemplo: Espacio de nombres

Espacio de nombres (concepto)

Recurso de no información

description

language

publisher

. . .

Dereferenciación

Dereferenciar URI = Acceder al contenido de URI

Obtener una representación del recurso identificado por la URI

Habitualmente se utiliza protocolo HTTP

Pueden existir diferentes representaciones

La representación puede incluir enlaces a otras URIscon información relacionada

Principio: Follow your nose (“Sigue tu instinto”)

A partir de una URI, se puede ir encontrando más

información y más recursos relacionados fácilmente y de

casualidad (serendipia)

Estabilidad de las URIs

URIs = base de cualquier aplicación Web

Objetivo: Esquema de URIs estable

Lema: Cool URIs don’t change

Modificar una URI puede romper aplicaciones

existentes

Evitar URIs que dependen de detalles de

implementación

Ejemplo: http://156.35.41.34:8080/pagina.php

URI

FORMATOS DE

REPRESENTACIÓN

Formatos de representación

En la Web, el formato más habitual es HTML

Existen muchos más: XML, JSON, RDF, PNG, …

Un recurso puede tener diferentes tipos de

representación

Cada tipo de representación sirve para un

propósito

HTML

Tipo de representación más popular en la Web

Objetivo: representar hipertexto

Ejemplo:

<!DOCTYPE html><html>

<head><meta charset="UTF-8"><title>Ejemplo</title>

</head><body>

<h1>Lista de enlaces</h1><p>Mis enlaces preferidos</p>

<ul><li><a href="http://www.wikipedia.org">Wikipedia</a><li><a href="http://www.w3c.org">Consorcio W3c</a></ul>

</body></html>

XML

Lenguaje de marcado generalizado

Objetivo: intercambio de información

Procesamiento automático y comercio electrónico

<?xml version="1.0"> <pedido><producto codigo="R23"><nombre>Rotulador RX2</nombre>

<cantidad>20</cantidad><comentarios>Comprobad que escriben</comentarios>

</producto><producto codigo="G56">

<nombre>Grapadora Lin</nombre><cantidad>2</cantidad>

<comentarios>Envuelta para regalo</comentarios></producto></pedido>

Tipos de representación

Los tipos de representación se identifican con

MIME

MIME (Multipurpose Internet Mail Extensions)

Identificar el tipo de contenido (Cabecera Content-

type)

Formato tipo/subtipo

Ejemplos:

text/html: Página Web en formato HTML

text/xml, application/xml : Documento XML

application/json: Documento JSON

application/pdf: Fichero PDF

image/jpeg: Imagen JPEGLista oficial: http://www.iana.org/assignments/media-types

Funcionamiento de la Web

2 computadores conceptuales: Cliente y

Servidor

La representación puede calcularse

dinámicamente

Computación en Cliente

Computación en servidor

Usuario Navegador

Cliente

Servidor

URI

Representación

WWW

HTTP

Cliente

También se conoce como Agente de Usuario

Normalmente es un navegador (browser)

Múltiples tipos de agentes de usuarios y

navegadores

Navegadores: Internet Explorer, Chrome, Firefox,

Lynx, …

Dispositivos móviles

Lectores de pantalla

eBooks

TVs

Componentes de un navegador

Interfaz

Analizador

Motor visualización

Intérprete ECMAScript: procesa eventos

Usuario

Navegador

Cliente

URI

Representación

WWW

HTTP

Analizador

Árbol

DOM

Motor

VisualizaciónInterfaz

Usuario

Intérprete

ECMAscript

URI

Motor de visualización

A veces los navegadores comparten el

mismo motor de visualización (rendering

engine)Navegadores Motor de

visualización

Internet Explorer Trident

Firefox Gecko

Opera Presto

Chrome Webkit (Webcore)

Safari (iPhone, iPad) Webkit

Componentes de un Servidor

La arquitectura del servidor suele

descomponerse en varias capas

Vista: Se encarga de preparar la representación

Negocio: Gestión de objetos de negocio

Datos: Modelos de datos

Capa

Vista

Capa

Negocio

URI

Capa

Datos

Representación

URI

WWW

HTTP

Razones para publicar datos

Datos abiertos

Razones para liberar datos

Facilitan la investigación

Tasa de descubrimiento se

acelera con mejores

accesos a los datos

Por el bien común de la

humanidad

Razones para liberar datos

Los sistemas abiertos facilitan las contribuciones

externas

Razones para liberar datos

Trasparencia

Fomentar participación

Generar confianza

Evaluar al gobierno

Como ciudadanos…

…también podemos demandar datos

abiertos…

…demandar datos abiertos

Cuando pertenecen a la humanidad

…demandar datos abiertos

Hechos independientes y verificables ó de

conocimiento común

Ejemplo: conocimiento científico

…demandar datos abiertos

Cuando han sido creados

con dinero público

Los hemos pagado con

nuestros impuestos

¡Son nuestros!

OK, ¡vivan los datos abiertos!

pero…

El mayor reto = Integración

En general, el problema no es informatizar algo

El problema es integrar los sistemas

Interoperabilidad

No basta con publicar datos…

Modelo de Estrellas *

★ Publicar los datos en la Web

(en cualquier formato)

★★ Utilizar formato estructurado

(Excel en lugar de imágenes escaneadas)

★★★ Usar formatos no propietarios

(CSV en lugar de Excel)

★★★★ Usar URIs para identificar datos

(otros sistemas puedan enlazar nuestros

datos)

★★★★★ Enlazar con otros datos externos

(proporcionar contexto)* Enunciado por Tim Berners-Lee en Gov 2.0 Expo 2010

http://www.youtube.com/watch?v=ga1aSJXCFe0

Formatos no

estructurados

Formatos “caja negra”: Imágenes, vídeos,

música, etc.

Formatos binarios: PDF, PS, etc.

Requieren técnicas de tratamiento de la señal,

reconocimiento de patrones, etc.

Ejemplo:

Servicio Público de Empleo

http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/

Formatos estructurados

Los datos tienen una estructura

Pueden procesarse automáticamente

Ejemplo: Hojas de cálculo

Problema con formatos propietarios

Requieren herramientas que no son

públicas

★ ★

Ejemplo: Servicio Público de

empleo

http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/9

★ ★

Formatos no

propietarios

Formatos abiertos estructurados

Ejemplos: CSV, HTML

Pueden manipularse de forma

independiente

No se requiere un software concreto

Problema: Contenido depende del

contexto

★ ★ ★

CSV: Valores delimitados por comas

★ ★ ★Ejemplo: CSV

URIs para identificar

datos

Utilizar URIs para identificar datos

Negociación de contenido

★ ★ ★ ★

Ejemplo: RDF ★ ★ ★ ★

<http://www.sepe.es/datos/desempleo/Asturias/Allende/2013/10>

HTML?

@prefix sepe: <http://www.sepe.es/datos/>

sepe:obs1 sepe:municipio "Allande" ;sepe:desempleados 18 .

RDF?

Enlazar con otros datos

Las representaciones enlazan con otros

datos

Reutilización de datos

★ ★ ★ ★ ★

Ejemplo: RDF bien enlazado★ ★ ★ ★ ★

<http://www.sepe.es/datos/desempleo/Asturias/Allende/2013/10>

HTML?

@prefix sepe: <http://www.sepe.es/datos/>

sepe:obs1 sepe:municipio <http://dbpedia.org/resource/Allande>;sepe:desempleados 23 .

RDF?

dbo:allande dbo:areaTotal 342.24 ;rdf:type <http:/.../municipalitiesInAsturias> ;dbo:country <http:/.../Spain> ;dbo:populationTotal 2106 ;. . .

Principios de Linked Open

Data

1. Utilizar URIs para denotar cosas

2. Permitir que las URIs sean dereferenciables

3. Proporcionar información útil

Para personas (HTML) y máquinas (RDF)

4. Incluir enlaces a otras cosas relacionadas

★ ★ ★ ★ ★

La mejor manera de explotar tus

datos se le ocurrirá a otro

Jo Walsh, Rufus Pollock, http://www.okfn.org/files/talks/xtech_2007/

Linking Open Data

(2007)★ ★ ★ ★ ★

Linking Open Data

(2008)★ ★ ★ ★ ★

Linking Open Data

(2009)★ ★ ★ ★ ★

Linking Open Data

(2010)★ ★ ★ ★ ★

Linking Open Data

(2011)★ ★ ★ ★ ★

Web Semántica

Propuesta de la Web semántica (Tim Berners-Lee):

“disponer datos en la Web definidos y enlazados

de forma que puedan ser utilizados por las

máquinas no solamente para visualizarlos sino

también para:

automatizar tareas,

integrar y

reutilizar datos entre aplicaciones”

Web Semántica

Características de la Web...

No centralizada: problemas para garantizar integridad de la

información)

Información Dinámica: puede cambiar la información e incluso el

conocimiento sobre esa información

Mucha información: El sistema no puede pretender acaparar toda

la información

Es abierta: Muchos sistemas anteriores usaban la Closed World

Assumption

En inglés: Principio AAA: Anyone can say Anything about Any topic

Fuente: Semantic Web for the Working Ontologist, D. Allemang, J. Hendler

Tarta de la Web

URIUnicode

XML + Namespaces + XML Schema

Demostración

RDF + RDF Schema

Ontologías

Lógica

Confianza

Versión propuesta por Tim Berners Lee, año 2000

http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide10-0.html

Cambios en la tarta…

URIUnicode

XML

Intercambio de datos: RDF

Consultas:

SPARQL

Lógica unificadora

Confianza

RDF Schema

Ontologías

OWL

Reglas

RIF

Demostración

Versión actual (desde 2007)

http://www.w3.org/2007/Talks/0130-sb-W3CTechSemWeb/#(24)

RDF

Resource Description Framework (1998)

Descripción de recursos

Recurso = se identifica con URI

Se basa en tripletas

Sujeto Predicado Objeto

Tripletas RDF

http://purl.org/dc/elements/1.1/creator

Sujeto

Puede ser:

URI

Nodo anónimo (bNode)

Predicado

Identificado por URI

Objeto

Valor de una propiedad

Puede ser:

URI

Literal

Nodo anónimo

@prefix dc: <http://purl.org/dc/elements/1.1/>.

@prefix uni: <http://uniovi.es/> .

uni:biologia dc:creator uni:juan .

http://uniovi.es/biology

http://uniovi.es/juan

<http://uniovi.es/biologia> <http://purl.org/dc/elements/1.1/creator> <http://uniovi.es/juan> .

Notación (turtle)

simplificado

Grafo RDF

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .

uni:biologia dc:creator uni:juan .uni:biologia dc:creator uni:ana .uni:juan rdf:type uni:Profesor .uni:ana rdf:type uni:Profesor .

Puede representarse en Notación Turtle

uni:biologia

uni:juan

dc:creator

uni:anadc:creator

uni:Profesor

rdf:type

rdf:type

RDF es composicional

uni:quimica

uni:ana

dc:creator

uni:luisdc:creator

uni:Becario

rdf:type

uni:biologia

uni:juan

dc:creator

dc:creator

uni:Profesor

rdf:type

rdf:type

uni:derechodc:creator

uni:Profesor

uni:ana

rdf:type

uni:luis

uni:Becario

rdf:type

Grafo 1

Grafo 2

Grafo 3

RDF es composicional

uni:quimica

uni:ana

dc:creator

uni:luisdc:creator

uni:Becario

rdf:type

uni:biologia

uni:juan

dc:creator

dc:creator

uni:Profesor

rdf:type

rdf:type

uni:derechodc:creator

uni:Profesor

uni:ana

rdf:type

uni:luis

uni:Becario

rdf:type

Grafo 1

Grafo 2

Grafo 3

RDF es composicional

uni:quimica

uni:anadc:creator

uni:luis

dc:creator

uni:Becario

rdf:type

uni:biologia

uni:juan

dc:creator

dc:creator

uni:Profesor

rdf:type

rdf:type

uni:derecho

dc:creator

Grafo 1

+

Grafo 2

+

Grafo 3

Formatos RDF

Existen varios formatos:

N3

RDF/XML

N-Triples

Turtle

etc.

SPARQL

Simple Protocol and RDF Query Language

Lenguaje de consultas para la web semántica

Encaje de grafos

Extrae información de modelos RDF

Un protocolo

Define un mecanismo para invocar un servicio

También define un vocabulario para resultados

SPARQL

Ejemplo:

Buscar páginas cuyo autor sea un profesor

prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> prefix uni: <http://uniovi.es/> prefix dc: <http://purl.org/dc/elements/1.1/>

SELECT ?p ?c WHERE { ?p dc:creator ?c .?c rdf:type uni:Profesor.

}

Encaje de grafos

SELECT ?p ?c WHERE {?p dc:creator ?c .?c rdf:type uni:Profesor .}

uni:quimica

uni:anadc:creator

uni:luis

dc:creator

uni:Becario

rdf:type

uni:biologia

uni:juan

dc:creator

dc:creator

uni:Profesor

rdf:type

rdf:type

uni:derecho

dc:creator

?p

dc:creator ?c

uni:Profesor

rdf:type

?p

?c

Resultados

?p ?c

uni:biologia uni:juan

uni:quimica uni:ana

uni:biologia uni:ana

?p

?c

?p

?c

RDF Schema

Extiende RDF con un vocabulario de esquema

Class, Property, Resource,…

type, subClassOf, subPropertyOf,…

range, domain,…

RDF Schema permite inferencias

RDF Schema

rdf:type

uni:Profesor

rdfs:subClassOf

uni:Persona

Ejemplo

uni:juan

rdf:type

SPARQL + Inferencia

Combinar SPARQL e inferencia

Ejemplo:

Páginas cuyo autor sea una persona

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .

SELECT ?p ?c WHERE {?p dc:creator ?c .?p rdf:type uni:Persona. }

uni:quimica

uni:anadc:creator

uni:luis

dc:creator

uni:Becario

rdf:type

uni:biologia

uni:juan

dc:creator

dc:creator

uni:Profesor

rdf:type

rdf:type

uni:derecho

dc:creator

uni:Persona

rdfs:subClassOf

rdfs:subClassOf

SPARQL con inferencia

SELECT ?p ?c WHERE {?p dc:creator ?c .?c rdf:type uni:Persona .}

?p

dc:creator ?c

uni:Persona

rdf:type

?p

?c

Resultados

?p ?c

uni:biologia uni:juan

uni:quimica uni:ana

uni:biologia uni:ana

?p

?c

?p

?c

rdf:type

rdf:type

?p

?c

uni:derecho uni:luis

Ontologías

RDF Schema permite hacer inferencias

sencillas

Limitaciones de expresividad

OWL (Web Ontology Language)

Añade más expresividad

Formalizar dominios concretos: ontologías

Expresividad vs Complejidad

Mitos de la Web Semántica

Navegador inteligente

Una nueva Web

El cerebro global

La gran verdad: Una única ontología

Una etiqueta para cada cosa

Nadie querrá compartir datos

Demasiada apertura

Moda pasajera

No hay Killer application

El navegador inteligente

Mito:

El objetivo es conseguir sistemas que naveguen

por internet de forma inteligente

Realidad:

Objetivo = desarrollar tecnologías que faciliten el

procesamiento automático de la información de la

Web y su integración

No es Inteligencia Artificial pero sí se utilizan

técnicas de esa disciplina

Una nueva Web

Mito:

La Web Semántica ( Web 3.0) es una nueva

versión de la web que obligará a cambiar todo lo

que ya hay

Realidad:

Se propone transición gradual. Las tecnologías

ofrecerán valor añadido.

El cerebro global

Mito:

El proyecto de la Web semántica generará un

cerebro global

Realidad:

La web semántica facilitará un mejor uso de los

datos de la web.

Sí es un camino hacia la inteligencia colectiva

La gran verdad

Mito:

Se propone la creación de una única ontología

con todo el conocimiento de la humanidad

Realidad:

Múltiples ontologías para diferentes dominios

Facilitar la integración

Mejorar la descripción de dominios

Una etiqueta para cada cosa

Mito:

El objetivo es asignar una etiqueta similar a RFID

para cada cosa

Realidad

No es factible que cada cosa conlleve sus

propios metadatos

Pueden realizarse descripciones de recursos

externas

Nadie querrá compartir datos

Mito:

Los proveedores de información no tendrán

motivación para adoptar tecnologías nuevas

Realidad:

Lo harán cuando encuentren un retorno de

inversión adecuado

Posicionamiento semántico

Demasiada apertura

Mito:

Si se sacan los datos de las bases de datos, se

pierden

Realidad:

Tecnologías para limitar acceso y controlar

privacidad

Declarar de dónde provienen los datos

Establecer propiedad legal de los datos

Moda pasajera

Mito:

Mito1: La Web semántica es algo nuevo

Mito 2: La Web semántica es algo viejo

Realidad:

Planteada ya en 1994, visión a largo plazo

Exceso de entusiasmo vs escepticismo

Casos de éxito: RSS, microformatos, XBRL,…

"A little semantics goes a long way"

No hay killer application

Mito:

No se ha desarrollado una killer application

Realidad:

¿Es necesaria?

¿Podría ser el proyecto Linked Open Data?

Retos de la Web Semántica

Escalabilidad

¿Dónde están los agentes?

Privacidad y seguridad

Confianza

Manejar ambigüedad e imprecisión

Cantidad vs Calidad

¿Servicios web semánticos?

MetadatosCDWA

VRA

CCO

ProyectosOpen Archives Initiative

Europeana

Aplicaciones en Historia del

Arte

CDWA

Categories for the description of Works of Art

Financiado por fundación Getty

31 categorías, +380 subcategorías

Distingue

Work

Imagen (Representación)

CDWA Lite

Subconjunto de CDWA

Vocabulario XML

VRA

VRA (Visual Resources Association)

Creado en 2007

Descripción de imágenes y objetos culturales

Vocabulario XML

Estructura de los datos

CCO

Cataloging Cultural Objects

Vocabulario XML

Contenido de datos

Open Archives

Objetivo: Interoperabilidad de bienes

culturales

Comienza en Cornell

Basado en XML

Europeana

Proyecto europeo

Desripción semántica de catálogos de obras de

arte

Utilización de RDF y Linked Data