BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010...
Transcript of BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010...
1
BIBLIOTECAS DIGITALESBIBLIOTECAS DIGITALES
José Hilario Canós Cerdá
Departamento de Sistemas Informáticos y ComputaciónUniversidad Politécnica de Valencia
[email protected]@dsic.upv.eshttp://www.dsic.upv.es/~jhcanos
"Seminario de Línea de Investigación" Máster en Ingeniería de Sistemas e Informática.Zaragoza, marzo de 2010
Motivación (1/2)
Según Lesk (1997):
Hacia 2000, la producción mundial de cinta magnética será suficiente para que no haga falta eliminar nada de lo creado con un ordenador …
… y llegará un momento en el cual ser capaz de encontrar la información será más importante que poseerla
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
2
Motivación (2/2)
Proyectos exitosos de Bibliotecas digitales:
…
Google (!)
Desafíos: nuevos tipos de documentos, nuevos tipos de mediosnuevos tipos de medios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Objetivos
Clarificar la noción de BiD y sus implicaciones
á Presentar los modelos más aceptados de BiD
Introducir los principales aspectos a tener en cuenta en el desarrollo de Bibliotecas
Digitales Multimedia, incluyendo, entre otros:
arquitecturas de BiD
catalogación, conservación
flujos de trabajo
almacenamiento y recuperación de información
interoperabilidad
Revisar el estado del arte en investigación y desarrollo en el campo
Presentar las líneas de investigación del Grupo ISSI en el ámbito de las BiD:
Gestión de bibliografía
Sistemas de gestión de emergencias
Otros
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
3
Contenido – Parte I
1. Fundamentos
Introducción
Arquitectura de Bibliotecas Digitales
2. Organización de la Información
Metadatos
Flujos de trabajo (Workflows)
Conservación a largo plazo de la información digital
3. Recuperación de Información
Recuperación de Información textual
Búsquedas en la Web
Interoperabilidad
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Contenido – Parte II
El grupo SIA@ISSI:El grupo SIA@ISSI:
1. Bibshare
2. Sistemas de gestión de emergencias
3. Otros proyectos
Descripción
Estado actual
Desafíos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
4
Bibliografía/Material
Bibliografía básica
L k Mi h l U d t di Di it l Lib i d diti M Lesk, Michael. Understanding Digital Libraries, 2nd edition. Morgan Kauffman, 2005.
Lesk, Michael. Practical Digital Libraries: books, bytes & bucks. Morgan Kauffman, 1997.
Arms, William Y. Digital Libraries. MIT Press, 2000.
Borgman, Christine L. FromGutenberg to theGlobal Information Infrastructure.MIT Press, 2000.
Borgman, Christine L.. Scholarship in the Digital Age. MIT Press, 2007.g , p g g , 7
Stefik, Mark. Internet Dreams. MIT press, 1996.
Baeza, R. and Ribeiro, B. Modern Information Retrieval.AddisonWesley, 1999.
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
INTRODUCCIÓNINTRODUCCIÓN─ ¿Por qué Bibliotecas Digitales?─Definiciones de BiD─Contenidos vs. Tecnología─Requisitos de las BiD─Desafíos de las BiD─Recursos sobre BiD
5
Juegos de palabras...
digital object library
multimedia library
electronic library
virtual library
Information SuperHighway (I’way)
N ti l I f ti I f t t (NII) National Information Infrastructure (NII)
¿Son sinónimos?
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
¿Por qué BiD? (I)
Problemas de las bibliotecas:G t l t d di ió Gran aumento en los costes de edición
Coste de las publicaciones
Grandes recortes en los presupuestos de las bibliotecas
La tecnología digital facilita la producción de libros, y su almacenamiento y distribución. Además de libros, pueden crearse documentos multimedia
Los editores están cada vez más orientados al mundo Los editores están cada vez más orientados al mundo digital, con el fin de reducir costes de producción e incrementar beneficios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
6
¿Por qué BiD? (II)
C d h á i f ió di ibl Cada vez hay más información disponible a través de las redes de comunicaciones.
Es más valioso ser capaz de encontrar información que poseerla in‐situ.
Grandes oportunidades para editores y escritores de ganar dinero
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Evolución de la tecnología
Hardware:
Procesadores cada vez más potentes
Memoria más barata y rápida
Mayor capacidad de almacenamiento
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
7
Lesk
, 20
05
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Fuen
te:
Evolución de la tecnología
Software:Software:Sistemas distribuidos, BD, ...
WWW (Berners-Lee)
Mosaic (Andreesen)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Explosión de servidores en el Web
8
Lecturas recomendadas
Michael Lesk: How much information is there in the World?
Peter Lyman and Hal Varian: How much Information?
Página Web de Berkeley:
http://www.sims.berkeley.edu/research/projects/how‐much‐info‐2003/p // y / /p j / 3/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Pioneros
Vannevar Bush (1945): “As we may think”
kl d b f h J. R. C. Licklider (1965): “Libraries of the Future”
Ernesto García Camarero: “El mundo de la Informática”. Cuadernos para el diálogo, Octubre 1971
Grandes esfuerzos a partir de primeros de los 90 en EE.UU. Orientados principalmente a explotar la tecnología desarrollada
en los 80en los 80.
Proyecto más importante: Digital Library Initiative (DLI, http://dli.grainger.uiuc.edu/national.htm)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
9
Las BiD...¿son bibliotecas?
"The broad goal of the Digital Libraries Initiative is to dramatically advance the means to collect store organize and use widely advance the means to collect, store, organize and use widely distributed knowledge resources containing diverse types of information and content stored in a variety of electronic forms.“ (DLI Mission Statement)
“Themission of the Carnegie Library of Pittsburgh is to be a force for education, information, recreation, and inspiration in the communities it serves.” (CL Pittsburgh Mission Statement)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
BiD: Definiciones
Digital library is a concept that has different meanings in different communities:communities:
To the engineering and computer science community, digital library is a metaphor for the new kinds of distributed data base services that manage unstructured multimedia data.
To the political and business communities, the term represents a new marketplace for the world's information resources and services.
To futurist communities, digital libraries represent the manifestation ofWells' World Brain.
(Gary Marchionini)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
10
BiD: Definiciones
The generic name for federated structures that provide humans both intellectual and physical access to the huge and growing worldwide networks of information encoded in multimedia digital formats.
(The University of Michigan Digital Library: This Is Not Your Father's y g g yLibrary, Birmingham, 1994)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
BiD: Definiciones
Digital libraries are a set of electronic resources and associated technical
biliti f ti hi d i i f ti I thi capabilities for creating, searching, and using information. In this sense
they are an extension and enhancement of information storage and
retrieval systems that manipulate digital data in any medium (text,
images, sounds; static or dynamic images) and exist in distributed
networks. The content of digital libraries includes data, metadata that
describe various aspects of the data (e.g., representation, creator,
owner, reproduction rights), and metadata that consist of links or
relationships to other data or metadata, whether internal or external to
the digital library.
(UCLA‐NSF Social Aspects of Digital Libraries Workshop)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
11
BiD: Definiciones
Digital libraries are constructed ‐‐ collected and organized ‐‐ by a community of users and their functional capabilities support the community of users, and their functional capabilities support the information needs and uses of that community. (...) In this sense they are an extension, enhancement, and integration of a variety of information institutions as physical places where resources are selected, collected, organized, preserved, and accessed in support of a user community. These information institutions include, among others, libraries, museums, archives, and schools, but digital libraries also extend and serve other community settings, including classrooms, offices, laboratories, homes, and public spaces.
(UCLA‐NSF Social Aspects of Digital Libraries Workshop)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
BiD: Definiciones
A Digital Library is an organized database of digital information objectsin varying formats maintained to provide unmediated ease of access to a in varying formats maintained to provide unmediated ease of access to a user community, with these further characteristics:
an overall access tool (e.g. a catalog) provides search and retrieval capability over the entire database;
organized technical procedures exist through which the library management adds objects to the database and removes them according to a coherent and accessible collections policy.
(Peter Graham, Rutgers University Libraries)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
12
BiD: Definiciones
A digital library is a distributed technology environment which dramatically reduces barriers to the creation, dissemination, manipulation, storage, integration, and reuse of information by individuals and groups.
(Edward A Fox editor Source Book on Digital Libraries pág (Edward A. Fox , editor, Source Book on Digital Libraries, pág. 65)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Palabras clave
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
13
Dimensiones
Aspectos fundamentales de las BiD:
Contenidos
Servicios
Tecnología
Sociedad
¡Relacionados entre sí!
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Contenidos
Cualquier objeto puede ser representado digitalmente:
Texto
Animales de un zoo
...
Todos los contenidos presentan desafíos de Todos los contenidos presentan desafíos de tipo intelectual, técnico y cultural
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
14
Niveles de descripción
Trabajo: concepto abstractoL Ilí d l ª d B th U i La Ilíada, la 5ª de Beethoven, Unix
Expresión: un trabajo se hace real a través de una expresión: La Ilíada: oral ‐> escrita (secuencia de palabras)
Unix: código fuente/ejecutable
Manifestación: una expresión toma forma en una o más manifestaciones:manifestaciones: 5ª Beethoven: CD, TV, radio, ...
Unix: CD, cinta, ftp ...
Ítem: cada una de las copias de una manifestación
Modelo IFLA, 1998:http://www.ifla.org/VII/s13/frbr/frbr.pdf
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Tipos de contenido: Texto
El tipo más frecuente Escáner + OCR ‐> ASCII, Unicode
Se puede buscar de diferentes maneras: Búsqueda de cadenas simple
Métodos más sofisticados
Manuscritos representados como imágenes
Requiere participación humana Errores de OCR
Traducciones
Marcado de textos (SGML, XML, ...)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
15
Otros tipos de contenido “monomedia” Lo primero es determinar el formato a utilizar
Imágenes: GIF, TIFF, JPEG, ...
Video (sin sonido): Quicktime, AVI, MPEG, ...
Sonido: AU, WAV, AIFF, ...
No siempre se puede optar por un único formato
(plataformas múltiples)
¿Cuál es la resolución adecuada?
Problema principal: búsquedas por contenido
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Contenidos multimedia
Ejemplos:
Video a la demanda, textos animados, juegos, ...
Simulaciones por ordenador, mundos virtuales, ...
Pueden ser interactivos:
Se proporciona un punto de entrada y el usuario toma decisionesto a dec s o es
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
16
Gestión de contenidos
Selección y adquisición
Indexación
Almacenamiento
Acceso
M j d l i ió Manejo de colecciones y preservación
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Tecnología
Pilares básicos de las BiD:
Hardware
Redes de alta velocidad
Seguridad
Interoperabilidad
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
17
El kit del bibliotecario digital
Tipos de herramientas requeridas:
Herramientas de construcción de BiD
Visualizadores de directorios
Convertidores de formatos
Chequeadores de consistencia de interfaces
Visores de objetos
Encriptación de datos
Definición de metadatos
Gestores de índices
Analizadores de log
Copias de seguridad
Simuladores de interfaces para comprobar el comportamiento en distintas plataformas
...
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Tecnología vs. contenidos (I)
La tecnología no siempre ha dirigido los cambios en el manejo de la información:
Antes de la imprenta ya se vendía libros...y la imprenta no representó un cambio en la estructura de los mismos.
En el siglo XVIII cambió notablemente el contenido de los libros sin cambios tecnológicos destacableslos libros, sin cambios tecnológicos destacables...mientras que en el siglo XIX cambia la tecnología, pero no hay cambios sustanciales en los contenidos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
18
Tecnología vs. contenidos (II)
En nuestra época asistimos a la revolución digital:
Durante más de una década, la mayor parte de los libros ha sido escrita en un ordenador...sin embargo, la gente sigue leyendo versiones en papel
Las bibliotecas permiten consultar libros escritos mucho tiempo atrás, y versiones en papel de las obras actualesactuales...¿qué van a hacer con la avalancha de información en formato electrónico?
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
¿Revolución?
El cambio provocado por las nuevas tecnologías va a f di l l i d dtransformar radicalmente la sociedad
El acceso a información on‐line proporciona recursos que nunca antes habían estado disponibles
Bibliotecas, museos, editoriales, etc., se transformarán radicalmente o, de lo contrario, desaparecerán
Nuevas relaciones entre los actores: Nuevas relaciones entre los actores:
Autores/editores
Lectores/bibliotecas
Universitarios/publicaciones
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
19
¿Evolución?
Las tecnologías surgen porque la sociedad toma decisiones que conducen a ellasconducen a ellas
Las redes de ordenadores son continuación de redes de comunicaciones previas (telégrafo, teléfono, radio, televisión, ...)
Los medios digitales y los digitalizados son extensiones de otros previamente existentes, y las instituciones que los gestionan se adaptarán a ellos como lo hicieron con los anteriores (de Abdul Kassem Ismael a nuestros días...)
El papel convivirá con los bitsp p
Editoriales, bibliotecas, universidades, etc., tienen unas funciones sociales que continuarán en el futuro, posiblemente de forma diferente
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Co‐evolución
“Technology pushes, while demand pulls”
(Christine L. Borgman, 2000)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
20
Requisitos de las BiD
BiD como BiC: características y circunstancias bajo las cuales una BiD debería emular a una BiC que contenga libros, imágenes y otros objetos materiales
Requisitos funcionales de las BiD
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Requisitos: BiD como BiC
users are usually elsewhere than the information they want, and often wish to correlate things from several sources;correlate things from several sources;
whoever wants to use a library must show permission to do so;
different patrons are permitted different actions and to see different parts of each collection;
to find specific information, each user must understand the catalog structure;
the catalog may describe items not actually held as part of the collection at hand;
the catalog and the collected items are used differently and not necessarily housed in the same place;p ;
documents are cataloged with text descriptors and also with conventional properties, such as author names;
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
21
Requisitos: BiD como BiC
documents contain cross references to other documents; document identifiers are different from document names; a document
may have several names, one for each context, e.g., "Tales of Hoffmann" in English, "Les contes d'Hoffmann" in French, and "HoffmannsErzaehlungen" in German;
translations of a document may express essentially the same information, e.g., versions of classic literature in different languages;
each stored item is valuable, often with part of its residual value owned by its authors or authors‘ assignees;
part of the value provided by a library is the provenance information it holds for each item;
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
holds for each item; items are put into libraries because, while each is thought valuable for
future reference, the specific individuals who will read it and the times when this will occur are not known.
(DL94: Digital Library: Gross Structure and Requirements: Report from a March 1994 Workshop)
Requisitos funcionales (I)1. *DL should allow the user to follow citation links forward and backwards (preferably to full
documents; otherwise to location information)
2. *DL should include an online meta‐thesaurus that users can search and browse. The meta‐thesaurus
should integrated existing thesaurae across disciplines. It should also allow users to incorporate their
own terms and edit existing terms. The thesaurus should allow users to type in a few letters of a word
and see corresponding terms, should suggest or reference alternatives to users' terms. Users should
be able to view no. and type of documents associated with terms and link automatically from
thesaurus terms to documents.
3. DL should include an acronym list to help users identify and search for terms.
4. Users should be allowed to save a record of their searches and what each search retrieved.
5. *Users should be able to search and view individual components of a document (e.g., author/title,
abstract, figures, references) in a dynamic manner, specifying for each search which elements should
be searched and which displayed.
6. *Users should be able to customize their interfaces so that search options, procedures are presented
in the manner they like best.
7. Users should be able to view an overview description of the contents of the testbed.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
22
Requisitos funcionales (II)
8. *Display of full documents should mimic the look and feel of the article's print version in both page
layout and page "flipping" (i.e., users should be able to view multiple pages at once and in quick y p g pp g ( , p p g q
succession)
9. *Users should be able to design and launch their own user profiles for any particular search session,
defining what they want and how they want to get it.
10. *Users should be able to move easily from query to results and back, rather than moving in the
linear fashion common in online systems today, revising a query upon viewing results without
having to lose sight of the results or start a query over.
11. *Users should be able to easily create personal electronic article collections as a subset of the DL,
manipulate and share that collectionmanipulate and share that collection.
12. Users should be able to define and set their own access points for searching personal collections
derived from the DL
13. DL should allow on‐screen highlighting, bookmarking to help in reading full articles.
14. Users should have access to DL from home and office.
15. DL should allow printing of full documents
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Requisitos funcionales (y III)16. *Users should be able to jump to and view individual document components. They should be able to
skim, open, or skip individual document components.
17. DL should facilitate colleage networks: allow users to view list of contact info for authors, construct
mailing list of colleagues to send documents to.
18. *DL should provide complete and intuitive online help: help balloons, full documentation, help with
basic computing, gripe button, sample searches.
19. DL should allow users to make own links to commonly used external network resources (e.g., pre‐
print databases, listservs)
20. Search parameters should include physical location of material not available online
21. DL should facilitate browsing at shelf, ToC, and article levels: users need overview and zoomg , ,
capabilities.
22. *Interface should resemble a "natural topography" of the information landscape... with a physical
layout, dynamically defined (topic, material type, author, etc.)
23. *DL should allow serendipitous discovery of "other books on the shelf," "other articles in the
journal." Perhaps set browse mode as a purposeful search option: by call no., journal title, etc.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
(University of Illinois at Urbana Campaign, 1994)
23
Recursos sobre BiD
D‐Lib: http://www.dlib.org
JBIDI http://www.jbidi.org
Communications of the ACM (abril 1995, abril 1998)
IEEE Computer ‐‐‐DLI
Exploring the Digital Domain, 2nd edition:
http://cs.furman.edu/digitaldomain/
Vi t l Lib I l t ti P bl O t iti d I Virtual Library Implementation: Problems, Opportunities and Issues
forToday’s Librarian:
http://staff.washington.edu/larsson/conf/snit96/
Cursos de BiD en diferentes Universidades
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Conferencias sobre BiD
JCDL: http://www.jcdl2006.org
ECDL: http://www.ecdl2006.org
ICADL: http://www.icadl.org
RCDL: http://www.rcdl2005.uniyar.ac.ru/
JBIDI: http://www.jbidi.org
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
24
SERVICIOS DE BIBLIOTECASERVICIOS DE BIBLIOTECA DIGITAL
Servicios
¿Quiénes son los clientes de una BiD?
¿Qué tipos de servicio ofrecer en una BiD?
Presentación y acceso a la información
Servicios de búsqueda
Navegación
Referencias y servicios de respuesta
Filtrado y diseminación selectiva de información
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
25
¿Quiénes son los clientes de una BiD? Una BiC suele dar servicio a una comunidad
concreta...
¿Debería una BiD estar igualmente restringida a esa comunidad?
Una BiC a menudo posee servicios a usuarios con necesidades especiales (rampas de acceso, libros B ill )en Braille, ...)
Debe procurarse extender los servicios en entornos digitales
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Tipos de servicio (I)
Búsqueda
Es el servicio de acceso más básico
En BiC: metadatos http://www.upv.es/bib/
En BiD: metadatos + contenido
Mecanismos de búsqueda: Línea/formulario Línea/formulario
Navegación (browsing)
Basada en clasificación jerárquica
Ideal: aproximación híbrida
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
26
Tipos de servicio (II)
Referencias Uno de los servicios básicos de las BiC
En BiD: Anticipación a las preguntas (FAQ) Usuarios nuevos, tópicos interesantes ...
Interacción asíncrona usuario‐bibliotecario E‐mail, requiere participación humana, mucho uso del servicio ante las
expectativas
Combinación de servicios automáticos y humanos FAQ + e‐mail si la FAQ falla
Interacción en tiempo real con el bibliotecario Hotline, chat, ...
Agentes software que reemplacen a los humanos Procesamiento del lenguaje natural
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Tipos de servicio (III)
Filtrado y distribución selectiva Perfiles de usuario
Cada nueva incorporación se chequea frente a los perfiles, y se envía a los usuarios apropiados
Más sofisticado que la recuperación de información
Filtrado colaborativo: clasificación por interés de un colectivo de usuarioscolectivo de usuarios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
27
Acceso: BiD vs. Sitio Web
Una BiD es:
“Una colección de objetos digitales, incluyendo texto, video, audio, y otros, junto con medios para el acceso y la recuperación, y para la selección, organización y mantenimiento de la colección” (Witt & B i b id )(Witten & Bainbridge, 2003)
Mucho más que un sitio Web!!
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
Presentación y diseminación
Presentación: la manera en que un objeto digital d l ies mostrado al usuario
Diseminación: la transformación de la forma almacenada a la presentación requiere la ejecución de algún programa (rendering)
Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010
28
1 Almacenamiento,n Presentaciones La forma almacenada de un objeto digital y su presentación al
usuario son generalmente distintas:usuario son generalmente distintas:
Página Web: almacenada en HTML, transformada (rendered) por un navegador para su presentación al usuario
Un objeto digital puede tener varias presentaciones:
Una imagen puede tener una presentación en miniatura (thumbnail) y otra de alta resolución
Una base de datos Access puede verse desde el entorno propio o a través del Web...
what you store is notwhat you get
Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010
Historia de las BiD
Dos aproximaciones principales:
Construir clientes y servidores ad‐hoc (usandoMotif/X11, Tcl/Tk, etc.), y usarTCP/IP sólo como protocolo de transporte pros: gran funcionalidad
cons: costes de desarrollo altos, problemas con la distribución y heterogeneidad de los clientes
Curiosidad: muchos de los proyectos de este tipo gastaron más tiempo en desarrollar interfaces, protocolos, búsquedas, etc., que poblando las BiD!
Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010
29
Historia de las BiD (2)
Dos aproximaciones principales (cont):Dos aproximaciones principales (cont):
Uso de protocolos estándar, de más alto nivel, basados
en TCP/IP: SMTP, FTP, Gopher, WAIS, http, etc.
cons: menos funcionalidad
pros: menor coste de desarrollo, dado que usan clientes
normalmente disponiblesp
Esta aproximación ha dominado la segunda mitad de los 90
Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010
Primeras BiD sobre TCP/IP
Netlib
http://www.netlib.org/
Comenzó en 1985, distribuyendo software matemático via e‐mail (SMTP)
Posteriormente se añadieron otros métodos y protocolos (ftp, cliente X11, http)
Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010
30
zo d
e 20
10
Accesos a Netlib –
© J
.H.
Can
ós –
Zar
agoz
a, m
arz
Bib
liote
cas
Dig
itale
s
Fuente:http://www.netlib.org/utk/misc/counts.html
Primeras BiD sobre TCP/IP
Servidor de pre‐prints de Física
http://xxx.lanl.gov/
Comenzó en 1991 como servicio de e‐mail para el intercambio de fuentes de pre‐prints en TeX
Pronto se añadieron accesos ftp y http
Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010
31
Primeras BiD sobre TCP/IP
Anonymous FTP
Usado por numerosos departamentos de Informática para la distribución de informes técnicos y software
ftp://techreports.larc.nasa.gov/ comenzó a finales de 1992
El acceso http se añadió en 99 El acceso http se añadió en 1994
Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010
Primeras BiD sobre TCP/IP
Características:
Útiles Se podía encontrar lo que buscabas
Limitadas por el protocolo de transporte Interfaces SMTP, FTP, etc. inherentemente pobres
Búsquedas, formateos, browsing, ... difíciles de implementar
Escala reducida Escala reducida ¿Hubiesen funcionado bien con colecciones de millones de items?
Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010
32
Primeras BiD sobre HTTP
http es un protocolo de transporte muy general, y es posible construir protocolos de mayor nivel sobre él
Combinando esto con clientes WWW más expresivos, hay un potencial grandísimo
Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010
La Web sólo es la plataforma
Las bibliotecas digitales explotan la tecnología de la Web para facilitar el acceso de los usuarios al contenido
Vamos a ver ejemplos de cómo acceder a los diferentes tipos de mediosdiferentes tipos de medios
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
33
Acceso a colecciones
Búsqueda
Navegación
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
Búsqueda
El usuario tiene una necesidad de información y acude a El usuario tiene una necesidad de información, y acude a la biblioteca en busca de una solución Es el servicio de acceso más básico
En BiC: metadatos
http://www.upv.es/bib/
En BiD: metadatos + contenido
Búsqueda simple y avanzadaq p y
http://www.cervantesvirtual.com/busquedas/
http://www.loc.gov/search/more_search.html
http://www.bne.es
http://europeana.eu/portal/
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
34
Referencias
Uno de los servicios básicos de las BiC
En BiD: Anticipación a las preguntas (FAQ)
Usuarios nuevos, tópicos interesantes ...
Interacción asíncrona usuario‐bibliotecario E‐mail, requiere participación humana, mucho uso del servicio ante
las expectativas
Combinación de servicios automáticos y humanos FAQ + e mail si la FAQ falla FAQ + e‐mail si la FAQ falla
Interacción en tiempo real con el bibliotecario Hotline, chat, …
http://www.loc.gov/rr/askalib/
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
Navegación
Vistas prefabricadas de las colecciones
Agrupadas por criterios diversos
Estadísticas de uso pueden ayudar a confeccionar el diseño navegacional
htt // l /i d ht l http://www.loc.gov/index.html
(ver diversas versiones en www.archive.org)
http://www.museodelprado.es/
http://www.classicalarchives.com
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
35
Acceso a objetos digitales
Objetivo: generar la presentación de los objetos digitales f ió d di i i i li d ú en función de diseminaciones especializadas según
diferentes criterios: Dispositivo de acceso
Lenguaje
Perfil de usuario
…
U ió l i l i d id Una presentación suele incluir metadatos y contenido En ocasiones, servicios adicionales
(http://www.cervantesvirtual.com/FichaObra.html?Ref=1270&portal=0)
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
Acceso a texto no estructurado
La biblioteca digital no es consciente de la estructura del texto
El texto se muestra como un todo, accesible secuencialmente (salvo enlaces explícitos)
http://www gutenberg org/dirs/etext97/alice30h htmhttp://www.gutenberg.org/dirs/etext97/alice30h.htm
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
36
Acceso a texto estructurado
Se puede explotar la estructura explícita
Definida con marcas
Acceso directo a partes específicas
http://www.cervantesvirtual.com/FichaObra.html?Refhttp://www.cervantesvirtual.com/FichaObra.html?Ref=1270&portal=0
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
Interfaces de usuario para texto Metáforas http://www.wdl.org
http://bvg.udc.es/
http://bv2.gva.es
Accesibilidad http://www.cervantesvirtual.com/seccion/signos/
http://www.cervantesvirtual.com/fonoteca/
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
37
Acceso a imágenes
Búsquedas:
Basadas en metadatos
Diferentes estándares dificultan acceso
Imágenes muy poco descritas (problema de escala!)
Prototipos de búsquedas por contenido
Navegación:
Uso extensivo de miniaturas
La imagen no es el final del camino de navegación
Imágenes relacionadas…Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
Acceso a imágenes (cont.)
http://digitalgallery.nypl.org
http://www.flickr.com
http://images.google.es
http://www.hermitagemuseum.org
Galerías personales: Picasa (Google)
Windows Live Gallery (Microsoft)
Posibilidad de compartir en la Web
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
38
Acceso a vídeo
Búsquedas:
Basadas en metadatos Diferentes estándares dificultan acceso
Vídeos muy poco descritos (problema de escala!)
Prototipos de búsquedas por contenido
Navegación Navegación:
Uso extensivo de miniaturas
Otras funciones: surrogates, previews
El video no es el final del camino de navegación
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
Acceso a vídeo (cont.)
http://www.youtube.com/watch?v=BGvd‐C7bw8g
http://www.open‐video.org/
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
39
Acceso a audio
Similar a las imágenes y el vídeo
Música:
¡un mundo muy rico!
Distintas representaciones:
Partituras Partituras
Archivos MIDI
Archivos de audio
…
Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010
UN MODELO ARQUITECTÓNICOUN MODELO ARQUITECTÓNICODE BIBLIOTECA DIGITAL
40
A Framework for DistributedDigital Object Services
Kahn/Wilensky Framework (KWF, 1995)
Es un documento de alto nivel que define los conceptos clave que forman la próxima generación de BiD
DLs beyond “make the ftp server look nice”
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Términos clave en KWF
Objeto Digital (digital object, DO) Unidad de intercambio en una BiD, con una estructura de datos y unas características particulares
Repositorio (repository) El lugar donde viven los DO
Handle Handle Un nombre único y persistente para un DO
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
41
KWF
Originator
Digital Object
Data
Handle
Repository
makes a
which consists of
which comesfrom a handlegeneratorwhich can go in a
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Repository
Repository Access Protocol(RAP)
Handle Server
which is accessed by which registers the DOs handle with a
at which point the DO becomesa registered DO
Objetos digitales
Objeto Digital: elemento almacenado j gen una BiD
Ninguna referencia a contenido, estructura, etc.
Sinónimos: ítem, material, documento
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
42
Objeto Digital
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Objeto digital
DO datos + key metadata DO = datos + key‐metadata
Los datos son tipados: tipos básicos incluyen: bit‐sequence / set‐of‐bit‐sequences
digital‐object / set‐of‐digital‐objects
handle / set‐of‐handles
key‐metadata incluye el handle, y posiblemente otros metadatos (no especificados en KWF)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
43
Objetos digitales compuestos
Son DO con datos de tipo digital‐object
Los objetos digitales tienen estructura interna:
Una edición de un diario electrónico está almacenada en varios objetos
separados (páginas HTML, imágenes digitalizadas de las páginas, ...),
pero puede percibirse como un objeto único
Los DO compuestos pueden usarse para agrupar items relacionados:
Un DO para agrupar todas las obras de Cervantes
Un DO para agrupar todas las versiones o todos los formatos del
Quijote...
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Handles
Nombres que persisten aunque el recurso al que id ifi d bi f l d identifican pueda cambiar su forma, ser almacenado en diversos repositorios, o cambiar en cualquier otra vía a lo largo del tiempo.
Handle system: sistema distribuido que almacena handles e información asociada, que se utiliza para localizar y acceder al ítem identificado por el handle
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
44
Handles: sintaxis
hdl:cnri.dlib/july95‐arms
GLOBALLOCAL
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Indicadorde handleAutoridad de
Nombramiento(repositorio) Identificador único
en el repositorio
Handles: estructura interna
h dl
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
handleDatos del handle: (tipo, valor)
(almacenados en un servidor de handles)inmutable
Pueden cambiarTransparente a los clientes
45
Handles: resolución
Resolver un handle: Presentar un handle a un servidor
Obtener como respuesta información relacionada Usualmente, la dirección adonde encontrar el ítem identificado por el handle
El sistema Handle: Distribuido (muchos ordenadores alrededor del
d )mundo) Registro global de handles (en CNRI)
Servicios de handle locales (e.g. LOC)
Más información: http://www.handle.net
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Repositorios (I)
“Un sistema de almacenamiento accesible por red en el Un sistema de almacenamiento ,accesible por red, en el
cual los DO pueden ser almacenados para posibles accesos
posteriores” (KWF)
Un DO almacenado es un DO que reside en un repositorio
Un DO registrado es un DO que el repositorio ha registrado
en un servidor de handles
Almacenaje y registro pueden ser el mismo proceso, o
procesos diferentes
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
46
Repository Access Protocol(RAP)
Mecanismo sencillo de acceso a repositoriosMecanismo sencillo de acceso a repositorios
Diseñado para ser simple
KWF define 3 clases de operaciones básicas: ACCESS_DO
DEPOSIT_DO
ACCESS_REF
Sobre ellas se pueden definir meta servicios...
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Repositorios (II)
Estructura de un repositorio:
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
47
Repositorios (III)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Repositorios (y IV)
Arquitectura de un repositorio:
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
48
Forma almacenada
La forma almacenada de un objeto digital es el j g
formato en el que está almacenado en el
repositorio
Un simulador de vuelo es un conjunto de programas,
archivos de datos, etc.
N i é i idi l f l No tiene por qué coincidir con la forma en que el
objeto digital se disemina
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Presentación y diseminación
Presentación: la manera en que un objeto digital d l ies mostrado al usuario
Un piloto que use el simulador percibe imágenes, sonidos sintetizados y secuencias de control
Diseminación: la transformación de la forma almacenada a la presentación requiere la j ió d l ú ( d i )ejecución de algún programa (rendering)
1 Almacenamiento,n Presentaciones
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
49
Visión global
Repositorios
Usuarios
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Sistemas de localización Sistemas de búsqueda
Referencias
Arms, W. et al.: An Architecture for Information in Digital Libraries D Lib Magazine February 1997Libraries. D‐Lib Magazine, February 1997.
Arms, W.: Key Concepts in the Architecture of the Digital Library. D‐Lib Magazine, July 1995
IFLA: Functional Requirements for Bibliographic Records. 1998.
Kahn, R. & Wilensky, R.:A Framework for Distributed Digital Object Services 1995 Digital Object Services. 1995. http://www.cnri.reston.va.us/home/cstr/arch/k‐w.html
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
50
ORGANIZACIÓN DE LAORGANIZACIÓN DE LA INFORMACIÓN: METADATOS
Motivación
Objetivo fundamental de una BiD: ayudar a los usuarios a encontrar información
En muchas ocasiones, la información no se busca en los documentos, sino en propiedades de los mismos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
51
Metadatos
Datos estructurados acerca de los datos
b d d d l d Describen propiedades del contenido Descriptivos: información bibliográfica, géneros, ...
Estructurales: información sobre formatos y estructuras
Administrativos: derechos, permisos, ...
Generalmente expresados como texto Texto: autor, fecha, páginas, etc.
Imagen: resolución formato etcImagen: resolución, formato, etc.
Aunque pueden referirse a otro tipo de medio
Para los usuarios, son el camino hacia los contenidos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Generación tradicional de catálogos
Reglas de catalogación
Anglo American CataloguingRules (AACR2)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
objeto digital
Registro de metadatosDatos de
referencias (MARC)
Fuente: W. Arms: Curso de BiD. Cornell, 2000
52
MARC: Ejemplo (I)
Caroline R. Arms, editor, Campus strategies for libraries and electronic information. Bedford MA Digital Press 1990
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bedford, MA: Digital Press, 1990.
tag value
001 89‐16879 r93
050 Z675.U5C16 1990
082 027.7/0973 20
245 Campus strategies for libraries and electronic title statementinformation/Caroline Arms, editor.
260 {Bedford, Mass.} : Digital Press, c1990. publisher{ , } g , 99 p
300 xi, 404 p. : ill. ; 24 cm. collation440 EDUCOM strategies series on information technology series title
504 Includes bibliographical references (p. {373}‐381).
020 ISBN 1‐55558‐036‐X : $34.95
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
MARC : Ejemplo (y II)
6 A d i lib i U it d St t A t ti bj t h di
Fuente: W. Arms: Curso de BiD. Cornell, 2000
650 Academic libraries‐‐United States‐‐Automation. subject heading
650 Libraries and electronic publishing‐‐United States.
650 Library information networks‐‐United States.
650 Information technology‐‐United States.
700 Arms, Caroline R. (Caroline Ruth)
040 DLC DLC DLC
043 n‐us‐‐‐
955 CIP ver. br02 to SL 02‐26‐90955 9
985 APIF/MIG
http://lcweb.loc.gov/marc/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
53
Online public access catalog (OPAC) Servicio imprescindible hoy en día en BiC
d l ó Dos etapas de implantación Primera etapa
La biblioteca deposita sus registros MARC en un servidor
Proporciona acceso al servidor por terminales dedicados
Búsqueda booleana por campos (ver tema 5)
La mayor parte de BiC universitarias lo tienen desde primeros de los 90
Segunda etapa Segunda etapa La biblioteca conecta su servidor a la red del campus e Internet
Transforma paulatinamente sus fichas catalográficas a MARC
www.upv.es/bib
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Comentarios sobre MARC
Un gran avance
Desarrollado en los 60
Ampliamente difundido
Muy complejo
No se diseñó pensando en su tratamiento algorítmico
No es Unicode
Transición muy costosa
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
54
Dublin Core
Conjunto simple de metadatos para información on‐line
15 elementos básicos
Aplicable a todo tipo de material digital
Todos los elementos opcionales
Todos los elementos repetibles
Desarrollado por un grupo internacional, liderado por Stuart Weibel
http://www.dublincore.org/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Dublin Core elements
1. Title The name given to the resource by the creator or
Fuente: W. Arms: Curso de BiD. Cornell, 2000
g ypublisher.
2. Creator The person or organization primarily responsible for the intellectual content of the resource. For example, authors in the case of written documents, artists, photographers, or illustrators in the case of visual resources.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
3. Subject The topic of the resource. Typically, subject will be expressed as keywords or phrases that describe the subject or content of the resource. The use of controlled vocabularies and formal classification schemes is encouraged.
55
Dublin Core elements
4 Description A textual description of the content of the
Fuente: W. Arms: Curso de BiD. Cornell, 2000
4. Description A textual description of the content of the resource, including abstracts in the case of document-like objects or content descriptions in the case of visual resources.
5. Publisher The entity responsible for making the resource available in its present form, such as a publishing house, a university department, or a corporate entity.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
6. Contributor A person or organization not specified in a creator element who has made significant intellectual contributions to the resource but whose contribution is secondary to any person or organization specified in a creator element (for example, editor, transcriber, and illustrator).
Dublin Core elements
7. Date A date associated with the creation or availability of
Fuente: W. Arms: Curso de BiD. Cornell, 2000
ythe resource.
8. Type The category of the resource, such as home page, novel, poem, working paper, preprint, technical report, essay, dictionary.
9. Format The data format of the resource, used to identify th ft d ibl h d th t i ht b d d t
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
the software and possibly hardware that might be needed to display or operate the resource.
10. Identifier A string or number used to uniquely identify the resource. Examples for networked resources include URLs and URNs.
56
Dublin Core elementsFuente: W. Arms: Curso de BiD. Cornell, 2000
11. Source Information about a second resource from which the present resource is derived.
12. Language The language of the intellectual content of the resource.
13. Relation An identifier of a second resource and its relationship to the present resource This element permits
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
relationship to the present resource. This element permits links between related resources and resource descriptions to be indicated. Examples include an edition of a work (IsVersionOf), or a chapter of a book (IsPartOf).
Dublin Core elementsFuente: W. Arms: Curso de BiD. Cornell, 2000
14. Coverage The spatial locations and temporal durations characteristic of the resource.
15. Rights A rights management statement, an identifier that links to a rights management statement, or an identifier that links to a service providing information about rights management for the resource.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
57
Uso de DC en HTML (I)
<HTML><HEAD>
Fuente: A. Powell. UKOLN, University of Bath, 1998
<TITLE>UKOLN Home Page</TITLE><META NAME="DC.Title” CONTENT="UKOLN: UK Office for Library and Information Networking"><META NAME="DC.Subject" CONTENT="national centre, network information support, library community, awareness, research, information services, public library networking, bibliographic management, distributed library systems, metadata, resource discovery, conferences, lectures, workshops"><META NAME="DC.Description" CONTENT="UKOLN is a national
t f t i t k i f ti t icentre for support in network information management in the library and information communities. It provides awareness, research and information services"><META NAME="DC.Creator" CONTENT=”UKOLN Information Services Group"></HEAD>...
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Uso de DC en HTML (II)
Fuente: W. Arms: Curso de BiD. Cornell, 2000
<meta name= "DC.publisher" content="OCLC"><meta name="DC. creator" content="Weibel, Stuart L."><meta name="DC. creator" content="Miller, Eric J."><meta name="DC. title" content="Dublin Core Reference Page"><meta name="DC. date" content="1996-05-28">
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
<meta name="DC. form" content="text/html"><meta name="DC. language" content="en">
58
Dublin Core calificado
La semántica de DC es muy ampliaE i i f ti En ocasiones es poco informativa
Los calificadores son una especie de atributos “a la” XML que permiten: Refinar el significado de los elementos de DC mediante ‘type’:
Relation TYPE=IsPartOf
Asociar valores a los elementos de acuerdo a esquemas externos: Subject SCHEME=LCSH
Date SCHEME=ISO 8601
Indicar el lenguaje en el que está expresado un valor Title LANGUAGE=en
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Calificadores: ejemplo
Fuente: W. Arms: Curso de BiD. Cornell, 2000
DC.Date -> Created: 1997-11-01
DC.Date -> Issued: 1997-11-15
DC.Date -> Available: 1997-12-01/1998-06-01
DC.Date -> Valid: 1998-01-01/1998-06-01
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
/
59
DC con calificadores:ejemplo en XML
<title>Digital Libraries and the Problem of Purpose</title>
Fuente: W. Arms: Curso de BiD. Cornell, 2000
<title>Digital Libraries and the Problem of Purpose</title>
<creator>David M. Levy</creator>
<publisher>Corporation for National Research Initiatives</publisher>
<date date-type = "publication">January 2000</date>
<type resource-type = "work">article</type>
<identifier uri-type = "DOI">10.1045/january2000-levy</identifier>
<identifier uri type
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
<identifier uri-type = "URL">http://www.dlib.org/dlib/january00/01levy.html</identifier>
<language>English</language>
<rights>Copyright (c) David M. Levy</rights>
RDF
Resource Description Framework
Desarrollado con participación de varias comunidades Platform for Internet Content Selection (PICS)
Web Collections (Site maps, MCF)
Libraries, museums, archives (DC)
Privacy (P3P)
Actividad de metadatos del W3C Model and Syntax WG
Schema WG
Objetivo: Interoperabilidad de metadatos semántica, estructura, sintaxis
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
60
El modelo de RDF
RTipo de propiedad
V l
basado en un modelo matemático
diagramas arco‐nodo
Recurso Valor
Propiedad
diagramas arco nodo
recursos Web representados por nodos con URI
“descripción”: colección de propiedades
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
RDF: ejemplo
“Andy Powell es autor del recurso identificado por
http://www.ukoln.ac.uk/metadata/Author
Andy Powell
http://www.ukoln.ac.uk/metadata/”
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
61
RDF: ejemplo estructurado
h // k l k/ d /Author
http://www.ukoln.ac.uk/metadata/
Andy Powell [email protected]
Name Email
proporciona metadatos estructurados a base de reemplazar valores textuales por nodos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
RDF: serialización
http://www ukoln ac uk/metadata/Title The UKOLN
Metadata HomeTitle
http://www.ukoln.ac.uk/metadata/ Metadata HomePage
<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>
</RDF:Description></RDF:RDF>
una descripción RDF puede expresarse en XML
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
62
DC en RDF
http://www.ukoln.ac.uk/metadata/The UKOLN
Metadata HomePage
DC:Title
<RDF:RDF><RDF:Description
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
pRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><DC:Title>The UKOLN Metadata Home Page</DC:Title>
</RDF:Description></RDF:RDF>
DC en RDF<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.0/">
<rdf:Description<rdf:Descriptionrdf:about="http://www.ukoln.ac.uk/metadata/resources/dc/datamodel/
WD-dc-rdf/">
<dc:title> Guidance on expressing the Dublin Core within the ResourceDescription
Framework (RDF) </dc:title>
<dc:creator> Eric Miller </dc:creator>
<dc:creator> Paul Miller </dc:creator>
<dc:creator> Dan Brickley </dc:creator>
<dc:subject> Dublin Core; Resource Description Framework; RDF; eXtensible
Markup Language; XML </dc:subject>Markup Language; XML </dc:subject>
<dc:publisher> Dublin Core Metadata Initiative </dc:publisher>
<dc:contributor> Dublin Core Data Model Working Group </dc:contributor>
<dc:date> 1999-07-01 </dc:date>
<dc:format> text/html </dc:format>
<dc:language> en </dc:language>
</rdf:Description>
</rdf:RDF>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
63
RDF: estado actual
http://www.w3c.org/RDF
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
MODS
Metadata Object Description Schema
Desarrollado por LOC
Objetivo: dar el salto al mundo XML de forma compatible con MARC
http://www.loc.gov/standards/mods
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
64
Características de MODS
Etiquetas basadas en lenguaje natural
Los elementos tienen las mismas definiciones que elementos equivalentes en MARC
Elementos particularmente aplicables a recursos digitales
XML schema permite aprovechar la flexibilidad y disponibilidad de herramientas libres disponibles l
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Elementos de alto nivel de MODS
Title Info Note Name
Type of resource
Genre
Origin Info
Language
Physical description
Subject
Classification
Related item
Identifier
Location
Access conditions Abstract
Table of contents
Target audience
Part
Extension
Record Info
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
65
Ejemplo:
Music record in MODS
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Ventajas de MODS
El conjunto de elementos es compatible con los esquemas j p qde grandes bases de datos bibliográficas
El conjunto de elementos es más rico que Dublin Core, y más simple que MARC
Etiquetas basadas en lenguaje natural, más amigables que las etiquetas numéricas de MARC
La jerarquía permite descripciones más ricas, j q p p ,especialmente de objetos digitales complejos
La descripción funciona bien con descripciones jerárquicas en METS
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
66
Metadata Encoding and Transmission Standard
METS es un esquema XML diseñado con el propósito de crear documentos que expresen la estructura jerárquica de los objetos digitales, los nombres y localizaciones de los archivos que los
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
qcomponen, y los metadatos asociados.
http://www.loc.gov/mets
Secciones de un documentoMETS (parcial)
<mets><dmdSec/> (Metadatos descriptivos)<amdSec/> (Metadatos administrativos)<fileSec/> (Archivos)<structMap/> (Estructura)
</ t >
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
</mets>
67
METS Extension Schemas
Two sections (dmdSec and amdSec) serve as “wrappers” or“sockets” where elements from other schemas, called "extensionschemas” can be plugged in. This is the mechanism by whichMETS is extensible. It is accomplished by using the XML Schemafacility for combing vocabularies from different Namespaces.
METS Editorial board has endorsed extension schemas for
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
METS Editorial board has endorsed extension schemas forbibliographic data (MARCXML, MODS, DC), for technicalmetadata for still images (MIX), and technical metadata for text(TextMD).
Estructura
<mets><structMap>
<div><div></div>
</div>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
/</structMap>
</mets>
Ejemplo 1
68
Archivos
<mets><fileSec></fileSec><structMap></structMap>
</mets>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
/ ets
Example 2
Metadatos descriptivos
<mets><dmdSec></dmdSec><fileSec></fileSec><structMap></structMap>
</mets>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
</mets>
69
Metadatos descriptivos con mdRef
<mets><dmdSec>
<mdRef/></dmdSec>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
<fileSec></fileSec><structMap></structMap>
</mets>
Ejemplo 3
Metadatos descriptivos con mdWrap
<mets><dmdSec><mdWrap><xmlData>
<!– insertar datos de namespace(s) diferentes --></xmlData>
</mdWrap></dmdSec>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
<fileSec></fileSec><structMap></structMap>
</mets>
Example 4Example 5 Example 6
70
Metadatos administrativos con mdWrap
<mets><mets><amdSec><techMD><mdWrap><xmlData>
<!-- insertar datos de namespace(s) diferentes --></xmlData>
</mdWrap></techMD>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
</techMD></amdSec><fileSec /> <structMap />
</mets>
Example 7
Example 8
Otros esquemas de metadatos
Channel Definition Format (CDF) http://www.microsoft.com/standards/cdf.htm
Global Information Locator Service (GILS) http://www.usgs.gov/gils/index.html
Meta Content Framework (MCF) http://www.textuality.com/mcf/MCF‐tutorial.html
Platform for Internet Content Selection (PICS) http://www.w3.org/pub/WWW/PICS/
Rich Site Summary (RSS) http://purl.org/rss
Summary Object Interchange Format (SOIF)h //h l d d / http://harvest.cs.colorado.edu/
Uniform Resource Characteristics (URCs) http://www.acl.lanl.gov/URC/
Wireless Markup Language (WML) http://www.wapforum.org/
Text Encoding Initiative (TEI) http://www‐tei.uic.edu/orgs/tei/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
71
Referencias
Arms, W.
Di it l Lib i MIT P Digital Libraries.MIT Press, 2000
Curso de BiD. Cornell University, 2000.
Lesk, M. Practical Digital Libraries. Morgan Kaufmann, 1997
Powell, Andy: Metadata for the Web :DF and the Dublin Core.Presentación en UKOLUG, Manchester Conference Centre ‐ July 1998. http://www.ukoln.ac.uk/metadata/presentations/ukolug98
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Fuentes de información
http://www.ifla.org/II/metadata.htm Muchos recursos sobre metadatos
Completísimo!
http://www.ukoln.ac.uk/metadata/ ídem
http://www.w3.org/RDF/ página “oficial” sobre RDF página oficial sobre RDF
http://www.loc.gov/standards/mods
http://www.loc.gov/standards/mets
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
72
ORGANIZACIÓN DE LAORGANIZACIÓN DE LA INFORMACIÓN: FLUJOS DE TRABAJO
Procesos en las organizaciones
Procesos materiales
– Ensamblar componentes físicos y producir productos físicos
– Tareas humanas (mover, almacenar, transformar ...)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
73
Procesos en las organizaciones
Procesos materiales Procesos deinformación
– Ensamblar componentes físicos y producir productos físicos
– Tareas humanas (mover, almacenar, transformar ...)
– Tareas automáticas o semi-automáticas– Crear, procesar, gestionar y producir
información– Infraestructura: ordenadores, bases de
datos, procesamiento de transacciones, sistemas distribuidos, ...
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Procesos de negocio
Procesos en las organizaciones
Procesos de negocio
Procesos materiales Procesos deinformación
– Descripciones, orientadas al mercado, de las actividades de una organización, implementadas como procesos de información y/o materiales
– Un PN se crea con el objetivo de cumplir con un contrato, de satisfacer las necesidades de un cliente, etc.
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
74
Flujos de control y de datos
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Sistemas de Gestión de Flujos de Trabajo
U SGFT i t d fi ti l j ió d FTUn SGFT es un sistema que define, crea y gestiona la ejecución de FT
mediante el uso de software, siendo capaz de interpretar la definición
del proceso, interactuar con los participantes y, donde se requiera,
invocar el uso de herramientas y aplicaciones.
Workflow Management Coalition
(http://www.wfmc.org)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
75
Flujos de trabajo y bibliotecas digitales
L tá t l Los procesos están muy presentes en el desarrollo, mantenimiento y operación de las BiD
Tema tradicionalmente olvidado por la pcomunidad de BiD
Interés (c)reciente
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Motivación
Los modelos de BiD están fuertemente influenciados por la perspectiva “repositorio”
Es necesario ampliar la visión estática de las BiD para incorporar todos los aspectos relacionados con gestión de contenido que relacionados con gestión de contenido que quedan fuera de la visión tradicional
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
76
La nueva visión
UsuariosAdministradores
Motor de procesos
Procesos/Servicios
Público
En una Bid, Colecciones de Objetos digitales son gestionadas mediante una serie de procesos de diversa índole:
Selección Adquisición Catalogación Conservación Gestión de usuarios
Repositorios
Sistemas de localización Sistemas de búsqueda
Gestión de usuarios …
Los procesos implementan los servicios que la BiD ofrece a todos sus potenciales usuarios
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
ORGANIZACIÓN DE LAORGANIZACIÓN DE LA
INFORMACIÓN: CONSERVACIÓN
A LARGO PLAZO DE LA
INFORMACIÓN DIGITAL
77
Visión global
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Repositorios
Usuarios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Sistemas de localización Sistemas de búsqueda
Motivación (I)
Objetivo fundamental de una BiD: ayudar a los usuarios a i f ió
Fuente: W. Arms: Curso de BiD. Cornell, 2000
encontrar información ...
...ahora y en el futuro
Vida media de los diferentes soportes:
Material Approximate life (years)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Acid-free paper 500+Microfilm 300Optical disks 100?Color film 25-50CDs 20?Magnetic disk and tape 5
78
Motivación (II)
El almacenamiento digital sólo conserva contenido “crudo”
Fuente: Lesk, 1997, pág. 194
crudo : A veces en formatos no estándar
Si el software desaparece, no se puede acceder al contenido
Ejemplo: procesadores de texto Byte 1985: Wordstar, Leading Edge, Multimate, MS Word, PFS:write,
Samna, WordPerfect, Xywrite
Byte 1995: MS Word, Lotus Word Pro, DeScribe, Nota Bene, Clearlook, y 995WordPerfect, Accent Professional, Xywrite
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Motivación (III)
El hardware también caduca (~5‐10 años)
Aunque el software perdure, si no se dispone del código fuente
puede ser muy difícil ejecutarlo en arquitecturas modernas
Aunque el hardware perdure, puede ser poco rentable empeñarse
en mantenerlo
En toda BiD es necesaria una política de conservación de
los contenidos que trascienda el mero problema de la los contenidos, que trascienda el mero problema de la
conservación digital
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
79
Objetivo de la conservación
Garantizar la disponibilidad de los objetos digitales en el ffuturo
En tres subáreas: Conservación intelectual
Conservación del medio
Conservación de la tecnología
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Conservación intelectual
Problema: integridad y autenticidad de la información tal Problema: integridad y autenticidad de la información tal y como se grabó originalmente
La naturaleza del software (y, similarmente, de los objetos digitales), impide utilizar características físicas para identificar unívocamente a un objeto
E l bl á i d fi i é i id d d Es realmente problemático definir qué es autenticidad de contenido y apariencia en el contexto de los objetos digitales
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
80
Conservación del medio
Objetivo: conservar en condiciones el medio en el que se
almacena la información (cintas, discos magnéticos,
discos ópticos, CD, DVD …)
Refresco de la información (o del medio): copia periódica
de la información almacenada en un medio físico a otro
Efectiva en tanto en cuanto la información contenida en
di “d if bl ”esos medios sea “descifrable”
independiente del hardware
software disponible
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Conservación de la tecnología
d á d l f l Además del refresco, es necesario asegurar que, en el futuro, los objetos digitales serán accesibles en las nuevas plataformas tecnológicas
Soluciones: Refresco de la información Refresco de la información
Migración de la información
Emulación
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
81
Refresco de información
Copia periódica de la información almacenada en un di fí i medio físico a otro
Efectiva en tanto en cuanto la información contenida en esos medios sea “descifrable” independiente del hardware
software disponible
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Migración
Transferencia periódica de la información digital de una fi ió h d / f configuración hardware/software a una nueva
Incluye refresco de información, pero asumiendo que no siempre es posible obtener una réplica exacta en la nueva configuración versiones nuevas de procesadores de texto incompatibles con las
más antiguas
aplicación de algoritmos de compresión “lossy” a imágenes
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
82
Emulación
Objetivo: reproducir las condiciones tecnológicas i d d l i f ió di i lapropiadas para acceder a la información digital
Simulación software de entornos obsoletos sistemas operativos
software de edición, visualización, etc.
Es muy difícil conseguir una emulación 100% fiable
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Buenas prácticas
Se deben seleccionar y crear colecciones digitales con un valor duradero y de interés intelectual.
La demanda de los documentos también es un factor a tener en cuenta ya que si los fondos están digitalizados serán de más fácil acceso.
La selección debe estar avalada por una política de preservación bien definida y apoyada económicamente p y p y
Identificar responsabilidades
Adoptar estándares
83
Conclusiones
La conservacióndel patrimonio digital es una medida necesaria que todos los países deben impulsarnecesaria que todos los países deben impulsar
Debe hacerse de forma cooperativa, generando alianzas y convergencia de intereses, y distribuyendo responsabilidades de manera que resulte beneficiosa para todos los agentes implicados
El conocimiento y la experiencia de las numerosas iniciativas permite reducir errores y potenciar las buenas prácticas
Bibliografía
Beagrie, Neil. et al. Trusted Digital Repositories: Attributes and Responsibilities, RLG‐OCLC Report, 2002. http://www.rlg.org/longterm/repositories.pdf
Reference Model for an Open Archival Information System (OAIS)
“Digital Preservation, Architecture and Technology for Trusted Digital Repositories”,
D‐Lib Magazine June 2005 Volume 11 Number 6, ISSN 1082‐9873
“Digital Preservation in a National Context” , H.M. Gladney,D‐Lib Magazine January/February 2007, Volume 13 Number ½, ISSN 1082‐9873
http://www.dlib.org/dlib/june05/jantz/06jantz.html
“Cost elements of digital preservation” g phttp://www.leeds.ac.uk/cedars/colman/CIW01r.htmlKelly Russell and Ellis WeinbergerDraft of 31 May 2000
Preservation in the Digital World, http://www.clir.org/pubs/reports/conway2/, Paul ConwayHead, Preservation DepartmentYale University Library, March 1996
Archivando la Web catalana: iniciativas cooperativas de preservación digital en Catalunya, Eugènia Serra Aranda, Julio 2006
84
Proyectos
CASPAR ‐Cultural, Artistic and Scientific knowledge for CASPAR Cultural, Artistic and Scientific knowledge for Preservation, Access and Retrieval: http://www.casparpreserves.eu/
Digital Preservation Europe: http://www.digitalpreservationeurope.eu/
Planets‐Preservation and Long‐term Access through Networked Services: http://www.planets‐project.eu/
http://pandora.nla.gov.au/index.html
Cedars: http://www.leeds.ac.uk/cedars/index.html
http //www si umich edu/CAMILEON/ http://www.si.umich.edu/CAMILEON/
http://www.dpconline.org/graphics/join/projects.html
RECUPERACIÓN DERECUPERACIÓN DE INFORMACIÓN: TEXTOS
85
Motivación
Objetivo fundamental de una BiD: ayudar a los usuarios a i f ióencontrar información
Recuperación de Datos (RD) vs. Recuperación de Información (RI): RD: recuperar ítems que satisfacen una query expresada en un
lenguaje formal (ej: SGBD)
RI: recuperar información en respuesta a una query expresada de manera imprecisa (necesidad de información)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Ámbito de la búsqueda
Todo el contenido de los documentos
muy costoso
partes del contenido irrelevantes
Búsquedas en índices de términos
palabras o grupos con relevancia para las búsquedas
pueden construirse manual o automáticamente
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
86
Marco de trabajo
Docs Vista lógica
doc
RankingMatch (modelo de RI)
preproceso
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Information Need
Query (tarea de RI)
Ranking
Fuente: Baeza & Ribeiro, 1999
Vista lógica de un documento
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Fuente: Baeza & Ribeiro, 1999
87
Ficheros invertidos
Lista de palabras que aparecen en un conjunto de d l l l documentos, y los lugares en los que aparecen
Term Record Frequency computer 1 3 computer 3 5
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
computer 3 5computing 2 1 distributed 2 1 parallel 1 2 system 2 1... ... ...
Fuente: Arms, curso de BiD
Lista invertida
Todas las entradas en un fichero invertido relativas a una palabra
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Fuente: Arms, curso de BiD
88
Lematización (stemming)
Truncar las palabras por su raíz común
l bú d d d d é Mejora la búsqueda de documentos conteniendo términos relacionados
Reduce el tamaño del fichero invertido
Term Record Frequency comput 1 3
Term Record Frequency computer 1 3
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
comput 3 5 comput 2 1 distribut 2 1 parallel 1 2 system 2 1 ... ... ...
computer 3 5 computing 2 1 distributed 2 1 parallel 1 2 system 2 1 ... ... ...
Fuente: Arms, curso de BiD
Modelos de RI
Classic Models
Ad-hoc: colección estable, queries variables
Filtering: queries estables, colección variable
Set Theoretic
FuzzyExtended Boolean
Retrieval: AdhocFiltering
User
T
Classic Models
booleanvectorprobabilistic
Non-Overlapping Lists
Structured Models
colección variable
Algebraic
Generalized VectorLat. Semantic IndexNeural Networks
Probabilistic
I f N t k
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Browsing
ask
Proximal Nodes
Browsing
FlatStructure GuidedHypertext
Inference Network Belief Network
Fuente: Baeza & Ribeiro, 1999
89
Modelo booleano
Dos o más términos de búsqueda, relacionados por Dos o más términos de búsqueda, relacionados por operadores lógicos (and, or, not, adjacent, ...)
Ejemplo: "abacus and actor"
Proceso:
• lista invertida para “abacus”: documentos 3 y 19
• lista invertida para “actor”: documentos 2, 19, y 29
ó d l d l d• intersección de las dos listas: documento 19
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Fuente: Arms, curso de BiD
Diagrama booleano
A and Bnot (A or B)
A B
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010A or B
90
Modelo Booleano: problemas
Confusión entre and y or
Or restringe pocoAnd restringe mucho
Ej. “Quiero información sobre Bases de Datos y Compiladores”Bases de Datos ¿AND? Compiladores
Ej. “Documentos que versen sobre la corrupción de la Iglesia”Palabras de búsqueda: juicio, inquisición, tribunal, sentencia, hoguera, converso, corrupción, clérigo.
Confusión entre and y or
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
No hay niveles de relevancia
No se ordenan los documentos recuperados según su adecuación a la consulta.
Ej. “documentos antiguos que hablen sobre la castidad, ESPECIALMENTE los que citan a San Pablo”
Tesauro (thesaurus)
Lista precompilada de palabras importantes en un determinado dominiodeterminado dominio
+
Para cada palabra, lista de palabras relacionadas Por sinonimia
Por patrones de co‐ocurrencia en documentos
...
Inicialmente, usado como ayuda a la expresión de ideas por escrito
En RI, se utiliza para reformular preguntas
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
91
Tesauro: ejemplos
Roget’s thesaurus (1911): generalista• ship, vessel, sail; craft, navy, marine, fleet, flotilla
• book, writing, work, volume, tome, tract, codex
• search, discovery, detection, find, revelation
Incluye descripciones
Otros tesauros más específicos: Art and Architecture Art and Architecture
Thesaurus of Engineering and Scientific Terms
Medline
Etc.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Modelo Vectorial
Introduce la posibilidad de coincidencias parciales
Se asigna peso (no binario) a los términos
Los pesos se usan para medir grados de similitud entre una pregunta y cada documento de una colección
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
92
Modelo vectorial
Se asume la existencia de un espacio vectorial de n dimensiones
n es el número de términos distintos en todos los documentos de la colección
Documentos y consultas se representan mediante vectores en un espacio multidimensional
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Modelo vectorial
El coeficiente en cada dimensión es igual al número de veces que el término correspondiente aparece en el documento o la consulta Puede considerarse el peso del término
Proximidad: coseno del ángulo entre los d l
j
dj
q
vectores documento y consulta
Resultado consulta:documentos cuyos vectores difieren de los de la consulta menos de un umbral determinado
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
i
q
93
Modelo vectorial: ejemplo
DocumentosDocumentos
Vectores
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Similitud
Fuente: Arms, curso de BiD
Modelo vectorial: ventajas
Asignar pesos a los términos mejora la calidad del conjunto de respuesta
La coincidencia parcial permite la recuperación de documentos próximos a las condiciones de la pregunta
El ranking basado en el coseno permite ordenar los documentos de acuerdo al grado de similitud los documentos de acuerdo al grado de similitud con la consulta
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
94
Filtrado
Colección de documentos variable con el tiempo Noticias, información financiera, ofertas de viajes, ...
Un perfil (profile) describe las preferencias del usuario
El perfil se compara con los documentos entrantes para recuperar los que se corresponden con élcorresponden con él
Puede aplicarse algún tipo de ranking a nivel interno
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Filtrado
User 2 Docs Filtered
User 1Profile
User 2Profile for User 2
Docs forUser 1
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Documents Stream
95
Filtrado: Construcción del perfilComo un conjunto de palabras clave suministradas por el
usuario mucho trabajo para el usuario: debe conocer las clasificaciones de
todos los sistemas generadores de documentos
Construcción dinámica e incremental Inicialmente se suministran unas palabras clave
Se recuperan documentos Se recuperan documentos
Mediante un ciclo de realimentación, el usuario indica cuáles de ellos son relevantes, y cuáles no lo son
El sistema actualiza automáticamente el perfil
El perfil se estabiliza con el tiempo
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Filtrado y RI
El filtrado es una tarea de RI, en la que el conjunto de documentos lo forman los documentos que van llegando al sistema
Se pueden computar rankings
Aproximación muy prometedora en la Sociedad de la InformaciónSociedad de la Información
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
96
Medidas de la RI
Si la RI fuese perfecta cualquier documento
Número de documentos relevantes recuperadosRecuperación =
Si la RI fuese perfecta, cualquier documento recuperado sería relevante para la consulta, y todo documento relevante en la colección sería recuperado
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Recuperación (recall) Número de documentos relevantes
Número de documentos relevantes recuperadosPrecisión = (precision) Número de documentos recuperados
Ejemplo
Colección de 10.000 documentos, de los cuales sólo 50 l lson relevantes para una consulta
Búsqueda ideal: encuentra los 50 y desecha el resto
Supongamos que una búsqueda real identifica 25 documentos, 20 de los cuales son relevantes y los 5 restantes no lo son
Recuperación: 20/50=0.4
Precisión:20/25=0.8
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
97
Referencias
Baeza, R. and Ribeiro, B. Modern Information Retrieval.Addison Wesley, 1999.
Arms, W. Digital Libraries.MIT Press, 2000
Curso de BiD. Cornell University, 2000.
Lesk M Practical Digital Libraries Morgan Kaufmann Lesk, M. Practical Digital Libraries. Morgan Kaufmann, 1997
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
RECUPERACIÓN DERECUPERACIÓN DE INFORMACIÓN: LA WEB
98
Objetivo
Ayudar al usuario a acceder a cierta f ó l b dinformación que se encuentra en la Web, de
forma eficiente y precisa.
"The best navigation service should make it easy to find almost anything on the Web ( ll th d t i t d) “(B t f th (once all the data is entered).“(Best of the Web 1994 – Navigators)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Búsquedas en la Web
2010
Formas de encontrar un documento en la red:
Introducir directamente la dirección URL en el navegador (aumenta su uso)
Navegar por la red usando links (decrece su uso)
Utilizar herramientas de
Búsqueda de información en la web (2003)
52.0%
15.0%
33.0%
usan dirección URLmotores de búsquedanavegan
.H.
Can
ós -
Zar
agoz
a, m
arzo
de
Utilizar herramientas de búsqueda (aumenta)
Bib
liote
cas
Dig
itale
s –©
J
99
Escenario general de RI
Docs Vista lógica
doc
RankingMatch (modelo de RI)
preproceso
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010Fuente: Baeza & Ribeiro, 1999
Information Need
Query (tarea de RI)
Ranking
La forma de la Web
Connectivity of the web: one can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC. (Broder, a. et al., Graph structure in the web, WWW9)
100
Escenario general de RI en la Web
Docs Vista lógica
doc
RankingMatch (modelo de RI)
preproceso
Information Need
Query (tarea de RI)
Ranking
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010Fuente: Baeza & Ribeiro, 1999
Problemática (I)
El gran tamaño de la red y su crecimiento:
Cobertura insuficiente del espacio web Espacio indexado < 16% para un buscador general.
Selección de páginas a indexar
Problemas de escalabilidad Arquitecturas convencionales (centralizada) no se escalan bienq
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
101
Problemática (II)
Se debe indexar decenas o cientos de millones de
páginas Web, dando lugar a un número comparable de
términos de índice
Acceso limitado de los robots de búsqueda Páginas invisibles por acceso restringido,... Tamaño web invisible aprox 500 veces web visible (Bergman,
2001)
Se debe dar respuesta a decenas de millones de
preguntas al día
Hay un problema de escala frente a las técnicas
tradicionales de RI
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Problemática (III)
Los datos están distribuidos en muchos ordenadores y l f di i i d plataformas con distintas prestaciones de acceso
Hay un alto porcentaje de datos volátiles (~40% de la web cambia mensualmente)
Los datos en la web están desestructurados
La calidad de los datos no siempre es buena (e.g.: no hay revisión de lo publicado)revisión de lo publicado)
Los datos son heterogéneos (e.g.: diferentes lenguajes)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
102
Problemática (IV)
¿Cómo especificar una pregunta?
¿Cómo interpretar los resultados de una búsqueda?
Especialmente si la lista de páginas es muy grande
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Problemática (V)
El entorno no siempre es amigable. Virus
Hackers
Spam Estrategias para modificar los resultados de las búsquedas con motivos comerciales
Repetir palabras, repetir palabras colocadas de forma estratégica, texto invisible estratégica, texto invisible
Efecto de la financiación privada sobre el desarrollo
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
103
Problemática (VI)
Los documentos que no aparecen en las primeras 2010 q p p
páginas son ignorados Problema del orden en la muestra de resultados
Efectos económicos y otros intereses
.H.
Can
ós -
Zar
agoz
a, m
arzo
de
Bib
liote
cas
Dig
itale
s –©
J
Spink, A., Jansen, B. J., Wolfram, D., & Saracevic, T. (2002). From e-sexto e-commerce: Web search changes. IEEE Computer, 35(3), 133-135.
Tipos de buscadores web
Dos tipos principales de buscadores: Directorios
Motores de búsqueda
Otros tipos de buscadores: Combinación de directorio y motor de búsqueda
Meta‐buscador
Buscadores específicos
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
104
Directorios
Páginas web donde la información está organizada de forma jerárquica según canales temáticos o categorías.
Los directorios están indexados manualmente
Yahoo Open directory Yahoo, Open directory
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Directorios
Ventajas Alta calidad en los resultados
Evita problemas como el spam
Inconvenientes Poca cobertura
Alto coste de mantenimiento
Desarrollo y evolución lenta y costosa
Subjetividad en la clasificación
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
105
Motores de búsqueda
Páginas especiales cuya función es ayudar a los
usuarios a encontrar información en otras
páginas
Los motores de búsqueda almacenan toda la
información de las páginas Web indexadas en
bases de datosbases de datos
Google, Altavista, MSN Search
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Motores de búsqueda
Ventajas Alta cobertura
Bajo coste de desarrollo y mantenimiento
“Objetividad”
Inconvenientes Inconvenientes Calidad en los resultados Sistemas de búsqueda convencionales no aptos
Spam
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
106
Motores de búsqueda
Diferencia con los motores convencionales:
Sólo se puede buscar en índices
Buscar en contenido supondría tener una copia local de los documentos
Arquitecturas:
CentralizadaCe t a ada
Distribuida
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Arquitectura centralizada
Crawler‐indexer Architecture
Basada en robots o crawlers:
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
107
Web Robots
Programas que recorren la Web automáticamente:
visitan un documento
recursivamente, recorren los hiperenlaces del documento
O b Otros nombres:
Web Wanderers
Web Crawlers
Spiders
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Aplicaciones de los robots
Indexación para posterior uso por un motor de búsqueda
Validación de HTML
Validación de enlaces
Mirroring
...
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
108
Robots: funcionamiento (I)
¿Cómo deciden adónde ir?
En general parten de una lista de URL que contienen muchos enlaces
servidores de listas, páginas “what’s new”, sitios más populares
exploración de grupos de news
Los usuarios pueden enviar URL al robot, el cual los visitará
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Robots: funcionamiento (II)
¿Qué indexa un robot de un documento?
Los títulos HTML
Las etiquetas META
Los primeros párrafos
Todo el documento
a veces con pesos en función de las marcas HTMLp
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
109
Ejemplo: Altavista
En 1998:
20 ordenadores multiprocesador
130 Gb de RAM
500 Gb de disco
El motor de búsqueda usa el 75% de los recursos
http://searchenginewatch.com/
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Motores de búsqueda
En 1998:
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
http://www.searchengineshowdown.com
110
Google aparece para mejorar los anteriores problemas
Calidad: Page Rank
Escalabilidad: Arquitectura que optimiza el uso del espacio disponible y los tiempos de acceso
Otros objetivos: Facilidad de manejo Facilidad de manejo
Promover la investigación en el campo de los motores de búsqueda
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Google Page Rank
Utiliza la estructura de hyperlinks para evaluar la importancia de las páginas
Una página a la que llegan muchos links será más importante que otra con apenas backlinks
No es suficiente con contar los backlinks que tiene cada página
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
111
Google Page Rank
Modela el comportamiento de un usuario aleatorio que…
Comienza a navegar por una página aleatoria
Navega utilizando links
Nunca vuelve hacia atrás
En ocasiones comienza de nuevo
El Page Rank de una página es la probabilidad de que este usuario llegue a dicha página
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Google: Arquitectura
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
112
Arquitectura distribuida
Ejemplo: Harvest
http://harvest.transarc.comBibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Metabuscadores
Servidores Web que envían una consulta determinada a varios motores de búsqueda, recogen las respuestas y las unifican
http://www.sc.edu/beaufort/library/lesson2.html
http://www.tusbuscadores.com/metabuscadores/
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
113
Conclusiones Las herramientas de búsqueda son necesarias debido al tamaño de
la red
Problemas a los que se enfrentan Tamaño Nº de búsquedas No hay centralización Volatilidad de Información Entorno Efectos económicos Elección de un ranking adecuado
Dos tipos de herramientas Directorios (alta calidad, poca cobertura) Motores de búsqueda (menos calidad, mayor cobertura)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Referencias
Baeza‐Yates, R. & Ribeiro‐Nieto, B., Modern Information Retrieval, Addison‐Wesley, 1999. Capítulo 13
The Web Robots Page:
http://info.webcrawler.com/mak/projects/robots/robots.html
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
114
Referencias The Anatomy of a Large‐Scale Hypertextual Web Search Engine.
Brin, Sergey and Page, Lawrence. Computer Science Department, , g y g , p p ,Stanford University, Stanford, CA 94305, USA. http://www‐db.stanford.edu/pub/papers/google.pdf
Impact Of Search Engines On Page Popularity. Junghoo, Cho and Sourashis, Roy. UCLA Computer Science. ACM 1‐58113‐844‐X/04/0005
http://info.webcrawler.com/mak/projects/robots/robots.html
How much information 2003. http://www.sims.berkeley.edu/research/projects/how‐much‐info‐
/i t t ht2003/internet.htm
http://searchenginewatch.com
Search marketing
Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
Referencias
Google: http://www.google.com
Altavista http //www altavista com Altavista: http://www.altavista.com
Yahoo: http://www.yahoo.com
HotBot: http://www.hotbot.com
Lycos: http://www.lycos.com
Excite: http://www.excite.com
MSM: http://search.msn.com/
Mamma: http://www.mamma.com/
Metacrawler: http://www.metacrawler.com/
Search Engine Guide: www.searchengineguide.com
Galaxy: http://www.galaxy.com/
WWW Virtual Library: http://www.vlib.org/
Educational Virtual Library: http://www.csu.edu.au/education/library.html
Earth Science Portal: http://webserv.gsfc.nasa.gov/ESD/
AllConferencesNet: http://www.allconferences.netBibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010
115
RECUPERACIÓN DERECUPERACIÓN DE INFORMACIÓN: INTEROPERABILIDAD
BiD: sistemas distribuidos
Repositorios
Usuarios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Sistemas de localización Sistemas de búsqueda
Sin embargo...
116
BiD: sistemas distribuidos heterogéneos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
El problema
¿Cómo descubrir información repartida en diferentes ordenadores...
Cada uno con sus propias reglas de gestión de la información
Cada uno usando tecnologías posiblemente diferentes
... sin que la carga del descubrimiento recaiga en l i ?el usuario?
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
117
Soluciones
Estandarización
Almacenamiento y transmisión de datos
Representación de consultas
Control de vocabularios
Federación
Autonomía de los nodos Autonomía de los nodos
Vista única para recuperación
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
Open Archives Initiative
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
http://www.openarchives.org
118
Conceptos básicos de OAI
• interoperabilidad a bajo nivel OAI 1 0 protocolinteroperabilidad a bajo nivel• modelo data-provider/service-provider• cosecha de metadatos(metadata harvesting)
• metadatos compartidos y formatos específicos de
OAI 1.0 protocol
HTTP basedReply • XML Schema
• Self contained
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
• metadatos compartidos y formatos específicos de cada comunidad• uso aceptable• flexibilidad
Dublin Core
Community specific
metadata e-print
OPAC
FTXT
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
image
A&I
119
OAI harvesting tools
h
service provider data provider
Supporting protocol requests:• Identify• ListMetadataFormats• ListSets
Harvesting protocol requests:
repos i t
harves t
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
• ListRecords• ListIdentifiers• GetRecord
tory
ter
Peticiones sobre HTTP
BASE URL > n /OAI s iptBASE-URL -----------> an.oa.org/OAI-scriptkeyword arguments --> verb=ListIdentifers&set=S1
GEThttp://an.oa.org/OAI-script?verb=ListIdentifers&set=S1
POSTPOST http://an oa org/OAI script HTTP/1 0
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
POST http://an.oa.org/OAI-script HTTP/1.0Content-Length: 78Content-Type: application/x-www-form-urlencodedverb=ListIdentifers&set=S1
120
Respuestas sobre HTTP
<xml version=1.0 encoding=“UTF-9” ?><GetRecord
xmlns=“http://oai.namespace.uri”xmlns:xsi=“http://w3.namespace.uri”xsi:schemaLocation=“http://oai.namespace.uri
http://oai.schemaURL”><responseDate>2000-19-01T19:30:30-04:00</responseDate><requestURL>http://an.oa.org/OAI-script?verb=GetRecord
&identifier=oai%3AarXiv%3A0001&metadataPrefix=oai dc</requestURL>
responseheader
xml namespaces
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
&metadataPrefix=oai_dc</requestURL><record>
record contents</record
additional records</GetRecord>
responsedata
What’s Next?
OAI‐ORE (Object Reuse and Exchange)
http://www.openarchives.org/ore/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010
121
Referencias
Arms, W. Digital Libraries MIT Press 2000 Digital Libraries.MIT Press, 2000 Curso de BiD. Cornell University, 2000.
Paepcke, A., et al., Interoperability for Digital LibrariesWorldwide. Communications of theACM, April 1998/Vol. 41, No. 4
Z39.50: http://www.loc.gov/z3950/agency/
DIENST:www.cs.cornell.edu/cdlrg/dienst/DienstOverview.htm
Open Archives: http://www.openarchives.org
Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010