1
BIBLIOTECAS DIGITALES
José Hilario Canós Cerdá
Departamento de Sistemas Informáticos y ComputaciónUniversidad Politécnica de Valencia
[email protected]://www.dsic.upv.es/~jhcanos
Asignatura Sistemas de Información DistribuidosMáster en Ingeniería de Sistemas e InformáticaZaragoza, 25‐27 de febrero de 2008
Motivación (1/2)
Según Lesk (1997): Hacia 2000, la producción mundial de cinta magnética será suficiente para que no haga falta eliminar nada de lo creado con un ordenador eliminar nada de lo creado con un ordenador …
… y llegará un momento en el cual ser capaz de encontrar la información será más importante que poseerla
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Motivación (2/2)
Proyectos exitosos de Bibliotecas digitales:…Google (!)
Desafíos: nuevos tipos de documentos, nuevos tipos de medios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
ObjetivosClarificar la noción de BiD y sus implicaciones
Presentar los modelos más aceptados de BiD
Introducir los principales aspectos a tener en cuenta en el desarrollo de Bibliotecas Digitales Multimedia, incluyendo, entre otros:
arquitecturas de BiDcatalogación, conservaciónflujos de trabajoalmacenamiento y recuperación de informacióninteroperabilidad
Revisar el estado del arte en investigación y desarrollo en el campo
Presentar las líneas de investigación del Grupo ISSI en el ámbito de las BiD:Gestión de bibliografíaSistemas de gestión de emergenciasOtros
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Contenido – Parte I
1. FundamentosIntroducciónArquitectura de Bibliotecas Digitales
2. Organización de la InformaciónMetadatosMetadatosFlujos de trabajo (Workflows) Conservación a largo plazo de la información digital
3. Recuperación de InformaciónRecuperación de Información textual Búsquedas en la WebInteroperabilidad
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Contenido – Parte II
El grupo SIA@ISSI:
1. Bibshare2. Sistemas de gestión de emergencias 3. Otros proyectos
DescripciónEstado actualDesafíos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
2
Bibliografía/MaterialBibliografía básica
Lesk, Michael. Understanding Digital Libraries, 2nd edition. Morgan Kauffman, 2005.Lesk, Michael. Practical Digital Libraries: books, bytes & bucks. Morgan Kauffman, 1997.Arms, William Y. Digital Libraries. MIT Press, 2000.Borgman, Christine L. FromGutenberg to theGlobal Information Infrastructure. MIT Press, 2000.Borgman, Christine L.. Scholarship in the Digital Age. MIT Press, 2007.Stefik, Mark. Internet Dreams. MIT press, 1996.Baeza, R. and Ribeiro, B. Modern Information Retrieval. AddisonWesley, 1999.
Bibliotecas Digitales – © J.H. Canós - DSIC – Curso 2007-2008
INTRODUCCIÓN─ ¿Por qué Bibliotecas Digitales?─Definiciones de BiD─Contenidos vs. Tecnología
d l─Requisitos de las BiD─Desafíos de las BiD─Recursos sobre BiD
Juegos de palabras...
digital object library multimedia library electronic library virtual library Information SuperHighway (I’way) National Information Infrastructure (NII)
¿Son sinónimos?
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
¿Por qué BiD? (I)Problemas de las bibliotecas:
Gran aumento en los costes de ediciónCoste de las publicacionesGrandes recortes en los presupuestos de las bibliotecas
La tecnología digital facilita la producción de libros y su La tecnología digital facilita la producción de libros, y su almacenamiento y distribución.
Además de libros, pueden crearse documentos multimedia
Los editores están cada vez más orientados al mundo digital, con el fin de reducir costes de producción e incrementar beneficios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
¿Por qué BiD? (II)
Cada vez hay más información disponible a través de las redes de comunicaciones.
Es más valioso ser capaz de encontrar información que poseerla in‐situ.
Grandes oportunidades para editores y escritores de ganar dinero
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Evolución de la tecnología
Hardware:
Procesadores cada vez más potentesMemoria más barata y rápidaMayor capacidad de almacenamiento
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
3
005
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Fuen
te:
Lesk
, 20
Evolución de la tecnología
Software:
Sistemas distribuidos, BD, ...
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
WWW (Berners-Lee)
Mosaic (Andreesen)
Explosión de servidores en el Web
Lecturas recomendadas
Michael Lesk:How much information is there in the World?Peter Lyman and Hal Varian:How much Information?Information?Página Web de Berkeley:
http://www.sims.berkeley.edu/research/projects/how‐much‐info‐2003/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
PionerosVannevar Bush (1945): “As we may think”J. R. C. Licklider (1965): “Libraries of the Future”Ernesto García Camarero: “El mundo de la Informática”. Cuadernos para el diálogo, Octubre 1971Grandes esfuerzos a partir de primeros de los 90 en EE.UU.
Orientados principalmente a explotar la tecnología desarrollada en los 80.Proyecto más importante: Digital Library Initiative (DLI, http://dli.grainger.uiuc.edu/national.htm)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Las BiD...¿son bibliotecas?"The broad goal of the Digital Libraries Initiative is to dramatically advance the means to collect, store, organize and use widely distributed knowledge resources containing diverse types of information and content stored in a variety of electronic forms.“ (DLI Mission Statement)
“Themission of the Carnegie Library of Pittsburgh is to be a force for education, information, recreation, and inspiration in the communities it serves.” (CL Pittsburgh Mission Statement)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
BiD: DefinicionesDigital library is a concept that has different meanings in different communities:To the engineering and computer science community, digital library is a
metaphor for the new kinds of distributed data base services that manage unstructured multimedia data. T h li i l d b i i i h To the political and business communities, the term represents a new marketplace for the world's information resources and services. To futurist communities, digital libraries represent the manifestation ofWells' World Brain.
(Gary Marchionini)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
4
BiD: Definiciones
The generic name for federated structures that provide humans both intellectual and physical access to the huge and growing worldwide networks of information encoded in multimedia digital formats.
(The University of Michigan Digital Library: This Is Not Your Father's Library, Birmingham, 1994)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
BiD: DefinicionesDigital libraries are a set of electronic resources and associated technical capabilities for creating, searching, and using information. In this sense they are an extension and enhancement of information storage andretrieval systems that manipulate digital data in any medium (text,images, sounds; static or dynamic images) and exist in distributed g , ; y g )networks. The content of digital libraries includes data, metadata that describe various aspects of the data (e.g., representation, creator, owner, reproduction rights), and metadata that consist of links or relationships to other data or metadata, whether internal or external to the digital library.
(UCLA‐NSF Social Aspects of Digital Libraries Workshop)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
BiD: DefinicionesDigital libraries are constructed ‐‐ collected and organized ‐‐ by a community of users, and their functional capabilities support the information needs and uses of that community. (...) In this sense they are an extension, enhancement, and integration of a variety of information institutions as physical places where resources are selected, collected,
i d d d d i f i organized, preserved, and accessed in support of a user community. These information institutions include, among others, libraries, museums, archives, and schools, but digital libraries also extend and serve other community settings, including classrooms, offices, laboratories, homes, and public spaces.
(UCLA‐NSF Social Aspects of Digital Libraries Workshop)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
BiD: DefinicionesA Digital Library is an organized database of digital information objectsin varying formats maintained to provide unmediated ease of access to a user community, with these further characteristics:
an overall access tool (e.g. a catalog) provides search and retrieval capability over the entire database;organized technical procedures exist through which the library management adds objects to the database and removes them according to a coherent and accessible collections policy.
(Peter Graham, Rutgers University Libraries)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
BiD: Definiciones
A digital library is a distributed technology environment which dramatically reduces barriers to the creation, dissemination, manipulation, storage, integration, and reuse p g gof information by individuals and groups.
(Edward A. Fox , editor, Source Book on Digital Libraries, pág. 65)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Palabras clave
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
5
Dimensiones
Aspectos fundamentales de las BiD:ContenidosServiciosT l íTecnologíaSociedad
¡Relacionados entre sí!
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Contenidos
Cualquier objeto puede ser representado digitalmente:
TextoA i l d Animales de un zoo...
Todos los contenidos presentan desafíos de tipo intelectual, técnico y cultural
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Niveles de descripciónTrabajo: concepto abstractoLa Ilíada, la 5ª de Beethoven, Unix
Expresión: un trabajo se hace real a través de una expresión:La Ilíada: oral > escrita (secuencia de palabras)La Ilíada: oral ‐> escrita (secuencia de palabras)Unix: código fuente/ejecutable
Manifestación: una expresión toma forma en una o más manifestaciones:5ª Beethoven: CD, TV, radio, ...Unix: CD, cinta, ftp ...
Ítem: cada una de las copias de una manifestación
Modelo IFLA, 1998:http://www.ifla.org/VII/s13/frbr/frbr.pdf
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Tipos de contenido: TextoEl tipo más frecuente
Escáner + OCR ‐> ASCII, UnicodeSe puede buscar de diferentes maneras:
Búsqueda de cadenas simpleMétodos más sofisticados
Manuscritos representados como imágenes
Requiere participación humanaErrores de OCRTraduccionesMarcado de textos (SGML, XML, ...)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Otros tipos de contenido “monomedia”
Lo primero es determinar el formato a utilizarImágenes: GIF, TIFF, JPEG, ...
Video (sin sonido): Quicktime, AVI, MPEG, ...
Sonido: AU WAV AIFF Sonido: AU, WAV, AIFF, ...
No siempre se puede optar por un único formato (plataformas múltiples)
¿Cuál es la resolución adecuada?
Problema principal: búsquedas por contenido
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Contenidos multimedia
Ejemplos:Video a la demanda, textos animados, juegos, ...Simulaciones por ordenador, mundos virtuales, ...
dPueden ser interactivos:Se proporciona un punto de entrada y el usuario toma decisiones
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
6
Gestión de contenidos
Selección y adquisiciónIndexaciónlAlmacenamiento
AccesoManejo de colecciones y preservación
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Servicios
¿Quiénes son los clientes de una BiD?¿Qué tipos de servicio ofrecer en una BiD?
Servicios de búsquedaReferencias ser icios de resp estaReferencias y servicios de respuestaFiltrado y diseminación selectiva de información
Enseñanza
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
¿Quiénes son los clientes de una BiD?
Una BiC suele dar servicio a una comunidad concreta...
¿Debería una BiD estar igualmente restringida a esa comunidad?
Una BiC a menudo posee servicios a usuarios con necesidades especiales (rampas de acceso, libros en Braille, ...)
Debe procurarse extender los servicios en entornos digitales
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Tipos de servicio (I)
BúsquedaEs el servicio de acceso más básicoEn BiC: metadatos
http://www.upv.es/bib/http://www.upv.es/bib/
En BiD: metadatos + contenidoMecanismos de búsqueda:
Línea/formularioNavegación (browsing)
Basada en clasificación jerárquica
Ideal: aproximación híbrida
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Tipos de servicio (II)Referencias
Uno de los servicios básicos de las BiCEn BiD:
Anticipación a las preguntas (FAQ)Usuarios nuevos, tópicos interesantes ..., p
Interacción asíncrona usuario‐bibliotecarioE‐mail, requiere participación humana, mucho uso del servicio ante las expectativas
Combinación de servicios automáticos y humanosFAQ + e‐mail si la FAQ falla
Interacción en tiempo real con el bibliotecarioHotline, chat, ...
Agentes software que reemplacen a los humanosProcesamiento del lenguaje natural
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Tipos de servicio (III)
Filtrado y distribución selectivaPerfiles de usuarioCada nueva incorporación se chequea frente a los perfiles, y se envía a los usuarios apropiadosperfiles, y se envía a los usuarios apropiadosMás sofisticado que la recuperación de informaciónFiltrado colaborativo: clasificación por interés de un colectivo de usuarios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
7
Tecnología
Pilares básicos de las BiD:HardwareRedes de alta velocidadS id dSeguridadInteroperabilidad
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
El kit del bibliotecario digital
Tipos de herramientas requeridas:
Herramientas de construcción de BiDVisualizadores de directoriosConvertidores de formatosChequeadores de consistencia de interfacesChequeadores de consistencia de interfacesVisores de objetosEncriptación de datosDefinición de metadatosGestores de índicesAnalizadores de logCopias de seguridadSimuladores de interfaces para comprobar el comportamiento en distintas plataformas...
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Tecnología vs. contenidos (I)
La tecnología no siempre ha dirigido los cambios en el manejo de la información:
Antes de la imprenta ya se vendía libros...y la imprenta no representó un cambio en la estructura de los y la imprenta no representó un cambio en la estructura de los mismos.
En el siglo XVIII cambió notablemente el contenido de los libros, sin cambios tecnológicos destacables...mientras que en el siglo XIX cambia la tecnología, pero no hay cambios sustanciales en los contenidos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Tecnología vs. contenidos (II)
En nuestra época asistimos a la revolución digital:
Durante más de una década, la mayor parte de los libros ha sido escrita en un ordenador...sin embargo, la gente sigue leyendo versiones en papelg , g g y p p
Las bibliotecas permiten consultar libros escritos mucho tiempo atrás, y versiones en papel de las obras actuales...¿qué van a hacer con la avalancha de información en formato electrónico?
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
¿Revolución?El cambio provocado por las nuevas tecnologías va a transformar radicalmente la sociedad
El acceso a información on‐line proporciona recursos que nunca antes habían estado disponiblesBibliotecas, museos, editoriales, etc., se transformarán radicalmente o, de lo contrario, desapareceránNuevas relaciones entre los actores:
Autores/editoresLectores/bibliotecasUniversitarios/publicaciones
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
¿Evolución?Las tecnologías surgen porque la sociedad toma decisiones que conducen a ellas
Las redes de ordenadores son continuación de redes de comunicaciones previas (telégrafo, teléfono, radio, televisión, ...)Los medios digitales y los digitalizados son extensiones de otros
l lpreviamente existentes, y las instituciones que los gestionan se adaptarán a ellos como lo hicieron con los anteriores (de Abdul Kassem Ismael a nuestros días...)
El papel convivirá con los bits
Editoriales, bibliotecas, universidades, etc., tienen unas funciones sociales que continuarán en el futuro, posiblemente de forma diferente
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
8
Co‐evolución
“Technology pushes, while demand pulls”
(Christine L. Borgman, 2000)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Requisitos de las BiD
BiD como BiC: características y circunstancias bajo las cuales una BiD debería emular a una BiC que contenga libros, imágenes y otros objetos materiales
Requisitos funcionales de las BiD
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Requisitos: BiD como BiCusers are usually elsewhere than the information they want, and often wish to correlate things from several sources;whoever wants to use a library must show permission to do so;different patrons are permitted different actions and to see different parts of each collection;to find specific information each user must understand the catalog structure;to find specific information, each user must understand the catalog structure;the catalog may describe items not actually held as part of the collection at hand;the catalog and the collected items are used differently and not necessarily housed in the same place;documents are cataloged with text descriptors and also with conventional properties, such as author names;
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Requisitos: BiD como BiC
documents contain cross references to other documents;document identifiers are different from document names; a document may have several names, one for each context, e.g., "Tales of Hoffmann" in English, "Les contes d'Hoffmann" in French, and "HoffmannsErzaehlungen" in German;translations of a document may express essentially the same
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
y p yinformation, e.g., versions of classic literature in different languages;each stored item is valuable, often with part of its residual value owned by its authors or authors‘ assignees;part of the value provided by a library is the provenance information it holds for each item;items are put into libraries because, while each is thought valuable for future reference, the specific individuals who will read it and the times when this will occur are not known.
(DL94: Digital Library: Gross Structure and Requirements: Report from a March 1994 Workshop)
Requisitos funcionales (I)1. *DL should allow the user to follow citation links forward and backwards (preferably to full
documents; otherwise to location information)
2. *DL should include an online meta‐thesaurus that users can search and browse. The meta‐thesaurus should integrated existing thesaurae across disciplines. It should also allow users to incorporate their own terms and edit existing terms. The thesaurus should allow users to type in a few letters of a word and see corresponding terms, should suggest or reference alternatives to users' terms. Users should be able to view no and type of documents associated with terms and link automatically from be able to view no. and type of documents associated with terms and link automatically from thesaurus terms to documents.
3. DL should include an acronym list to help users identify and search for terms.
4. Users should be allowed to save a record of their searches and what each search retrieved.
5. *Users should be able to search and view individual components of a document (e.g., author/title, abstract, figures, references) in a dynamic manner, specifying for each search which elements should be searched and which displayed.
6. *Users should be able to customize their interfaces so that search options, procedures are presented in the manner they like best.
7. Users should be able to view an overview description of the contents of the testbed.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Requisitos funcionales (II)8. *Display of full documents should mimic the look and feel of the article's print version in both page
layout and page "flipping" (i.e., users should be able to view multiple pages at once and in quick succession)
9. *Users should be able to design and launch their own user profiles for any particular search session, defining what they want and how they want to get it.
10 *Users should be able to move easily from query to results and back rather than moving in the10. *Users should be able to move easily from query to results and back, rather than moving in thelinear fashion common in online systems today, revising a query upon viewing results withouthaving to lose sight of the results or start a query over.
11. *Users should be able to easily create personal electronic article collections as a subset of the DL, manipulate and share that collection.
12. Users should be able to define and set their own access points for searching personal collectionsderived from the DL
13. DL should allow on‐screen highlighting, bookmarking to help in reading full articles.
14. Users should have access to DL from home and office.
15. DL should allow printing of full documents
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
9
Requisitos funcionales (y III)16. *Users should be able to jump to and view individual document components. They should be able to
skim, open, or skip individual document components.
17. DL should facilitate colleage networks: allow users to view list of contact info for authors, construct mailing list of colleagues to send documents to.
18. *DL should provide complete and intuitive online help: help balloons, full documentation, help with basic computing, gripe button, sample searches.
19. DL should allow users to make own links to commonly used external network resources (e.g., pre‐print databases, listservs)
20. Search parameters should include physical location of material not available online
21. DL should facilitate browsing at shelf, ToC, and article levels: users need overview and zoomcapabilities.
22. *Interface should resemble a "natural topography" of the information landscape... with a physicallayout, dynamically defined (topic, material type, author, etc.)
23. *DL should allow serendipitous discovery of "other books on the shelf," "other articles in thejournal." Perhaps set browse mode as a purposeful search option: by call no., journal title, etc.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
(University of Illinois at Urbana Campaign, 1994)
Situación actual de las BiDgran cantidad de materiales disponibles
gran diversidad de temas
organización muy pobre
calidad y estabilidad variablescalidad y estabilidad variables
gran parte desfasado
difícil de obtener o referenciar
frecuentes reorganizaciones de los sitios Web
los documentos pueden (o no) estar en formatos apropiados para imprimir o citar
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Desafíos de las BiD
“Crear una BiD supone crear toda una organización de máquinas y personas, quizás incluso una cultura en la cual la gente es capaz de incluso una cultura, en la cual la gente es capaz de buscar, obtener y usar la información”
(Lesk, pág. 5)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Lecturas recomendadas
Cap. 1 de Lesk, Arms, Borgman
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Recursos sobre BiDD‐Lib: http://www.dlib.org
JBIDI http://www.jbidi.org
Communications of the ACM (abril 1995, abril 1998)
IEEE Computer ‐‐‐DLI
Exploring the Digital Domain, 2nd edition:
http://cs.furman.edu/digitaldomain/
Virtual Library Implementation: Problems, Opportunities and Issues forToday’s Librarian: http://staff.washington.edu/larsson/conf/snit96/
Cursos de BiD en diferentes Universidades
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Conferencias sobre BiD
JCDL: http://www.jcdl2006.org
ECDL: http://www.ecdl2006.org
ICADL: http://www.icadl.org
RCDL: http://www.rcdl2005.uniyar.ac.ru/
JBIDI: http://www.jbidi.org
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
10
MODELOS Y ARQUITECTURAS
− Historia de las arquitecturas de BiD− Kahn & Wilensky framework− Forma almacenada, presentación y diseminación− Visión global
− Fedora
Historia de las arquitecturas de BiD
Dos aproximaciones principales:Construir clientes y servidores ad‐hoc (usandoMotif/X11, Tcl/Tk, etc.), y usarTCP/IP sólo como protocolo de transportep p
pros: gran funcionalidadcons: costes de desarrollo altos, problemas con la distribución y heterogeneidad de los clientesCuriosidad: muchos de los proyectos de este tipo gastaron más tiempo en desarrollar interfaces, protocolos, búsquedas, etc., que poblando las BiD!
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Historia de las arquitecturas de BiD
Dos aproximaciones principales (cont):
Uso de protocolos estándar, de más alto nivel, basados en TCP/IP: SMTP, FTP, Gopher, WAIS, http, etc.
cons: menos funcionalidad
pros: menor coste de desarrollo, dado que usan clientes normalmente disponibles
Esta aproximación ha dominado la segunda mitad de los 90
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Primeras BiD sobre TCP/IP
Netlibhttp://www.netlib.org/Comenzó en 1985, distribuyendo software matemático via e mail (SMTP)matemático via e‐mail (SMTP)Posteriormente se añadieron otros métodos y protocolos (ftp, cliente X11, http)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Zara
goza
, Fe
bre
ro d
e
2008
Accesos a Netlib
Bib
liote
cas
Dig
itale
s –©
J.H
. C
anós
-
Fuente:http://www.netlib.org/utk/misc/counts.html
Primeras BiD sobre TCP/IP
Servidor de pre‐prints de Físicahttp://xxx.lanl.gov/Comenzó en 1991 como servicio de e‐mail para el intercambio de fuentes de pre prints en TeX intercambio de fuentes de pre‐prints en TeX Pronto se añadieron accesos ftp y http
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
11
Primeras BiD sobre TCP/IP
Anonymous FTPUsado por numerosos departamentos de Informática para la distribución de informes técnicos y softwaretécnicos y softwareftp://techreports.larc.nasa.gov/ comenzó a finales de 1992El acceso http se añadió en 1994
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Primeras BiD sobre TCP/IP
Características:Útiles
Se podía encontrar lo que buscabas
Limitadas por el protocolo de transporteLimitadas por el protocolo de transporteInterfaces SMTP, FTP, etc. inherentemente pobresBúsquedas, formateos, browsing, ... difíciles de implementar
Escala reducida¿Hubiesen funcionado bien con colecciones de millones de items?
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Primeras BiD sobre HTTP
http es un protocolo de transporte muy general, y es posible construir protocolos de mayor nivel sobre élCombinando esto con clientes WWW más Combinando esto con clientes WWW más expresivos, hay un potencial grandísimoDienst
http://www.ncstrl.org/Dienst/htdocs/Info/protocol4.html
Implementa un auténtico protocolo de BiD sobre http
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Dienst: protocoloRepository Service
Describe‐VerbDisseminateFormatsList‐AuthoritiesList‐BindersList‐Contents
Index ServiceDescribe-VerbHeader-TagsList-VerbsSearchBoolean
Query Mediator Service
Collection ServiceDescribe-VerbList-VerbsRegionsCollectionPublishersQueryMediators
List‐EncodingsList‐Meta‐FormatsList‐PartitionsList‐VerbsList‐VersionsNew‐VersionSubmitSubmit‐FormatsStructureTermsWithdraw
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Query Mediator ServiceDescribe-VerbList-VerbsSearchBoolean
Q yIndicesRepositories
Info ServiceDescribe-VerbList-VerbsIdentityList-Services
A Framework for DistributedDigital Object Services
Kahn/Wilensky Framework (KWF, 1995)Es un documento de alto nivel que define los conceptos clave que forman la próxima
ió d BiDgeneración de BiDDLs beyond “make the ftp server look nice”
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Términos clave en KWF
Objeto Digital (digital object, DO)Unidad de intercambio en una BiD, con una estructura de datos y unas características particulares
Repositorio (repository)El lugar donde viven los DO
HandleUn nombre único y persistente para un DO
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
12
KWF
Originator
Digital Object
Datamakes a
which consists of
hi h
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Handle
Repository
Repository Access Protocol(RAP)
Handle Server
which comesfrom a handlegeneratorwhich can go in a
which is accessed by which registers the DOs handle with a
at which point the DO becomesa registered DO
Objetos digitales
Objeto Digital: elemento almacenado en una BiDNinguna referencia a contenido, g ,estructura, etc.Sinónimos: ítem, material, documento
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Objeto Digital
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Objeto digital
DO = datos + key‐metadataLos datos son tipados: tipos básicos incluyen:
bit‐sequence / set‐of‐bit‐sequencesdigital‐object / set‐of‐digital‐objectshandle / set‐of‐handles
key‐metadata incluye el handle, y posiblemente otros metadatos (no especificados en KWF)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Objetos digitales compuestos
Son DO con datos de tipo digital‐object
Los objetos digitales tienen estructura interna:
Una edición de un diario electrónico está almacenada en varios objetos separados (páginas HTML, imágenes digitalizadas de las páginas, ...), pero puede percibirse como un objeto único
Los DO compuestos pueden usarse para agrupar items relacionados:
Un DO para agrupar todas las obras de Cervantes
Un DO para agrupar todas las versiones o todos los formatos del Quijote...
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
HandlesNombres que persisten aunque el recurso al que identifican pueda cambiar su forma, ser almacenado en diversos repositorios, o cambiar en cualquier otra vía a lo largo del tiempo.
Handle system: sistema distribuido que almacena handles e información asociada, que se utiliza para localizar y acceder al ítem identificado por el handle
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
13
Handles: sintaxis
GLOBAL
LOCAL
hdl:cnri.dlib/july95‐arms
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Indicadorde handleAutoridad de
Nombramiento(repositorio) Identificador único
en el repositorio
Handles: estructura interna
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
handleDatos del handle: (tipo, valor)
(almacenados en un servidor de handles)inmutable
Pueden cambiarTransparente a los clientes
Handles: resoluciónResolver un handle:
Presentar un handle a un servidorObtener como respuesta información relacionada
Usualmente, la dirección adonde encontrar el ítem identificado l h dlpor el handle
El sistema Handle:Distribuido (muchos ordenadores alrededor del mundo)
Registro global de handles (en CNRI)Servicios de handle locales (e.g. LOC)Más información: http://www.handle.net
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Repositorios (I)
“Un sistema de almacenamiento ,accesible por red, en el cual los DO pueden ser almacenados para posibles accesos posteriores” (KWF)
U DO l d DO id i iUn DO almacenado es un DO que reside en un repositorio
Un DO registrado es un DO que el repositorio ha registrado en un servidor de handles
Almacenaje y registro pueden ser el mismo proceso, o procesos diferentes
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Repository Access Protocol(RAP)
Mecanismo sencillo de acceso a repositoriosDiseñado para ser simpleKWF define 3 clases de operaciones básicas:
ACCESS_DODEPOSIT_DOACCESS_REF
Sobre ellas se pueden definir meta servicios...
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Repositorios (II)
Estructura de un repositorio:
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
14
Repositorios (III)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Repositorios (y IV)
Arquitectura de un repositorio:
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Forma almacenada
La forma almacenada de un objeto digital es el formato en el que está almacenado en el repositorio
Un simulador de vuelo es un conjunto de programas, archivos de datos, etc.
No tiene por qué coincidir con la forma en que el objeto digital se disemina
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Presentación y diseminaciónPresentación: la manera en que un objeto digital es mostrado al usuario
Un piloto que use el simulador percibe imágenes, sonidos sintetizados y secuencias de control
Diseminación: la transformación de la forma almacenada a la presentación requiere la ejecución de algún programa (rendering)
1 Almacenamiento,n Presentaciones
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Visión global
Usuarios
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Repositorios
Sistemas de localización Sistemas de búsqueda
Usuarios
ReferenciasArms, W. et al.: An Architecture for Information in Digital Libraries. D‐Lib Magazine, February 1997.Arms, W.: Key Concepts in the Architecture of the Digital Library. D‐Lib Magazine, July 1995IFLA F nctional Req irements for Bibliographic Records IFLA: Functional Requirements for Bibliographic Records. 1998.Kahn, R. & Wilensky, R.:A Framework for Distributed Digital Object Services. 1995. http://www.cnri.reston.va.us/home/cstr/arch/k‐w.html
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
15
FEDORA
Flexible Extensible Digital Object Repository Architecture
¿Qué es Fedora?
Fedora es una Arquitectura de Gestión de Recursos Digitales, sobre la que se pueden construir muchos sistemas de Bibliotecas Digitales.
Fedora es la arquitectura de soporte de un repositorio digital, pero NO PROPORCIONA:
El servicio completo de gestor, indexador, buscador y proveedor de servicios
Herramienta de catalogación
Servicio de conservación
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
¿Qué es Fedora? (II)
Proporciona una capa de gestión de propósito general para objetos digitales.
Define un modelo de objetos digital genérico que puede ser usado para representar datastreams (unidades de contenido) tales como documentos, imágenes, libros electrónicos, objetos multimedia, conjuntos de datos, metadatos,... y colecciones de estos.
Los objetos pueden ser vistos como contenedores que le proporcionan un formato adecuado a la información que se almacena en ellos.
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
¿Qué es Fedora? (III)
El contenido puede ser almacenado tanto localmente en el repositorio como fuera de éste y referenciado por el objeto digital como un fichero
El modelo es simple y flexible:Se pueden crear muchos tipos de objetos digitales. Los objetos se manejan de manera homogénea en el repositorio.
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Objetos Digitales de Fedora
PID = uva-lib:100
Metadatos del sistema
Identificador del objeto Digital (Handle)
Metadatos necesarios para el manejo del objeto
ID Persistente (PID)
Relaciones (REL-Ext)
Dublin Core (DC)
Traza de Auditoría
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Image (mrsid)
Thumbnail (jpg)
Diseminadores: Punteros a definición de servicios para
proporcionar vistas en función de los servicios
Datastreams: Conjunto de datos y metadatos
Datastream (item)
Datastream (item)
Datastream (item)
Diseminador por defecto
Diseminador
Diseminador
BDEF 2
DC (xml)
Componentes de un objeto digital de Fedora
PID (parecido al Handle según K&W): Identificador único y persistente (no cambia) para el objeto dentro del Repositorio
Metadatos o Propiedades del Objeto: Conjunto de propiedades descriptivas definidas por el sistema necesarias para gestionar y llevar un seguimiento del objeto en el Repositorio. Todos los objetos tienen un metadato Dublin Core
d f
ID Persistente (PID)
Relaciones (REL-Ext)
Dublin Core (DC)
por defecto.
Datastreams: Representan contenidos de tipo MIME. Un objeto puede tener uno o más datastreams. Pueden estar almacenados en el repositotio o fuera de este (en este caso, Fedora mantiene un puntero a este en forma de URL).
Diseminadores: Servicios para transformar o representar un objeto. Asocia un servicio externo con el objeto para proporcionar vistas flexibles o funcionalidades del objeto. Un objeto puede tener de 0 a N diseminadores.
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Datastream (item)
Datastream (item)
Datastream (item)
Diseminador por defecto
Traza de Auditoría
Diseminador
Diseminador
16
Datastreams y Diseminadores
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Datastream y diseminadores (IV)
Datastream (Managed) Fedora almacena y gestiona el contenido bytestream
Fedora almacena una referencia (URL) al contenidoDatastream (External)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Fedora almacena una referencia (URL) al contenido,Pero no proporciona acceso al contenido.
Fedora almacena un bloque de contenido XML en un fichero XML.
Datastream (Redirect)
Datastream (XML)
Tipos de objetos digitales
Se diferencian en cómo el repositorio trabaja con ellos. Tipos:
Objetos de datosObjetos de definición de comportamientoObjetos de mecanismos de comportamiento
Los 2 últimos se usan para construir bloques para diseminadores que definen las operaciones que se pueden hacer con los objetos de datos y sus enlaces oportunos para proporcionar el servicio.
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Tipos de objetos digitales (II)
Objetos de datos:Representan entidades de contenido digitalContenido heterogéneo (imágenes, libros,...)
Objetos de definición de comportamientoAlmacenan una definición abstracta del servicio, en la forma de un conjunto abstracto de métodos.Cuando un diseminador apunta a un ODC, en realidad indica que soporta los métodos que contiene este ODC.
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Tipos de objetos digitales (III)
Objetos de mecanismos de comportamientoAlmacenan servicios a metadatos.Cuando un diseminador apunta a un OMC, en realidad indica que el diseminador usa esa implementación del servicio para los métodos abstractos que contiene el ODC.Contiene varios metadatos que indican en tiempo de ejecución como invocar los métodos del servicio.Metadatos
S i f ió d t d t á i t t l i f ió d ll d l Su información de metadatos más importante es la información de llamada al servicio contenida en Web Services Description Language (WSDL)
Usada en tiempo de ejecución para atender las peticiones de servicio de representación virtual de un objetoPermite invocar múltiples servicios de una manera estándar.
Contiene metadatos que definen el “contrato” entre el objeto de datos y el servicio. Son los "Datastream Input Specification”
Especificar los tipos de datastreams que están disponibles para un objeto de datos en este servicio.Permiten especificar los servicios disponibles para cada objeto de datos. Por ejemplo, no interesa asociar un servicio de conversión de texto con un objeto de tipo imagen.
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Tipos de objetos digitales (IV)
Persistent ID (PID)
Behavior DefinitionMetadata
System Metadata
DatastreamsData ObjectPersistent ID (PID)
Disseminators
System Metadata
Behavior Definition Object
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Persistent ID (PID)
Service BindingMetadata (WSDL)
System Metadata
DatastreamsWeb
Service
behavior contract
Datastreams
Behavior Mechanism Object
17
Ejemplo: Definición de objeto de imagen
2 def de Objetos de datos: Fichero de ImagenVersión de Alta Resolución: tifVersión de Baja Resolución: jpg
f d2 Definiciones de comportamientogetHighResolutionTIFgetLowResolutionJPG
2 Mecanismos de comportamientogetHighResolutionTIF
Permite visualizar en formato TIF
getLowResolutionJPGPermite visualizar en formato JPG
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Ejemplo: Utilización de objeto de imagen
MrSID Objeto de datos: Fichero de ImagenObjeto de mecanismos de comportamientogetHighResolutionTIF
procesa el fichero MrSID y devuelve un fichero de imagen TIF
getLowResolutionJPGprocesa el fichero MrSID y devuelve un fichero de imagen JPG
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Arquitectura del Servidor Fedora
Zara
goza
, Fe
bre
ro d
e
2008
Implementación de la funcionalidad en 2. Lógica de Aplicacion
Servicio Web para Acceso/BúsquedaServicio Web para GestiónOAI Provider (API)
1. Interfaz
Bib
liote
cas
Dig
itale
s –©
J.H
. C
anós
-
BBDDCache de objetos (mejor rendimiento)Registro de objetos digitales
Serializaciones de objetos XMLObjeto con versionesOperaciones de gestión en XML
3. Almacenamiento
términos del modelo de objetos digitales de Fedora.
g p
Arquitectura (II)
User Authentication
Se curityS bs ste m
Web ServiceExposureLayer
Manage Access Search OAI Provider
Management Access
HTTPHTTP SOAP HTTP SOAP HTTP SOAP
ClientApp
BatchProgram
ServerApp
WebBrowser
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
ExternalContent Source H
TT
P
External ContentRetriever
RDBMS
XML
Policies
Users/Groups
HTTP
Datastreams
Digital ObjectsStorage Subsystem
Subsyste m
SOA
P
RemoteService
Loc alService
Subsystem Subsystem
HT
TP
Policy Enforcement
Policy Mgmt
Content
Object Mgmt
Object Validation
PID Generation Dissemination
ObjectReflection
Search
Servicios de acceso
2 tipos de servicios de acceso:Un cliente para gestionar la introducción de contenidos, su mantenimiento, y la exportación de objetos. Proporciona el servicio básico si no se necesitan pdiseminadores personalizados.Una API para personalizar los accesos vía web para servicios construidos en HTTP o SOAP. Así Fedora sería el soporte de interfaces personalizadas.
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
API de Fedora
• Servicios de Gestión (API‐M)Ingest ‐XML‐encoded object submissionCreate ‐ interactive object creation via API requestsMaintain ‐ interactive object modification via API requestsValidate – application of integrity rules to objectsIdentify ‐ generate unique object identifiersSecurity ‐ authentication and access controlSecurity authentication and access controlPreserve ‐ automatic content versioning and audit trailExport ‐XML‐encoded object formats
• Servicios de Acceso (API‐A y API‐A‐LITE)Search ‐ search repository for objectsObject Reflection ‐what disseminations can the object provide?Object Dissemination ‐ request a view of the object’s content
• Servicio de proveedor OAI‐PMH• OAI‐DC records
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
18
Historia
• Investigación (desde 1997) : DARPA y el grupo de investigación de Bibliotecas Digitales de la Universidad de Cornell.El desarrollo de referencia se hizo en Cornell
• Primera aplicación (1999‐2001) : Prototipo hecho por la Universidad de VirginiaPruebas de stress para 1 millón de objetos.
• Software Open Source (desde 2002): Andrew W. Mellon Foundation hace aportaciones económicas importantes para su desarrollo.Fedora 1.0 se liberó en Mayo de 2003.Actualmente por la versión 2.1
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Distribución de Fedora
Código abierto 100% JavaTecnologías soportadas
Apache Tomcat 4.1 y Apache Axis (SOAP)p 4 y p ( )Xerces para XMLSaxonSchematronMySQL y MckoiOracle 9i
Plataformas de desarrolloWindows 2000, NT, XPSolarisLinux
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Más información
http://www.fedora.info
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Más software de repositorio
aDORe http://african.lanl.gov/aDORe/projects/adoreArchive/
DSpace http://www.dlib.org/dlib/january03/smith/01smith.html
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
METADATOS
Contenidos
MotivaciónAplicaciones de los metadatosCatálogosMARCDublin CoreRDFMODS/METSOtros esquemas de metadatos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
19
Motivación
Objetivo fundamental de una BiD: ayudar a los usuarios a encontrar informaciónEn muchas ocasiones, la información no se busca en los documentos sino en propiedades de los en los documentos, sino en propiedades de los mismos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
MetadatosDatos estructurados acerca de los datosDescriben propiedades del contenido
Descriptivos: información bibliográfica, géneros, ...Estructurales: información sobre formatos y estructurasAdministrativos: derechos permisos Administrativos: derechos, permisos, ...
Generalmente expresados como textoTexto: autor, fecha, páginas, etc.Imagen: resolución, formato, etc.Aunque pueden referirse a otro tipo de medio
Para los usuarios, son el camino hacia los contenidos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Catálogos
Colecciones de metadatos descriptivos
Compuestos de registros: descripciones breves de documentos, realizadas de acuerdo a reglas sistemáticas
Sirven para más cosas que la mera recuperación de información
Informan de propiedades que no se derivan directamente de los documentos: información sobre los autores, en qué museo se encuentran, etc.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Generación tradicional de catálogos
Reglas de catalogación
Anglo American CataloguingRules (AACR2)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
objeto digital
Registro de metadatosDatos de
referencias (MARC)
Fuente: W. Arms: Curso de BiD. Cornell, 2000
MARC: Ejemplo (I)
Caroline R. Arms, editor, Campus strategies for libraries and electronic information. Bedford, MA: Digital Press, 1990.
tag value001 89‐16879 r93050 Z675.U5C16 1990
Fuente: W. Arms: Curso de BiD. Cornell, 2000
082 027.7/0973 20245 Campus strategies for libraries and electronic title statement
information/Caroline Arms, editor.260 {Bedford, Mass.} : Digital Press, c1990. publisher300 xi, 404 p. : ill. ; 24 cm. collation440 EDUCOM strategies series on information technology series title504 Includes bibliographical references (p. {373}‐381).020 ISBN 1‐55558‐036‐X : $34.95
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
MARC : Ejemplo (y II)
650 Academic libraries‐‐United States‐‐Automation. subject heading650 Libraries and electronic publishing‐‐United States.650 Library information networks‐‐United States.650 Information technology‐‐United States.
Fuente: W. Arms: Curso de BiD. Cornell, 2000
700 Arms, Caroline R. (Caroline Ruth)040 DLC DLC DLC043 n‐us‐‐‐955 CIP ver. br02 to SL 02‐26‐90985 APIF/MIG
http://lcweb.loc.gov/marc/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
20
MARC: codificación
tag: 260
subfield a: {Bedford, Mass.} :
subfield b: Digital Press,
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
subfield c: c1990.
MARC encoding:
&2600#abc#{Bedford, Mass.} :#Digital Press,#c1990.%
Catálogos compartidos
OCLC: repositorio de metadatos en formato MARCCuando una biblioteca cataloga un libro, deposita el registro MARC en OCLCdeposita el registro MARC en OCLCOtras bibliotecas pueden copiar el registroLa base de datos de OCLC tiene más de 57 millones de registros
www.oclc.org
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Online public access catalog (OPAC)
Servicio imprescindible hoy en día en BiCDos etapas de implantación
Primera etapaLa biblioteca deposita sus registros MARC en un servidorProporciona acceso al servidor por terminales dedicadosProporciona acceso al servidor por terminales dedicadosBúsqueda booleana por campos (ver tema 5)La mayor parte de BiC universitarias lo tienen desde primeros de los 90
Segunda etapaLa biblioteca conecta su servidor a la red del campus e InternetTransforma paulatinamente sus fichas catalográficas a MARC
www.upv.es/bib
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Comentarios sobre MARC
☺Un gran avance☺Desarrollado en los 60☺Ampliamente difundido
Muy complejoNo se diseñó pensando en su tratamiento algorítmico
No es UnicodeTransición muy costosa
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Generación tradicional de metadatos☺La experiencia de los humanos produce
catálogos e índices de alta calidad
Muy cara (más de 50$ por registro)Cuesta mucho tiempoReglas de catalogación engorrosasLenta adaptación a los cambios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Dublin Core
Conjunto simple de metadatos para información on‐line
15 elementos básicosAplicable a todo tipo de material digitalAplicable a todo tipo de material digitalTodos los elementos opcionalesTodos los elementos repetibles
Desarrollado por un grupo internacional, liderado por Stuart Weibel
http://www.dublincore.org/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
21
Dublin Core elements
1. Title The name given to the resource by the creator or publisher.
2. Creator The person or organization primarily responsible for the intellectual content of the resource For
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
responsible for the intellectual content of the resource. For example, authors in the case of written documents, artists, photographers, or illustrators in the case of visual resources.
3. Subject The topic of the resource. Typically, subject will be expressed as keywords or phrases that describe the subject or content of the resource. The use of controlled vocabularies and formal classification schemes is encouraged.
Dublin Core elements
4. Description A textual description of the content of the resource, including abstracts in the case of document-like objects or content descriptions in the case of visual resources.
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
5. Publisher The entity responsible for making the resource available in its present form, such as a publishing house, a university department, or a corporate entity.
6. Contributor A person or organization not specified in a creator element who has made significant intellectual contributions to the resource but whose contribution is secondary to any person or organization specified in a creator element (for example, editor, transcriber, and illustrator).
Dublin Core elements
7. Date A date associated with the creation or availability of the resource.
8. Type The category of the resource, such as home page, novel poem working paper preprint technical report essay
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
novel, poem, working paper, preprint, technical report, essay, dictionary.
9. Format The data format of the resource, used to identify the software and possibly hardware that might be needed to display or operate the resource.
10. Identifier A string or number used to uniquely identify the resource. Examples for networked resources include URLs and URNs.
Dublin Core elements
11. Source Information about a second resource from which the present resource is derived.
12. Language The language of the intellectual content of
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
g g g gthe resource.
13. Relation An identifier of a second resource and its relationship to the present resource. This element permits links between related resources and resource descriptions to be indicated. Examples include an edition of a work (IsVersionOf), or a chapter of a book (IsPartOf).
Dublin Core elements
14. Coverage The spatial locations and temporal durations characteristic of the resource.
15 Rights A rights management statement an identifier
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
15. Rights A rights management statement, an identifier that links to a rights management statement, or an identifier that links to a service providing information about rights management for the resource.
Uso de DC en HTML (I)
<HTML><HEAD><TITLE>UKOLN Home Page</TITLE><META NAME="DC.Title” CONTENT="UKOLN: UK Office for Library and Information Networking"><META NAME="DC.Subject" CONTENT="national centre, network information support, library community,
Fuente: A. Powell. UKOLN, University of Bath, 1998
pp , y y,awareness, research, information services, public library networking, bibliographic management, distributed library systems, metadata, resource discovery, conferences, lectures, workshops"><META NAME="DC.Description" CONTENT="UKOLN is a national centre for support in network information management in the library and information communities. It provides awareness, research and information services"><META NAME="DC.Creator" CONTENT=”UKOLN Information Services Group"></HEAD>...
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
22
Uso de DC en HTML (II)
<meta name= "DC.publisher" content="OCLC">
<meta name="DC. creator" content="Weibel Stuart L ">
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<meta name= DC. creator content= Weibel, Stuart L. >
<meta name="DC. creator" content="Miller, Eric J.">
<meta name="DC. title" content="Dublin Core Reference Page">
<meta name="DC. date" content="1996-05-28">
<meta name="DC. form" content="text/html">
<meta name="DC. language" content="en">
Dublin Core calificadoLa semántica de DC es muy amplia
En ocasiones es poco informativa
Los calificadores son una especie de atributos “a la” XML que permiten:
Refinar el significado de los elementos de DC mediante ‘type’:Refinar el significado de los elementos de DC mediante type :Relation TYPE=IsPartOf
Asociar valores a los elementos de acuerdo a esquemas externos:Subject SCHEME=LCSHDate SCHEME=ISO 8601
Indicar el lenguaje en el que está expresado un valorTitle LANGUAGE=en
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Calificadores: ejemplo
DC.Date -> Created: 1997-11-01
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
DC.Date -> Issued: 1997-11-15
DC.Date -> Available: 1997-12-01/1998-06-01
DC.Date -> Valid: 1998-01-01/1998-06-01
DC con calificadores:ejemplo en XML
<title>Digital Libraries and the Problem of Purpose</title>
<creator>David M. Levy</creator>
<publisher>Corporation for National Research Initiatives</publisher>
<date date type = "publication">January 2000</date>
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<date date-type = publication >January 2000</date>
<type resource-type = "work">article</type>
<identifier uri-type = "DOI">10.1045/january2000-levy</identifier>
<identifier uri-type =
"URL">http://www.dlib.org/dlib/january00/01levy.html</identifier>
<language>English</language>
<rights>Copyright (c) David M. Levy</rights>
RDF
Resource Description Framework
Desarrollado con participación de varias comunidadesPlatform for Internet Content Selection (PICS)Web Collections (Site maps, MCF)Libraries, museums, archives (DC)Privacy (P3P)
Actividad de metadatos del W3CModel and Syntax WGSchema WG
Objetivo: Interoperabilidad de metadatossemántica, estructura, sintaxis
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
El modelo de RDF
RecursoTipo de propiedad
Valor
Propiedad
basado en un modelo matemático
diagramas arco‐nodo
recursos Web representados por nodos con URI
“descripción”: colección de propiedades
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Propiedad
23
RDF: ejemplo
http://www.ukoln.ac.uk/metadata/Author
Andy Powell
“Andy Powell es autor del recurso identificado por http://www.ukoln.ac.uk/metadata/”
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
RDF: ejemplo estructurado
http://www.ukoln.ac.uk/metadata/Author
Name Email
proporciona metadatos estructurados a base de reemplazar valores textuales por nodos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Andy Powell [email protected]
Name Email
RDF: reification
http://somewhere.com/page.htmlCost
£0.05
expresar sentencias sobre propiedades
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
1998-09
ValidUntil
RDF: serialización
http://www.ukoln.ac.uk/metadata/Title The UKOLN
Metadata HomePage
Title
<RDF:RDF><RDF:Description
una descripción RDF puede expresarse en XML
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
RDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>
</RDF:Description></RDF:RDF>
RDF: serialización
http://www.ukoln.ac.uk/metadata/Title The UKOLN
Metadata HomePage
Title
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>
</RDF:Description></RDF:RDF>
RDF: serialización
http://www.ukoln.ac.uk/metadata/Title The UKOLN
Metadata HomePage
Title
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>
</RDF:Description></RDF:RDF>
24
RDF : serialización
http://www.ukoln.ac.uk/metadata/Title The UKOLN
Metadata HomePage
Title
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Page
<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>
</RDF:Description></RDF:RDF>
RDF: propiedades múltiples
<RDF:RDF>
Una descripción puede incluir más de una propiedad:
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title><Keywords>Dublin Core, MARC, TEI, IAFA, … </Keywords><Description>Start of several Web pages about metadata
</Description></RDF:Description>
</RDF:RDF>
DC en RDF
http://www.ukoln.ac.uk/metadata/The UKOLN
Metadata HomePage
DC:Title
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<RDF:RDF><RDF:Description RDF:HREF=”http://www.ukoln.ac.uk/metadata/”><DC:Title>The UKOLN Metadata Home Page</DC:Title>
</RDF:Description></RDF:RDF>
DC en RDF
http://www.ukoln.ac.uk/metadata/The UKOLN
Metadata HomePage
DC:Title
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<?xml:namespace ns="http://purl.org/dublin_core/schema/" prefix=”DC"?>
<RDF:RDF><RDF:Description RDF:HREF=”http://www.ukoln.ac.uk/metadata/”><DC:Title>The UKOLN Metadata Home Page</DC:Title>
</RDF:Description></RDF:RDF>
DC en RDF
http://www.ukoln.ac.uk/metadata/The UKOLN
Metadata HomePage
DC:Title
<?xml:namespace ns="http://www.w3.org/TR/WD-rdf/"
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
p p // g/ / /prefix=”RDF"?>
<?xml:namespace ns="http://purl.org/dublin_core/schema/" prefix=”DC"?>
<RDF:RDF><RDF:Description RDF:HREF=”http://www.ukoln.ac.uk/metadata/”><DC:Title>The UKOLN Metadata Home Page</DC:Title>
</RDF:Description></RDF:RDF>
DC en RDF<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.0/">
<rdf:Descriptionrdf:about="http://www.ukoln.ac.uk/metadata/resources/dc/datamodel/
WD-dc-rdf/">
<dc:title> Guidance on expressing the Dublin Core within the ResourceDescription
Framework (RDF) </dc:title>
<dc:creator> Eric Miller </dc:creator>
<dc:creator> Paul Miller </dc:creator>
<dc:creator> Dan Brickley </dc:creator>
<dc:subject> Dublin Core; Resource Description Framework; RDF; eXtensible
Markup Language; XML </dc:subject>
<dc:publisher> Dublin Core Metadata Initiative </dc:publisher>
<dc:contributor> Dublin Core Data Model Working Group </dc:contributor>
<dc:date> 1999-07-01 </dc:date>
<dc:format> text/html </dc:format>
<dc:language> en </dc:language>
</rdf:Description>
</rdf:RDF>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
25
RDF: estado actual
http://www.w3c.org/RDF
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
MODS
Metadata Object Description SchemaDesarrollado por LOC
Objetivo: dar el salto al mundo XML de forma compatible con MARC
http://www.loc.gov/standards/mods
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Características de MODS
Etiquetas basadas en lenguaje naturalLos elementos tienen las mismas definiciones que elementos equivalentes en MARCElementos particularmente aplicables a recursos digitalesXML schema permite aprovechar la flexibilidad y disponibilidad de herramientas libres disponibles l
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Elementos de alto nivel de MODS
Title InfoNameType of resourceGenre
NoteSubjectClassificationRelated item
Origin InfoLanguagePhysical descriptionAbstractTable of contentsTarget audience
IdentifierLocationAccess conditionsPartExtensionRecord Info
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Ejemplo:
Music record in MODS
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Ventajas de MODS
El conjunto de elementos es compatible con los esquemas de grandes bases de datos bibliográficasEl conjunto de elementos es más rico que Dublin Core, y más simple que MARCEtiquetas basadas en lenguaje natural, más amigables que las etiquetas numéricas de MARCLa jerarquía permite descripciones más ricas, especialmente de objetos digitales complejosLa descripción funciona bien con descripciones jerárquicas en METS
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
26
Metadata Encoding and Transmission Standard
METS es un esquema XML diseñado con el propósito de crear documentos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
con el propósito de crear documentos que expresen la estructura jerárquica de los objetos digitales, los nombres y localizaciones de los archivos que los componen, y los metadatos asociados.
http://www.loc.gov/mets
Secciones de un documentoMETS (parcial)
<mets><dmdSec/> (Metadatos descriptivos)<amdSec/> (Metadatos administrativos)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<amdSec/> (Metadatos administrativos)<fileSec/> (Archivos)<structMap/> (Estructura)
</mets>
METS Extension Schemas
Two sections (dmdSec and amdSec) serve as “wrappers” or“sockets” where elements from other schemas, called "extension
h ” b l d i Thi i th h i b hi h
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
schemas” can be plugged in. This is the mechanism by whichMETS is extensible. It is accomplished by using the XML Schemafacility for combing vocabularies from different Namespaces.
METS Editorial board has endorsed extension schemas forbibliographic data (MARCXML, MODS, DC), for technicalmetadata for still images (MIX), and technical metadata for text(TextMD).
Estructura
<mets><structMap>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<structMap> <div>
<div></div></div>
</structMap></mets>
Ejemplo 1
Archivos
<mets>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<mets><fileSec></fileSec><structMap></structMap>
</mets>
Example 2
Metadatos descriptivos
<mets><dmdSec></dmdSec>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<dmdSec></dmdSec><fileSec></fileSec><structMap></structMap>
</mets>
27
Metadatos descriptivos con mdRef
<mets>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<dmdSec><mdRef/>
</dmdSec><fileSec></fileSec><structMap></structMap>
</mets>
Ejemplo 3
Metadatos descriptivos con mdWrap
<mets><dmdSec>
<mdWrap><xmlData>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<!– insertar datos de namespace(s) diferentes --></xmlData>
</mdWrap></dmdSec><fileSec></fileSec><structMap></structMap>
</mets>
Example 4Example 5 Example 6
Metadatos administrativos con mdWrap
<mets><amdSec>
<techMD><mdWrap>
<xmlData>
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
<xmlData><!-- insertar datos de namespace(s) diferentes -->
</xmlData></mdWrap>
</techMD></amdSec><fileSec /> <structMap />
</mets>
Example 7
Example 8
Otros esquemas de metadatos
Channel Definition Format (CDF) http://www.microsoft.com/standards/cdf.htm
Global Information Locator Service (GILS)http://www.usgs.gov/gils/index.html
Meta Content Framework (MCF) http://www.textuality.com/mcf/MCF‐tutorial.html
Platform for Internet Content Selection (PICS)Platform for Internet Content Selection (PICS)http://www.w3.org/pub/WWW/PICS/
Rich Site Summary (RSS) http://purl.org/rss
Summary Object Interchange Format (SOIF)http://harvest.cs.colorado.edu/
Uniform Resource Characteristics (URCs)http://www.acl.lanl.gov/URC/
Wireless Markup Language (WML)http://www.wapforum.org/
Text Encoding Initiative (TEI)http://www‐tei.uic.edu/orgs/tei/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
ReferenciasArms, W.
Digital Libraries. MIT Press, 2000Curso de BiD. Cornell University, 2000.
Lesk, M. Practical Digital Libraries. Morgan Kaufmann, 1997
Powell Andy: Metadata for the Web :DF and the Dublin Powell, Andy: Metadata for the Web :DF and the Dublin Core.Presentación en UKOLUG, Manchester Conference Centre ‐ July 1998. http://www.ukoln.ac.uk/metadata/presentations/ukolug98
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Fuentes de informaciónhttp://www.ifla.org/II/metadata.htm
Muchos recursos sobre metadatosCompletísimo!
http://www.ukoln.ac.uk/metadata/p // / /ídem
http://www.w3.org/RDF/página “oficial” sobre RDF
http://www.loc.gov/standards/modshttp://www.loc.gov/standards/mets
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
28
FLUJOS DE TRABAJO Procesos de negocio
Procesos en las organizaciones
Procesos materiales Procesos deinformación
– Descripciones, orientadas al mercado, de las actividades de una organización, implementadas como procesos de información y/o materiales
– Un PN se crea con el objetivo de cumplir con un contrato, de satisfacer las necesidades de un cliente, etc.
– Ensamblar componentes físicos y producir productos físicos
– Tareas humanas (mover, almacenar, transformar ...)
– Tareas automáticas o semi-automáticas– Crear, procesar, gestionar y producir
información– Infraestructura: ordenadores, bases de
datos, procesamiento de transacciones, sistemas distribuidos, ...
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Ejemplo de PN
Aseguradora PeritoRecibir parte
Recoger información acerca del siniestroy del cliente
Gestión de Clientes
Comprobar que los datos del cliente son correctos
Clasificación de partes
Pagos y Autorizaciones
Incendio
Evaluación de daños
Contactar Cliente Visitar Propiedad
Analizar los datos recibidos
Comprobar propiedad
DEPARTMENTO DE PÓLIZAS
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Determinarlímitede indemnización Estimación del coste
Establecer la estimaciónfinal del coste
PagoActualizar datos
Siniestro cerrado
Actualizar perfildel cliente
Estimarcoste
Estudiar casossimilares
DEPARTAMENTO DEINDEMNIZACIONES
Dimensiones de los PN
Función• Descomposición de
funciones de alto nivel en tareas
Comportamiento• Cómo y cuándo se
llevan a cabo las tareas
Organización• Quién lleva a cabo las
tareas, y con qué herramientas
Información• Datos del negocio y
documentos que son objeto de las actividades
Proceso de
negocio
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Automatización de los PN (I)
PresentaciónPresentación
Lógica de la aplicación
Lógica de la aplicación
Ventanas, Formularios, Web ...
Funciones, Procedimientos, Métodos ...
C
IO
F
Apropiada para implementaciones“desde cero”. Sin embargo...
Gestión de recursos
Gestión de recursos SGBD, Recuperación de textos, sistema de archivos, ...
P
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Automatización de los PN (y III)
Existe una tecnología que soporta bien los PNorientada a los procesos
definiciónejecuciónmonitorización
que da cuenta de las 4 dimensiones de los PN i t l h i t i t tque integra las herramientas preexistentes
Sistemas de Gestión de Flujos de TrabajoSistemas de Gestión de Flujos de Trabajo
“ ... there must be a way to implement large and heterogeneousdistributed execution environments where sets of interrelatedtasks can be carried out in an eficient and closely supervisedfashion. This is where workflow management systems come in tothe picture.”
(Alonso et al., 1997)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
29
Metamodelo de FT
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Procesos: comportamiento
activestart
end_running
running
[start_condition=true]^run
executed
terminated
finished[end_condition=false]^terminate
[end_condition=true]^finish
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Flujos de control y de datos
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Tipo vs. instancia
Fill the kettle
Heat the water
Place the coffee in cup
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Pour hot water on coffee
Sistemas de Gestión de Flujos de Trabajo
Un SGFT es un sistema que define, crea y gestiona la ejecución de FTmediante el uso de software, siendo capaz de interpretar la definicióndel proceso, interactuar con los participantes y, donde se requiera,invocar el uso de herramientas y aplicacionesinvocar el uso de herramientas y aplicaciones.
Workflow Management Coalition
(http://www.wfmc.org)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
SGFT: Funcionalidad
Servicio de ejecución del FT
Definición del FTBuild-time
Run-time t l ejecución del FT
Aplicaciones invocadasUsuarios
control
Run-time interactions
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
30
Arquitectura: Modelo de referencia (WfMC)
Herramientas dedefinición
del Proceso
Interfaz 1
Motor(es) de FT
Servicio de ejecución de FT
API e intercambio de formatos
Herramientas deAdministración yMonitorización
Interfaz 5
Aplicaciones Clientes FT
Aplicacionesinvocadas
Interfaz 3Interfaz 2
Interfaz 4
Motor(es) de FT
Otros servicios de ejecución de FT
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
10 años después
Windows Vista incorpora en el núcleo un motor de procesos de negocio factor común de las distintas herramientas workflow‐oriented de Microsoft (BizTalk Server, Exchange Server, SharePoint Services, Outlook Rule Engine, etc.)
.NET Framework 3.5 incluye una biblioteca de tipos llamada y pWindows Workflow Foundation (WF) que permiten hacer uso de dicho motor de procesos de negocio
Visual Studio 2008 incluye un tipo de proyecto “Workflow” que permite desarrollar visualmente sobre WF
Aplicaciones de consola de “flujos de trabajo secuenciales” y “flujos de trabajo basados en máquinas de estados”Bibliotecas de actividades de flujo de trabajoBibliotecas de flujos de trabajos
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
10 años después…
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
10 años después…
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Flujos de trabajo y bibliotecas digitales
Los procesos están muy presentes en el desarrollo, mantenimiento y operación de las BiD
Tema tradicionalmente olvidado por la comunidad de BiD
Interés (c)reciente
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Motivación
Los modelos de BiD están fuertemente influenciados por la perspectiva “repositorio”
Es necesario ampliar la visión estática de las BiD para incorporar todos los aspectos relacionados con gestión de contenido que quedan fuera de la visión tradicional
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
31
La nueva visión
UsuariosAdministradores
Procesos/Servicios
Público
En una Bid, Colecciones de Objetos digitales son gestionadas mediante una
i d d di
Repositorios
Sistemas de localización Sistemas de búsqueda
Motor de procesos
serie de procesos de diversa índole:
SelecciónAdquisiciónCatalogaciónConservaciónGestión de usuarios …
Los procesos implementan los servicios que la BiD ofrece a todos sus potenciales usuarios
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
¿Una moda… o algo más?
La comunidad de BiD se ha fijado en los flujos de trabajo solo cuando el problema de la estructura de la información está más que resuelto
Hasta ahora, los procesos se han implementado mediante scriptsFragmentación, pérdida de entidad
óNoción de instancia inexistenteDifícil monitorizaciónMucho esfuerzo!!
Han comenzado a hablar del tema sin ni siquiera tener claras las nociones básicas (ver, por ejemplo, OAI‐ORE) ‐> errores graves de concepto
El mayor riesgo: la reinvención de la rueda
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Referencias
G.Alonso, D. Agrawal, A. El Abbadi, C.Mohan. Functionality and Limitations of current workflowManagement systems, IEEE‐Expert, 1997.
G.Alonso, C.Mohan. Workflow Management Systems: The next generation of distributed processingtools, In "Advanced Transaction Models and Architectures", S. Jajodia and L. Kerschberg (Eds.),Kluwer Academic Publishers, 1997, pp. 35‐‐62.
Georgakopoulos, D., Hornick, M., Sheth, A., An overview of workflow managenement: form processmodeling to workflow automation infraestructure Distributed and Parallel Databases Vol 3 n 2modeling to workflow automation infraestructure, Distributed and Parallel Databases. Vol.3, n.2,April 1995.
Hollingsworth, D., TheWorkflow Reference Model, Technical report TC00‐1003, WfMC, December,1994. Disponible en http://www.wfmc.org/
Mohan, C., Tutorial: State of the Art in Workflow Management System Products and Research,disponible en http://www.almaden.ibm.com/cs/people/mohan/
Sheth, A. et al., Report from the NSF Workshop on workflow and Process Automation in InformationSystems. Computer Science Department Technical Report, UGA‐CS‐TR‐96‐003, University ofGeorgia, October 1996. (Disponible en http://lsdis.cs.uga.edu/activities/NSF‐workflow/final‐report.ps).
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
CONSERVACIÓN A LARGO PLAZO DE LA INFORMACIÓN DIGITAL
Visión global
Usuarios
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Repositorios
Sistemas de localización Sistemas de búsqueda
Usuarios
Motivación (I)Objetivo fundamental de una BiD: ayudar a los usuarios a encontrar información ...
...ahora y en el futuro
Vida media de los diferentes soportes:
Fuente: W. Arms: Curso de BiD. Cornell, 2000
p
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Material Approximate life (years)
Acid-free paper 500+Microfilm 300Optical disks 100?
Color film 25-50CDs 20?
Magnetic disk and tape 5
DSIC1
Diapositiva 186
DSIC1 podria introducirse antes de esta traspa un fragmanto del articulo de rothenberg.dsic; 26/09/2001
32
Motivación (II)El almacenamiento digital sólo conserva contenido “crudo”:
A veces en formatos no estándarSi el software desaparece, no se puede acceder al contenido
Fuente: Lesk, 1997, pág. 194
Ejemplo: procesadores de textoByte 1985: Wordstar, Leading Edge, Multimate, MS Word, PFS:write, Samna, WordPerfect, XywriteByte 1995: MS Word, Lotus Word Pro, DeScribe, Nota Bene, Clearlook, WordPerfect, Accent Professional, Xywrite
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Motivación (III)
El hardware también caduca (~5‐10 años)Aunque el software perdure, si no se dispone del código fuente puede ser muy difícil ejecutarlo en arquitecturas modernas
Aunque el hardware perdure, puede ser poco rentable empeñarse q p , p p pen mantenerlo
En toda BiD es necesaria una política de conservación de los contenidos, que trascienda el mero problema de la conservación digital
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
jh1
Objetivo de la conservaciónGarantizar la disponibilidad de los objetos digitales en el futuro
En tres subáreas:Conservación intelectualConservación del medioConservación de la tecnología
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Conservación intelectual
Problema: integridad y autenticidad de la información tal y como se grabó originalmente
La naturaleza del software (y, similarmente, de los (y, ,objetos digitales), impide utilizar características físicas para identificar unívocamente a un objeto
Es realmente problemático definir qué es autenticidad de contenido y apariencia en el contexto de los objetos digitales
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Conservación del medioObjetivo: conservar en condiciones el medio en el que se almacena la información (cintas, discos magnéticos, discos ópticos, CD, DVD …)
Refresco de la información (o del medio): copia periódica e esco de a o ac ó (o de ed o) cop a pe ód cade la información almacenada en un medio físico a otro
Efectiva en tanto en cuanto la información contenida en esos medios sea “descifrable”
independiente del hardware
software disponible
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Conservación de la tecnología
Además del refresco, es necesario asegurar que, en el futuro, los objetos digitales serán accesibles en las nuevas plataformas tecnológicas
Soluciones:Refresco de la informaciónMigración de la informaciónEmulación
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Diapositiva 188
jh1 rehacerla teniendo en cuenta lo que viene despuesjhcanos; 04/04/2006
33
Refresco de informaciónCopia periódica de la información almacenada en un medio físico a otro
Efectiva en tanto en cuanto la información contenida en esos medios sea “descifrable”
independiente del hardwaresoftware disponible
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
MigraciónTransferencia periódica de la información digital de una configuración hardware/software a una nueva
Incluye refresco de información, pero asumiendo que no y , p qsiempre es posible obtener una réplica exacta en la nueva configuración
versiones nuevas de procesadores de texto incompatibles con las más antiguasaplicación de algoritmos de compresión “lossy” a imágenes
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
EmulaciónObjetivo: reproducir las condiciones tecnológicas apropiadas para acceder a la información digital
Simulación software de entornos obsoletossistemas operativossoftware de edición, visualización, etc.
Es muy difícil conseguir una emulación 100% fiable
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Buenas prácticas
Se deben seleccionar y crear colecciones digitales con un valor duradero y de interés intelectual.
La demanda de los documentos también es un factor a tener en cuenta ya que si los fondos están digitalizados y q gserán de más fácil acceso.
La selección debe estar avalada por una política de preservación bien definida y apoyada económicamente
Identificar responsabilidades
Adoptar estándares
Buenas prácticas
Asegurar los documentos contra la alteración , intencionada o no
Proporcionar documentación contextual (historial de creación, transmisión, uso…)
Describir completamente el objeto digital
‐>METADATOS
Metadatos
Necesarios para la correcta conservación de los recursos digitales
Disposición de los metadatos‐> 2 posibilidades:1. Embeberla en el propio objeto digital2. Crear un objeto digital independiente
34
Metadatos
Proyectos más importantes:Dublin Core Metadata Iniciative Preservation Working Group:
ContenidoPropiedad intelectualTemporalidad
METS (Metadata Encoding & Transmission Standard)Iniciativa de Digital Library Federation g y
MIX (NISO Metadata for Images in XML) :Library of CongressEsquema XML para la gestión de colecciones de imágenes digitales
Premis Working Group:OCLC y RLGNúcleo de metadatos de preservaciónContextualiza el Data dictionaryExplica el modelo de datosAclara el significado y uso de las unidades semánticas
Y… ¿qué hacer con la Web?¿Cuál es la versión original de una página Web en el contexto de
páginas personalizadas dinámicas?
¿Cómo trabajar con las versiones de páginas con el mismo URL?
¿Qué criterio de selección aplicar para la conservación?¿Qué criterio de selección aplicar para la conservación?
¿Qué herramientas utilizar para extraer páginas Web de Internet y
comprobar si hay nuevas versiones?
¿Cómo trabajar con referencias a otras páginas Web?
http://www.archive.org: el archivo de la Web
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Historia
1990: Comienza a cobrar importancia el problema de la preservación digital
1994: proyectos eLib: The Electronic Libraries 994 p yProgramme.
1995: Jeff Rothenberg publica el artículo “¿Son perdurables los documentos digitales?” en la revista Scientific American
1995: John Garret (EEUU) “Preserving digital information : Report of the Task Force on Archiving of Digital Information”
Historia
1996: Informe en EEUU “Preserving digital information: Final Report” por Donald Waters and John Garrett subvencionado por Research Libraries Group (RLG) y la Commission on Preservation and Access (CPA), 1996 : “Cambios necesarios para la preservación” de Paul Conwey, director d ió l bibli t d l Y l U i it bli d l CPAde preservación en la biblioteca de la Yale University, publicado por la CPA1996 : JISC y British Library: Jornadas sobre la preservación a largo plazo de los materiales electrónicos. Publicación del informe bajo la dirección de M. Fresko.1996 : Creación de PANDORA, Archivo Web de Australia
National Library and now built in collaboration with nine other Australian libraries and other cultural collecting organisations. Coleccionar y proporcionar acceso a largo plazo a publicaciones y sitios webPANDORA Digital Archiving System (PANDAS), the first release of which took place in June 2001, with version 2 being released in August 2002. Further development of the software continues, with the release of version 3 expected in early 2006.
Historia
1998: En EEUU, “Digital preservation needs and requeriments in RLG member institutions”, estudio que cuantificaba la situación con respecto a la preservación digital en las bibliotecas1998: Proyecto CEDARS (1998‐2002)
Participaron las universidades de Leeds Cambridge y OxfordParticiparon las universidades de Leeds, Cambridge y Oxford.Objetivo principal: dirigir cuestiones estratégicas, metodológicas y experimentales y aconsejar sobre las mejores prácticas para la preservación digital. Se publicaron guías para dar a conocer los resultados del proyecto que enfocaban aspectos como: Derechos de propiedad intelectual, Metadatos para la preservación, Gestión de la colección, Estrategias de preservación, Prototipo de archivo digital…
1999: Proyecto CAMILEON (1999‐2002):por la Universidad de Leeds (en U.K.) y la Universidad de Michigan (en EE.UU.). Objetivo principal: desarrollar y evaluar estrategias para la preservación del material digital. Investigación de la emulación como estrategia para la preservación
1999: LOCKSS ("Lots of Copies Keep Stuff Safe"): open source software para coleccionar, almacenar, preservar y proporcionar acceso al contenido digital
OAIS compliantActualizado aproximadamente cada 6 mesesUtiliazado por más de 80 bibliotecarios y 50 publicistas
Historia
2000: “Estudio de los elementos de costes”, Granger et al, proyecto CEDARS2000: Nacional Digital Information Infraestructura and Preservation Program (NDIIPP):
P id l C d EEUUPromovido por el Congreso de EEUUDirigido por The Library of CongressObjetivo: crear y preservar una colección universal de conocimiento y creatividad para las generaciones futuras.
2001: Comienzan una serie de proyectos para analizar aspectos de almacenamiento, preservación y acceso a revistas.
Algunas de las instituciones encargadas de estos proyectos fueron: Cornell University, Harvard University, Massachussets Institute of Technology, Starnford University, Yale University y la University of Pennsylvania…
35
Historia
2002: Reference Model for an Open Archival Information System (OAIS)La publicación aprobada por el Management Council of the Consultative Committee for Space Data Systems (CCSDS). Define la International Organization for Standardization (ISO) Reference Model para un Open Archival Information System (OAIS).p yProporciona un marco para la preservación y acceso digital a largo plazo, incluyendo terminología y conceptos para describir y comparar arquitecturas de archivo.
2002: “Trusted Digital Repositories: Attributes and Responsibilities”Por RLG y OCLC.Basado en el Reference Model for an Open Archival Information System
2002‐2004: Digital Archiving and Long‐Term Preservation (DIGARCH)Por the National Science Foundation (NSF) y the Library of Congress (LoC). Investigación en modelos de repositorios digitales; herramientas, tecnologías y procesos; y cuestiones organizacionales, económicas y políticas.http://diggov.org/library/library/dgo2005/digarch/: presentaciones de resultados
Historia
2003: Carta para la preservación del patrimonio digital, UNESCO
2006: Planets project. Objetivos:
l l l d l d d l lAsegurar el acceso a largo plazo del contenido digital valiosoReducir los costes incrementando la automatización y la escalabilidadConstruir soluciones prácticas integrando conocimientos, diseños y herramientas existentes
Conclusiones
La conservacióndel patrimonio digital es una medida necesaria que todos los países deben impulsar
Debe hacerse de forma cooperativa, generando alianzas con ergencia de intereses distrib endo y convergencia de intereses, y distribuyendo
responsabilidades de manera que resulte beneficiosa para todos los agentes implicados
El conocimiento y la experiencia de las numerosas iniciativas permite reducir errores y potenciar las buenas prácticas
Bibliografía
Beagrie, Neil. et al. Trusted Digital Repositories: Attributes and Responsibilities, RLG‐OCLC Report, 2002. http://www.rlg.org/longterm/repositories.pdfReference Model for an Open Archival Information System (OAIS)“Digital Preservation, Architecture and Technology for Trusted Digital Repositories”, D Lib Magazine June 2005 Volume 11 Number 6 ISSN 1082 9873D‐Lib Magazine June 2005 Volume 11 Number 6, ISSN 1082‐9873“Digital Preservation in a National Context” , H.M. Gladney,D‐Lib Magazine January/February 2007, Volume 13 Number ½, ISSN 1082‐9873http://www.dlib.org/dlib/june05/jantz/06jantz.html“Cost elements of digital preservation” http://www.leeds.ac.uk/cedars/colman/CIW01r.htmlKelly Russell and Ellis WeinbergerDraft of 31 May 2000Preservation in the Digital World, http://www.clir.org/pubs/reports/conway2/, Paul ConwayHead, Preservation DepartmentYale University Library, March 1996Archivando la Web catalana: iniciativas cooperativas de preservación digital en Catalunya, Eugènia Serra Aranda, Julio 2006
Proyectos
CASPAR ‐Cultural, Artistic and Scientific knowledge for Preservation, Access and Retrieval: http://www.casparpreserves.eu/Digital Preservation Europe: http://www.digitalpreservationeurope.eu/ Planets‐Preservation and Long‐term Access through Networked Planets Preservation and Long term Access through Networked Services: http://www.planets‐project.eu/http://pandora.nla.gov.au/index.htmlCedars: http://www.leeds.ac.uk/cedars/index.htmlhttp://www.si.umich.edu/CAMILEON/http://www.dpconline.org/graphics/join/projects.html
BÚSQUEDA Y RECUPERACIÓN DE INFORMACIÓN
36
MotivaciónObjetivo fundamental de una BiD: ayudar a los usuarios a encontrar información
Recuperación de Datos (RD) vs. Recuperación de p ( ) pInformación (RI):
RD: recuperar ítems que satisfacen una query expresada en un lenguaje formal (ej: SGBD)RI: recuperar información en respuesta a una query expresada de manera imprecisa (necesidad de información)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Ámbito de la búsqueda
Todo el contenido de los documentosmuy costosopartes del contenido irrelevantes
Búsquedas en índices de términosBúsquedas en índices de términospalabras o grupos con relevancia para las búsquedaspueden construirse manual o automáticamente
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Marco de trabajo
Docs Vista lógica
doc
preproceso
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Information Need
doc
Query (tarea de RI)
RankingMatch (modelo de RI)
Fuente: Baeza & Ribeiro, 1999
Vista lógica de un documento
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Fuente: Baeza & Ribeiro, 1999
Ficheros invertidosLista de palabras que aparecen en un conjunto de documentos, y los lugares en los que aparecen
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Term Record Frequencycomputer 1 3computer 3 5computing 2 1distributed 2 1 parallel 1 2 system 2 1... ... ...
Fuente: Arms, curso de BiD
Lista invertida
Todas las entradas en un fichero invertido relativas a una palabra
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Fuente: Arms, curso de BiD
37
Lematización (stemming)Truncar las palabras por su raíz común
Mejora la búsqueda de documentos conteniendo términos relacionados
Reduce el tamaño del fichero invertido
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Term Record Frequencycomput 1 3comput 3 5comput 2 1distribut 2 1parallel 1 2system 2 1... ... ...
Term Record Frequency computer 1 3 computer 3 5 computing 2 1 distributed 2 1 parallel 1 2 system 2 1 ... ... ...
Fuente: Arms, curso de BiD
Modelos de RI
Retrieval: Us
Classic Models
booleanvectorprobabilistic
Ad-hoc: colección estable, queries variables
Filtering: queries estables, colección variable
Algebraic
Generalized VectorLat. Semantic Index
Set Theoretic
FuzzyExtended Boolean
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
AdhocFiltering
Browsing
er
Task
Non-Overlapping ListsProximal Nodes
Structured Models
Browsing
FlatStructure GuidedHypertext
Neural Networks
Probabilistic
Inference Network Belief Network
Fuente: Baeza & Ribeiro, 1999
Modelo booleano
Dos o más términos de búsqueda, relacionados por operadores lógicos (and, or, not, adjacent, ...)
Ejemplo: "abacus and actor" j p
Proceso:
• lista invertida para “abacus”: documentos 3 y 19
• lista invertida para “actor”: documentos 2, 19, y 29
• intersección de las dos listas: documento 19
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Fuente: Arms, curso de BiD
Diagrama booleanoA and Bnot (A or B)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
A B
A or B
Modelo Booleano: problemasLa recuperación se basa en un criterio de decisión binario (sin coincidencias parciales o aproximadas)
La necesidad de información del usuario debe traducirsea na e presión booleana (no tri ial para m chosa una expresión booleana (no trivial para muchosusuarios)
Eso hace que a menudo las queries sean muy simples ‐> se recuperan demasiados documentos, o demasiado pocos.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Modelo Booleano: problemas
{Or restringe poco
Ej. “Quiero información sobre Bases de Datos y Compiladores”Bases de Datos ¿AND? Compiladores
Ej. “Documentos que versen sobre la ó
Confusión entre and y or
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
{Or restringe poco
And restringe mucho
No hay niveles de relevancia
No se ordenan los documentos recuperados según su adecuación a la consulta.
j qcorrupción de la Iglesia”Palabras de búsqueda: juicio, inquisición, tribunal, sentencia, hoguera, converso, corrupción, clérigo.
Ej. “documentos antiguos que hablen sobre la castidad, ESPECIALMENTE los que citan a San Pablo”
38
Tesauro (thesaurus)Lista precompilada de palabras importantes en un determinado dominio
+ Para cada palabra, lista de palabras relacionadas
P i i iPor sinonimiaPor patrones de co‐ocurrencia en documentos...
Inicialmente, usado como ayuda a la expresión de ideas por escritoEn RI, se utiliza para reformular preguntas
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Tesauro: términos
Los términos son los componentes de indexaciónPueden ser palabras, grupos de palabras o frasesfrasesGeneralmente sustantivosVienen acompañados de una descripción, para evitar ambigüedades
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Tesauro: ejemplosRoget’s thesaurus (1911):
generalista• ship, vessel, sail; craft, navy, marine, fleet, flotilla
• book, writing, work, volume, tome, tract, codex
• search discovery detection find revelation• search, discovery, detection, find, revelation
Incluye descripciones
Otros tesauros más específicos:Art and ArchitectureThesaurus of Engineering and Scientific TermsMedlineEtc.
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Modelo Vectorial
Introduce la posibilidad de coincidencias parciales
Se asigna peso (no binario) a los términosL di d d i ilit d Los pesos se usan para medir grados de similitud entre una pregunta y cada documento de una colección
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Modelo vectorial
Se asume la existencia de un espacio vectorial de n dimensionesn es el número de términos distintos en todos los documentos de la coleccióndocumentos de la colecciónDocumentos y consultas se representan mediante vectores en un espacio multidimensional
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Modelo vectorial
El coeficiente en cada dimensión es igual al número de veces que el término correspondiente aparece en el documento o la consulta
j
djla consultaPuede considerarse el peso del término
Proximidad: coseno del ángulo entre los vectores documento y consultaResultado consulta:documentos cuyos vectores difieren de los de la consulta menos de un umbral determinado
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
i
dj
qΘ
39
Modelo vectorial: ejemplo
Documentos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Vectores
Similitud
Fuente: Arms, curso de BiD
Modelo vectorial: ventajas
Asignar pesos a los términos mejora la calidad del conjunto de respuestaLa coincidencia parcial permite la recuperación de documentos próximos a las condiciones de la ppreguntaEl ranking basado en el coseno permite ordenar los documentos de acuerdo al grado de similitud con la consulta
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
FiltradoColección de documentos variable con el tiempo
Noticias, información financiera, ofertas de viajes, ...
Un perfil (profile) describe las preferencias del usuarioEl perfil se compara con los documentos entrantes para recuperar los que se corresponden con élPuede aplicarse algún tipo de ranking a nivel interno
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Filtrado
U 1
User 2Profile
Docs Filteredfor User 2
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Documents Stream
User 1Profile
Docs forUser 1
Filtrado: Construcción del perfil
Como un conjunto de palabras clave suministradas por el usuario
mucho trabajo para el usuario: debe conocer las clasificaciones de t d l i t d d d ttodos los sistemas generadores de documentos
☺ Construcción dinámica e incremental Inicialmente se suministran unas palabras claveSe recuperan documentosMediante un ciclo de realimentación, el usuario indica cuáles de ellos son relevantes, y cuáles no lo sonEl sistema actualiza automáticamente el perfilEl perfil se estabiliza con el tiempo
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Filtrado y RI
El filtrado es una tarea de RI, en la que el conjunto de documentos lo forman los documentos que van llegando al sistemaS d t kiSe pueden computar rankingsAproximación muy prometedora en la Sociedad de la Información
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
40
Medidas de la RI
Si la RI fuese perfecta, cualquier documento recuperado sería relevante para la consulta, y todo documento relevante en la colección sería recuperado
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Número de documentos relevantes recuperadosRecuperación = (recall) Número de documentos relevantes
Número de documentos relevantes recuperadosPrecisión = (precision) Número de documentos recuperados
sería recuperado
EjemploColección de 10.000 documentos, de los cuales sólo 50 son relevantes para una consulta
Búsqueda ideal: encuentra los 50 y desecha el resto
Supongamos que una búsqueda real identifica 25 p g q q 5documentos, 20 de los cuales son relevantes y los 5 restantes no lo son
Recuperación: 20/50=0.4
Precisión:20/25=0.8
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
¿Es fácil medir?La precisión es fácil de medir:
Una persona conocedora del dominio examina cada documento identificado y decide si es relevanteEn el ejemplo, sólo es necesario revisar los 25 documentos encontradosencontrados
La recuperación es difícil de medir:Para conocer todos los documentos relevantes, debe revisarse toda la colecciónEn el ejemplo, los 10.000 documentos deberían ser examinados (en el peor caso) para encontrar los 50 relevantes
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Navegación (browsing)
Exploración del espacio de documentos en busca de ítems interesantesÚtil cuando no se tiene una idea clara de lo que se está buscandose está buscandoTipos de navegación:
PlanaGuiada por la estructuraHipertexto
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Navegación planaEn un conjunto de documentos o en un documento
Ejemplo: tras una búsqueda, se puede revisar el conjunto de documentos recuperados para intentar refinar la búsqueda en un ciclo de realimentaciónEjemplo: se puede explorar una página Web en un navegador Ejemplo: se puede explorar una página Web en un navegador, usando el ratón y las barras de desplazamiento
Pero puede que no se sepa el contexto en el que se está
Ejemplo: abrir una novela en una página al azarPero podemos desconocer el capítulo en el que está esa página
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Navegación guiada por estructura
Los documentos pueden estar organizados en una estructura:
Directorio: jerarquía de clases que agrupan documentos acerca de temas relacionados
Un documento también puede estar estructurado:
Capítulo/sección_nivel1/ ... /sección_nivel10/párrafo
Cada uno de ellos determina un nivel de la jerarquía de navegaciónEjemplo: vista esquema de MS Word
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
41
HipertextoEstructura interactiva de navegación que permite explorar un texto de manera no secuencial
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Es un grafo, a cada uno de cuyos nodos se le asocia una región de texto
Los nodos pueden estar relacionados por medio de aristas del grafo (enlaces o links)
Un enlace está asociado a un fragmento del texto del nodo (normalmente resaltado)
Navegar: recorrer el grafo
Hipermedia
Ejemplo: Plan de Emergencia FGVBibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Hipertexto: problemas
“lost in the hyperspace” (Nielsen, 1990)En hipertextos grandes, puede llegar un momento en el que se lleguen a tomar decisiones erróneas de navegación, debido a la “pérdida de la orientación”
Solución: mapa del hipertextotraza del recorridoHerramientas de visualización adecuadas
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Diseño de hipertextos
El usuario de un hipertexto ha de navegar por los caminos que el diseñador ha creado a prioriEs fundamental diseñar bien el hipertextoR d iRecomendaciones:
Evitar un abuso de enlacesOrganizarlo jerárquicamente Realizar un modelado del dominio previo al diseño del hipertexto
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Referencias
Baeza, R. and Ribeiro, B. Modern Information Retrieval.Addison Wesley, 1999.
Arms, W.Arms, W.Digital Libraries.MIT Press, 2000Curso de BiD. Cornell University, 2000.
Lesk, M. Practical Digital Libraries. Morgan Kaufmann, 1997
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
BÚSQUEDAS EN LA WEB
42
Objetivo
Ayudar al usuario a acceder a cierta información que se encuentra en la Web, de forma eficiente y precisa.
"The best navigation service should make it easy to find almost anything on the Web (once all the data is entered).“(Best of the Web 1994 – Navigators)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Contenido
ProblemáticaDirectoriosBuscadores
Arquitectura centralizadaArquitectura distribuida
MetabuscadoresConclusiones
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Crecimiento de la red
Rápido crecimiento de la red hace necesarias las herramientas de búsqueda de información:
1ª Generación: 1994 (Yahoo, Lycos, Altavista, ...).2ª Generación: 1997 (Google, ...)
Evolución de la web públicaNº webs públicasZ
ara
goza
, Fe
bre
ro d
e
2008
Evolución de la web pública
0
0.5
1
1.52
2.5
3
3.5
1996 1997 1998 1999 2000 2001 2002año
públicas (millones)
Bib
liote
cas
Dig
itale
s –©
J.H
. C
anós
-
Búsquedas en la Web
Formas de encontrar un documento en la red:
Introducir directamente la dirección URL en el
Búsqueda de información en la web (2003)
52 0%
usan dirección URLmotores de búsquedanavegan
Zara
goza
, Fe
bre
ro d
e
2008
navegador (aumenta su uso)Navegar por la red usando links (decrece su uso)Utilizar herramientas de búsqueda (aumenta)
52.0%
15.0%
33.0%
Bib
liote
cas
Dig
itale
s –©
J.H
. C
anós
-
Modelos de RI
Ad-hoc: colección estable, queries variables
Filtering: queries estables, colección variable
Retrieval: AdhocFiltering
User
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008Fuente: Baeza & Ribeiro, 1999
Estructura predeterminadaBrowsing
Task
Escenario general de RI
Docs Vista lógica
doc
preproceso
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008Fuente: Baeza & Ribeiro, 1999
Information Need
doc
Query (tarea de RI)
RankingMatch (modelo de RI)
43
La forma de la Web
Connectivity of the web: one can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes
f f
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC. (Broder, a. et al., Graph structure in the web, WWW9)
Docs Vista lógica
doc
preproceso
Escenario general de RI en la Web
Information Need
doc
Query (tarea de RI)
RankingMatch (modelo de RI)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008Fuente: Baeza & Ribeiro, 1999
Problemática (I)
El gran tamaño de la red y su crecimiento:Cobertura insuficiente del espacio web
Espacio indexado < 16% para un buscador general.Selección de páginas a indexar
Problemas de escalabilidad Arquitecturas convencionales (centralizada) no se escalan bien
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Problemática (II)Se debe indexar decenas o cientos de millones de páginas Web, dando lugar a un número comparable de términos de índice
Acceso limitado de los robots de búsqueda Páginas invisibles por acceso restringido,...Tamaño web invisible aprox 500 veces web visible (Bergman, 2001)
Se debe dar respuesta a decenas de millones de preguntas al día
Hay un problema de escala frente a las técnicas tradicionales de RI
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Problemática (III)Los datos están distribuidos en muchos ordenadores y plataformas con distintas prestaciones de acceso
Hay un alto porcentaje de datos volátiles (~40% de la web cambia mensualmente)
Los datos en la web están desestructurados
La calidad de los datos no siempre es buena (e.g.: no hay revisión de lo publicado)
Los datos son heterogéneos (e.g.: diferentes lenguajes)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Problemática (IV)
¿Cómo especificar una pregunta?¿Cómo interpretar los resultados de una búsqueda?
Especialmente si la lista de páginas es muy grande
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
44
Problemática (V)El entorno no siempre es amigable.
VirusHackers Spam
Estrategias para modificar los resultados de las búsquedas con motivos comercialesRepetir palabras, repetir palabras colocadas de forma estratégica, texto invisible
Efecto de la financiación privada sobre el desarrollo
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Problemática (VI)
Los documentos que no aparecen en las primeras páginas son ignorados
Problema del orden en la muestra de resultadosEfectos económicos y otros interesesZ
ara
goza
, Fe
bre
ro d
e
2008
Efectos económicos y otros intereses
Bib
liote
cas
Dig
itale
s –©
J.H
. C
anós
-
Spink, A., Jansen, B. J., Wolfram, D., & Saracevic, T. (2002). From e-sexto e-commerce: Web search changes. IEEE Computer, 35(3), 133-135.
Tipos de buscadores web
Dos tipos principales de buscadores:DirectoriosMotores de búsqueda
Otros tipos de buscadores:Otros tipos de buscadores:Combinación de directorio y motor de búsquedaMeta‐buscadorBuscadores específicos
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Directorios
Páginas web donde la información está organizada de forma jerárquica según canales temáticos o categorías.L di t i tá i d d Los directorios están indexados manualmenteYahoo, Open directory
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
DirectoriosVentajas
Alta calidad en los resultadosEvita problemas como el spam
InconvenientesInconvenientesPoca coberturaAlto coste de mantenimientoDesarrollo y evolución lenta y costosaSubjetividad en la clasificación
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Motores de búsqueda
Páginas especiales cuya función es ayudar a los usuarios a encontrar información en otras páginas
d bú d l d lLos motores de búsqueda almacenan toda la información de las páginas Web indexadas en bases de datos
Google, Altavista, MSN Search
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
45
Motores de búsqueda
VentajasAlta coberturaBajo coste de desarrollo y mantenimientoj y“Objetividad”
InconvenientesCalidad en los resultados
Sistemas de búsqueda convencionales no aptosSpam
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Motores de búsqueda
Diferencia con los motores convencionales:Sólo se puede buscar en índicesBuscar en contenido supondría tener una copia local de los documentoslocal de los documentos
Arquitecturas:CentralizadaDistribuida
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Arquitectura centralizada
Crawler‐indexer ArchitectureBasada en robots o crawlers:
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Web Robots
Programas que recorren la Web automáticamente:
visitan un documentorecursivamente recorren los hiperenlaces del recursivamente, recorren los hiperenlaces del documento
Otros nombres:Web WanderersWeb CrawlersSpiders
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Aplicaciones de los robots
Indexación para posterior uso por un motor de búsquedaValidación de HTMLValidación de enlacesMirroring...
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Robots: funcionamiento (I)
¿Cómo deciden adónde ir?En general parten de una lista de URL que contienen muchos enlaces servidores de listas páginas “what’s new” sitios más servidores de listas, páginas what s new , sitios más popularesexploración de grupos de news
Los usuarios pueden enviar URL al robot, el cual los visitará
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
46
Robots: funcionamiento (II)
¿Qué indexa un robot de un documento?Los títulos HTMLLas etiquetas METAL i á fLos primeros párrafosTodo el documentoa veces con pesos en función de las marcas HTML
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Robots Exclusion ProtocolPermite a los administradores de sitios Web indicar a los robots que lo visitan qué partes no deberían ser visitadas
Cuando un robot visita un sitio (ej: http://www.unsitio.com), comprueba si el URL http://www.unsitio.com/robots.txt existe.
Si lo encuentra, lo explora en busca de entradas comoUser-agent: *
Disallow: /
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
El campo META/ROBOTSPermite a los autores de documentos HTML indicar a los robots si un documento puede ser indexado o usado para buscar nuevos enlaces
No se requiere ninguna acción por parte del administrador del sitio Web en el que se inserta el documento
Ejemplo:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Ejemplo: Altavista
En 1998:20 ordenadores multiprocesador130 Gb de RAM
Gb d di500 Gb de discoEl motor de búsqueda usa el 75% de los recursos
http://searchenginewatch.com/
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Motores de búsquedaEn 1998:
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
http://www.searchengineshowdown.com
Google aparece para mejorar los anteriores problemas
Calidad: Page RankEscalabilidad: Arquitectura que optimiza el uso del Escalabilidad: Arquitectura que optimiza el uso del espacio disponible y los tiempos de accesoOtros objetivos:
Facilidad de manejoPromover la investigación en el campo de los motores de búsqueda
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
47
Google Page Rank
Utiliza la estructura de hyperlinks para evaluar la importancia de las páginas
Una página a la que llegan muchos links será más importante que otra con apenas backlinksimportante que otra con apenas backlinksNo es suficiente con contar los backlinks que tiene cada página
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Google Page Rank
Modela el comportamiento de un usuario aleatorio que…
Comienza a navegar por una página aleatoriaNavega utilizando linksNavega utilizando linksNunca vuelve hacia atrásEn ocasiones comienza de nuevo
El Page Rank de una página es la probabilidad de que este usuario llegue a dicha página
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Google Page Rank
⎥⎦
⎤⎢⎣
⎡++++−=
)()(...
)()(
)()(·)1()(
2
2
1
1
n
n
TCTPR
TCTPR
TCTPRddAPR
donde:
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
PR(A): Page Rank de la página AT1 …Tn: Páginas con links hacia A C(Tn): Links de la página Tn
d: factor de amortiguamiento (0<d<1) (aprox. 0.8)
Google Page Rank
VentajasEvita spamMejora la calidad de los otros sistemas
InconvenientesRich‐get‐Richer: las páginas mas populares lo son cada vez mas
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Google Anchor Text
Asocia el texto del link con la página donde se encuentra y a la que apunta
Mejor descripción de la páginaP it i d ti d hi dif t d Permite indexar tipos de archivo diferentes de texto
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Google: Arquitectura
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
48
Google: Arquitectura
Crawlers: descargan las páginas de los servidores URL
3 ó 4 crawlers simultáneos (100 webs/seg) b t d l d1 semana para barrer toda la red
Store Server: Comprime y almacena el texto de cada pagina en el repositorio asociándolo a una dirección (docID)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Google: ArquitecturaIndexador
Lee el repositorio, descomprime los documentos y los analizaDescompone el documento en hits (sucesos)
Guarda la palabra, posición, fuente y tipoDistribuye los hits en barriles
Analiza los links y los almacena en Anchor FilesInformación de origen y destino
Sorter: A partir del índice organizado por docID, reindexa según wordID (inverted index)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Google: Arquitectura
URL ResolverLee los anchor filesCrea las direcciones URL asociadas a los docIDsI d l l í di (b il) iá d l Introduce el texto en el índice (barril) asociándolo al docID al que apuntaGenera bases de datos de links
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Problemas locales Recogida de datos:
Naturaleza muy cambiante de la webSaturación de los canales de comunicación
V l d l d tVolumen de los datos¿Serán capaces de manejar el crecimiento de la web en un futuro próximo?
Es importante una buena distribución de carga entre actividades externas (crawling) e internas (respuesta a preguntas e indexación)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Problemas globalesLos servidores web se cargan al recibir visitas de los diferentes crawlers
El tráfico en la web crece puesto que los robots descargan objetos completos, aunque luego se descarta la mayor parte del contenido
La información se recoge independientemente por cada robot, sin ningún tipo de coordinación entre ellos
Las arquitecturas distribuidas pueden resolver estos problemas
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Arquitectura distribuidaEjemplo: Harvest
http://harvest.transarc.comBibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
49
Harvest: gatherer
Extrae y recoge información de índices de uno o más servidores web
Puede enviar información a uno o más brokers
Los tiempos de extracción pueden ser definidos en el sistema
Si se asocia a un servidor web, se elimina tráfico de/hacia ese servidor
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Harvest: broker
Proporciona el mecanismo de indexado y la interfaz de de consulta de los datos recogidos
Puede recoger información de uno o más h d b kgatherers o de otros brokers
Opción interesante: construir brokers para temas específicos
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Harvest: otros componentes
Un broker especial proporciona información sobre otros brokers y/o gatherersSe utiliza un replicador para permitir accesos á á idmás rápidos
Una caché de objetos reduce carga de la red y el servidor al almacenar copias locales
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Metabuscadores
Servidores Web que envían una consulta determinada a varios motores de búsqueda, recogen las respuestas y las unificanhttp://www sc edu/beaufort/library/lesson2 htmlhttp://www.sc.edu/beaufort/library/lesson2.html
http://www.tusbuscadores.com/metabuscadores/
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
ConclusionesLas herramientas de búsqueda son necesarias debido al tamaño de la redProblemas a los que se enfrentan
TamañoNº de búsquedasNo hay centralizaciónyVolatilidad de InformaciónEntornoEfectos económicosElección de un ranking adecuado
Dos tipos de herramientasDirectorios (alta calidad, poca cobertura)Motores de búsqueda (menos calidad, mayor cobertura)
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Uso de los buscadores
Porcentage de busquedas en USA Julio 05
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
36.5% 30.5%
15.5%9.9%
6.1%
0.9%
0.6%
GOOGLEYAHOOMSNAOLASKINFOSPACEOTROS
50
Visitas a buscadores
RANKING NOMBRE DOMINIO MAYO JUNIO JULIO
1 Google www.google.com 38.30% 39.00% 39.40%
2 Yahoo search.yahoo.com 18.40% 18.30% 18.20%
3MSN Search search.msn.com 15.60% 15.50% 15.40%Google
4Google Images images.google.com 4.50% 4.20% 4.00%
5 Ask Jeeves www.askjeeves.com 2.40% 2.00% 2.00%
images.search.yahoo.com
7 AOL Search www.aolsearch.com 0.60% 0.80% 1.00%
www.mywebsearch.com
9 Dogpile www.dogpile.com 0.80% 0.80% 0.80%
10 My Search www.mysearch.com 0.70% 0.70% 0.70%
1.50%
8My Web Search 1.10% 0.90% 0.90%
6Yahoo Images 1.60% 1.50%
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Datos sobre las visitas a buscadores Julio 2005 en USA
Composición de www
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Tendencias futuras
Aumentar la cobertura en la red, e incluso fuera de ella ( google earth, google print publisher, google catalogs, …)Mayor calidadMayor calidad
Mejora de los algoritmos de rankingBúsqueda personalizada (historial)Organización de los resultadosRespuesta compleja
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
Referencias
Baeza‐Yates, R. & Ribeiro‐Nieto, B., Modern Information Retrieval, Addison‐Wesley, 1999. Capítulo 13
The Web Robots Page:
http://info.webcrawler.com/mak/projects/robots/robots.html
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
ReferenciasThe Anatomy of a Large‐Scale Hypertextual Web Search Engine. Brin, Sergey and Page, Lawrence. Computer Science Department, Stanford University, Stanford, CA 94305, USA. http://www‐db.stanford.edu/pub/papers/google.pdfImpact Of Search Engines On Page Popularity. Junghoo, Cho and Sourashis, Roy. UCLA Computer Science. ACM 1‐58113‐844‐X/ / X/04/0005 http://info.webcrawler.com/mak/projects/robots/robots.htmlHow much information 2003. http://www.sims.berkeley.edu/research/projects/how‐much‐info‐2003/internet.htmhttp://searchenginewatch.comSearch marketing
Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
ReferenciasGoogle: http://www.google.com
Altavista: http://www.altavista.com
Yahoo: http://www.yahoo.com
HotBot: http://www.hotbot.com
Lycos: http://www.lycos.comy p y
Excite: http://www.excite.com
MSM: http://search.msn.com/
Mamma: http://www.mamma.com/
Metacrawler: http://www.metacrawler.com/
Search Engine Guide: www.searchengineguide.com
Galaxy: http://www.galaxy.com/
WWW Virtual Library: http://www.vlib.org/
Educational Virtual Library: http://www.csu.edu.au/education/library.html
Earth Science Portal: http://webserv.gsfc.nasa.gov/ESD/
AllConferencesNet: http://www.allconferences.netBibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008
51
INTEROPERABILIDAD EN BIBLIOTECAS DIGITALES
BiD: sistemas distribuidos
Usuarios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Repositorios
Sistemas de localización Sistemas de búsqueda
Usuarios
Sin embargo...
BiD: sistemas distribuidos heterogéneos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
El problema
¿Cómo descubrir información repartida en diferentes ordenadores...
Cada uno con sus propias reglas de gestión de la informaciónCada uno usando tecnologías posiblemente diferentes
... sin que la carga del descubrimiento recaiga en el usuario?
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Desafío: Interoperabilidad“Construcción de servicios coherentes para los usuarios cuando los componentes individuales son técnicamente diferentes y gestionados por diferentes organizaciones”
(Arms, pág 18)
Desde la perspectiva tecnológica, uno de los problemas más serios en BiD en la última década
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
FuncionalidadIdealmente, una BiD de colecciones mantenidas independientemente debería aparecer como un gran recurso en el que todas ellas se comportasen de la misma manera
En la práctica, esto no suele ser posible, y se han de tomar ciertas decisiones de diseño
Sólo hacer pública la funcionalidad comúnAceptar diferencias de comportamiento
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
52
Interfaz de usuario
La uniformidad en IU requiere el desarrollo de todo un interfaz que reemplace el de cada colección
No es necesario si se permite que cada colección ofrezca su propio interfaz (Ej.: NDLTD)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Interoperabilidad sintáctica
Ejemplo: un componente publica la interfaz de una función:
print(String:author,String:pubData,Float:price, String:address)
Cualquiera puede invocar la función siguiendo el patrón definido en la interfaz
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Interoperabilidad semántica
En el ejemplo anterior, el componente publica además:
La función print imprime en la impresora láser de 600 dpi situada en el Laboratorio 3 una factura en 600 dpi situada en el Laboratorio 3, una factura en euros del libro descrito en los parámetros.
Mucho más difícil de conseguir!
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Soluciones
EstandarizaciónAlmacenamiento y transmisión de datosRepresentación de consultasC l d b l iControl de vocabularios
FederaciónAutonomía de los nodosVista única para recuperación
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Estandarización (I)
Aproximación convencional:Los líderes de la tecnología desarrollan estándaresProtocolos, formatos, etc.
T d l d i l t l tá dTodo el mundo implementa los estándaresSe dispone entonces de un sistema distribuido e integrado
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Estandarización (II)
Problemas:Los estándares son caros de adaptarLos conceptos cambian continuamenteL i bi iLos sistemas cambian continuamente
Se debe valorar el coste de aceptación de los estándares frente a la funcionalidad
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
53
Ejemplo: coste vs. función
Coste de aceptación
SGML
Fuente: W. Arms: Curso de BiD. Cornell, 2000
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008Funcionalidad
ASCII
HTML
XML
Tres aproximacionesCoste de aceptación
2Z39.50SGML
Mucha funcionalidad, alto coste y uso restringidopero satisfactorio
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008Funcionalidad
1HTMLHTTPURL
Poca funcionalidad, bajo coste y amplio uso
3Dublin Core
UnicodeXML
Funcionalidad sustancial a coste razonable
BiD FederadaGrupo de BiD que soportan estándares y servicios comunes, proporcionando interoperabilidad y un servicio coherente a los usuarios
En una federación los miembros pueden tener diferentes sistemas En una federación, los miembros pueden tener diferentes sistemas, pero deben estar de acuerdo en:
Estándares técnicos (formatos, protocolos, interfaces, modelos de objetos, metadatos, etc.)Políticas (financieras, propiedad intelectual, seguridad, privacidad, etc.)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
La federación de Z39.50
Federación de BiC
Acuerdos: uso deAnglo American Cataloging Rules
MARCMARC
Protocolo Z39.50
Las BiC reducen costes compartiendo registros
Uso primordial con registros bibliográficos
Muy extendido en sistemas de gestión de BiC
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Fundamentos de Z39.50 (I)El protocolo permite a un ordenador (el cliente) buscar y recuperar información en otro ordenador (el servidor)
El servidor almacena un conjunto de bases de datos con índices sobre los que se puede buscar
l d l l dLas interacciones entre cliente y servidor se realizan en el marco de una sesión
El cliente abre una conexión en el servidor
Se llevan a cabo una serie de interacciones
Al finalizar se cierra la sesión
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
En el transcurso de una sesión, tanto el servidor como el cliente recuerdan el estado de su interacción
El servidor realiza la búsqueda y construye y almacena un conjunto de resultados
Fundamentos de Z39.50 (II)
j
Posteriores mensajes desde el cliente pueden referenciar el conjunto de resultados
De este modo, una vez construido el conjunto de resultados, no es necesario buscar cada vez toda la base de datos para refinar la búsqueda
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
54
El cliente es un ordenadorLas aplicaciones de usuario final necesitan una interfaz adecuada
El protocolo no especifica la forma de la interfaz de
Fundamentos de Z39.50 (III)
El protocolo no especifica la forma de la interfaz de usuario ni cómo ésta se conecta con el cliente Z39.50
Más información: http://www.loc.gov/z3950/agency/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Z 39.50 services
init -- client connects to the server and exchanges initial information, e.g., preferred message size
explain -- client inquires of the server what databases are available for searching, the fields that are available, the syntax
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
available for searching, the fields that are available, the syntax and formats supported, and other options
search -- client presents a query to a database choices of syntax for specifying searches
• only Boolean queries widely implemented • one or more records may be returned to the client
Z 39.50 services
manipulation of results sets -- e.g., sort or delete
present -- requests the server to send specified records from the results set to the client in a specified format
i f lli d f
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
• options: for controlling content and formatsfor managing large records or large results sets
Dienst
Davis & Lagoze (Cornell, 1995)Protocolo para BiD distribuidasUsado en NCSTRL (Networked Computer Science Technical Reports Library, URL)
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Dienst: objetivos
Protocolo abierto que permita interoperar a un conjunto de BiD a modo de federación
Autonomía de gestión de los repositorios
Il ió d if id dIlusión de uniformidad
Escalabilidad
Sin pérdida de usabilidad ni de prestaciones
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Dienst: arquitectura
Componentes:Modelo lógico de documentoIndependiente de la presentación física
S i i d BiD di t ib idServicios de BiD distribuidaBásicos + manejo de colecciones
Protocolo abierto (Dienst)Sobre el modelo de servicios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
55
Dienst: servicios básicosServicio de repositorio
Almacena y proporciona acceso a los documentos estructurados según el modelo anterior
Servicio de índiceAlmacena (meta)información de indexación de las colecciones de documentos.Responde a preguntas sobre dicha información
Servicio de interfaz de usuarioProporciona el front‐end a otros servicios
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Dienst: interacción entre servicios básicos
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Dienst: otros serviciosServicio mediador de consultas
Despacha consultas a los servicios de índice apropiados mediante un broadcast
Servicio de informaciónRetorna información sobre el estado de un servidor que proporciona uno o más servicios
Servicio de colecciónProporciona información de cómo un conjunto de servicios interaccionan para formar una colección
Servicio de registroAlmacena información sobre usuarios humanos de los servicios de una colección
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008 Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
Dienst: protocolo (II)Repository Service
Describe‐Verb
Disseminate
Formats
List‐Authorities
List‐Binders
List‐Contents
List‐Encodings
Index ServiceDescribe-VerbHeader-TagsList-VerbsSearchBoolean
Query Mediator ServiceDescribe-VerbLi t V b
Collection ServiceDescribe-VerbList-VerbsRegionsCollectionPublishersQueryMediatorsIndices
List‐Encodings
List‐Meta‐Formats
List‐Partitions
List‐Verbs
List‐Versions
New‐Version
Submit
Submit‐Formats
Structure
Terms
Withdraw
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
List-VerbsSearchBoolean
Repositories
Info ServiceDescribe-VerbList-VerbsIdentityList-Services
Open Archives Initiative
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
http://www.openarchives.org
56
Conceptos básicos de OAI
• interoperabilidad a bajo nivel
• modelo data-provider/service-provider
• cosecha de metadatos
OAI 1.0 protocol
HTTP based
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
(metadata harvesting)
• metadatos compartidos y formatos específicos de
cada comunidad
• uso aceptable
• flexibilidad
Dublin Core
Community specific
Reply • XML Schema
• Self contained
metadata
FTXT
e-print
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
OPAC
image
A&I
OAI harvesting tools
Supporting protocol requests:• Identify• ListMetadataFormats
repo
harv
service provider data provider
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
• ListSets
Harvesting protocol requests:• ListRecords• ListIdentifiers• GetRecord
os i tory
ves ter
Peticiones sobre HTTP
BASE-URL -----------> an.oa.org/OAI-scriptkeyword arguments --> verb=ListIdentifers&set=S1
GET
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
GEThttp://an.oa.org/OAI-script?verb=ListIdentifers&set=S1
POSTPOST http://an.oa.org/OAI-script HTTP/1.0Content-Length: 78Content-Type: application/x-www-form-urlencodedverb=ListIdentifers&set=S1
Respuestas sobre HTTP
<xml version=1.0 encoding=“UTF-9” ?><GetRecord
xmlns=“http://oai.namespace.uri”xmlns:xsi=“http://w3.namespace.uri”xsi:schemaLocation=“http://oai.namespace.uri
htt // i h URL”>
xml namespaces
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
http://oai.schemaURL”><responseDate>2000-19-01T19:30:30-04:00</responseDate><requestURL>http://an.oa.org/OAI-script?verb=GetRecord
&identifier=oai%3AarXiv%3A0001&metadataPrefix=oai_dc</requestURL>
<record>record contents
</recordadditional records
</GetRecord>
responseheader
responsedata
Peticiones de soporte (I)
Identify repo
harv
service provider data provider
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
•Repository name •Base-URL
• Admin e-mail• OAI protocol version• Description Container
os i tory
ves ter
57
Peticiones de soporte (II)
ListMetadataFormats repo
harv
service provider data provider
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
REPEAT• Format prefix
• Format XML schema/REPEAT
os i tory
ves ter
Peticiones de soporte (III)
ListSets repo
harv
service provider data provider
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
REPEAT• Set Specification
• Set Name/REPEAT
os i tory
ves ter
Peticiones de recolección (I)
* from=a* until=b* set=klm
ListRecords * metadataPrefix=oai_dc repo
harv
service provider data provider
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
REPEAT• Identifier• Datestamp• Metadata
•About Container/REPEAT
os i tory
ves ter
Peticiones de recolección (II)
repo
* from=a* until=b
ListIdentifiers * set=klmharv
service provider data provider
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
REPEAT• Identifier• Datestamp
/REPEAT
os i tory
ves ter
Peticiones de recolección (III)
* identifier=oai:mlib:123aGetRecord * metadataPrefix=oai_dc r
epo
harv
service provider data provider
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
• Identifier• Datestamp• Metadata
• About
os i tory
ves ter
What’s Next?
OAI‐ORE (Object Reuse and Exchange)
http://www.openarchives.org/ore/
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008
58
ReferenciasArms, W.
Digital Libraries.MIT Press, 2000Curso de BiD. Cornell University, 2000.
Paepcke, A., et al., Interoperability for Digital LibrariesWorldwide. Communications of theACM, April 1998/Vol. N 41, No. 4
Z39.50: http://www.loc.gov/z3950/agency/
DIENST:www.cs.cornell.edu/cdlrg/dienst/DienstOverview.htm
Open Archives: http://www.openarchives.org
Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008