Temas Selectos de Primo
Manuel Alejandro Hernández Gutiérrez.
7ma. Reunión de Usuarios de Ex Libris Chile.
Viña del Mar, Chile, 26 y 27 de julio de 2012.
Agenda
• El registro PNX
• DeDup
• FRBR
• Back Office
• Primo Central
El registro PNX
• PNX = Primo Normalized XML.
• El “átomo” del sistema Primo.
• Es el producto de las rutinas de normalización
aplicadas sobre los metadatos de la fuente de
información publicada en el sistema.
• Está organizado en secciones, cada una de
ellas contiene información utilizada en la
búsqueda, despliegue y otras funcionalidades
específicas disponibles en el sistema.
3
• Las 12 secciones que integran el registro PNX
son:
4
El registro PNX
Control
Display
Links
Search
Facets
Sort
DeDup
FRBR
Delivery
Ranking
Enrichment
Additional data
El registro PNX
5
book
Introducing the UNIX system
McGilton, Henry
contributor>Morgan, Rachel coaut.
New York McGraw-Hill
c1983
xix, 556 p. il.
$$V0070450013
UNIX (Sistema Operativo para Computador) eng
puc_aleph
$$IPUC$$LBGAU$$Savailable$$31$$40$$5N$$62$$XPUC50$$YBGAU$$ZCGE
UNIX Systems
$$IPUC$$Savailable
available
El registro PNX
6
eng
1983
UNIX (Sistema Operativo para Computador)
BGAU
available
books
books
McGilton, H
Morgan, R
El registro PNX
• El contenido del registro PNX se determina a
través de la “Rutina de normalización”
asociada a la fuente de datos.
• Un proceso denominado Pipe se encarga de
“cosechar” los datos desde su origen y
procesarlos para publicarlos en Primo.
7
El registro PNX
8
El registro PNX
9
El registro PNX
10
El registro PNX
11
DeDup
• La identificación de registros duplicados, es
una de las fases del proceso de publicación,
que se realiza una vez que la información ha
sido cargada en el sistema.
• El proceso inicia con la creación de un “vector
dedup” por cada registro PNX cargado en el
sistema.
• El “vector” tiene toda la información que
requiere el “algoritmo de detección de
duplicados”.
12
DeDup
• El algoritmo de detección de duplicados, para
cualquier tipo de registro que no sean
artículos, se compone de dos fases:
• Fase de Selección de Candidatos.
• Fase de Coincidencia de Registros.
• En la fase de Selección de Candidatos, se
asigna un puntaje al registro, según su
contenido en campos específicos; la
puntuación determina si el registro pasa a la
segunda fase o es descartado.
13
DeDup
• En la fase de “Coincidencia de Registros”, los
registros que resultaron “candidatos” en la
primera fase también son puntuados para
determinar la coincidencia o no del registro
que esta siendo procesado con el registro
“preferido” .
14
DeDup
15
Normalización Carga en la base de datos Dedup
PNX
Vector
Dedup
Dedup
matchid
Vectores
Dedup
PNX
Verificar en registros nuevos /
actualizados / borrados
Encontrar candidatos
Encontrar coincidentes
Crear grupo
Crear registro fusionado
DeDup
16
DeDup
17
DeDup
18
DeDup
19
FRBR
• Primo cuenta con la funcionalidad para
agrupar registros con base en el estándar
“Functional Requirements for Bibliographic
Records” publicado por el IFLA Study Group.
• La rutina de normalización asociada a cada
fuente de datos cuenta con rutinas para la
creación de la sección “” del registro
PNX.
• El propósito de estas rutinas, es la creación de
un vector por cada registro de la fuente de
datos que se cargó en la base de datos del
sistema.
20
FRBR
• El vector que se genera tiene varias llaves que
sirven de identificación para el grupo.
• Cuando un registro coincide con una de las
llaves de un grupo, el registro pasa a formar
parte del grupo y se le asigna el número de ID
que identifica a dicho grupo.
• Cada registro puede pertenecer únicamente a
un grupo FRBR.
• El grupo se contabiliza como un solo registro,
tanto en la lista de resultados como en las
facetas.
21
FRBR
22
FRBR
23
FRBR
24
FRBR
25
FRBR
26
FRBR
27
Back Office
• Es la interfaz del sistema Primo, desde la que
se llevan a cabo las siguientes tareas:
• Configurar la apariencia de la interfaz para el
usuario también llamada Front End.
• Configuración y gestión del flujo de los procesos
de la plataforma de publicación.
• Monitoreo de los procesos del sistema.
28
Back Office
29
Back Office
30
Back Office
31
Primo Central
• Es un índice centralizado de Primo que incluye
millones de registros.
• Los registros son cosechados desde editores
primarios y secundarios, agregadores de
importancia regional y global.
• El número de registros crece constantemente,
también se añaden nuevas fuentes de datos.
• Ex Libris se encarga de mantenerlo, se aloja
en un entorno de nube de cómputo y se ofrece
como servicio a los usuarios de sus sistemas
MetaLib y Primo.
32
Primo Central
• Permite presentarle al usuario, una lista de
resultados consolidada y ordenada por
relevancia.
33
Primo Central
34
Usuario de Primo
Front End
Búsqueda profunda
Adaptador de
Primo Central
Primo Central Interfaz de servicios web
Basada en IP
50M registros
50M registros
Recursos locales
50M registros
Primo Central
Nombre de la fuente No. de registros Nombre de la fuente No. de registros
BioMed Central
≈ 62.000
Gale + 95.000.00
CrossRef ≈ 40.000.000
HathiTrust ≈ 600.000
Dialnet
¿? MEDLINE ≈ 18.550.000
DOAJ ≈ 352.000
Springer ¿?
ERIC ¿? Wiley ¿?
Primo Central
36
Primo Central
37
¡Gracias!
aleph_mahg [email protected]
mailto:[email protected]