Post on 10-Jul-2015
1
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO Parte 1
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander
Rodrigo TorrénsJosé Alejandro Torres Niño
Luis NuñezNoviembre, 2011
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
2
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Contenido
• El problema de la ubicación, preservación y uso de colecciones de datos científicas
• Tendencias en la colaboración científica• Herramientas que pueden ayudar a
solucionar algunos de los problemas
Hablaremos sobre:
3
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Partamos de las preguntas básicas:
• Los datos que yo necesito… existen?
• Donde están?
• Como los obtengo?
La mayoria de los científicos se han planteado estas preguntas alguna vez
Los datos producto de una investigación científica
4
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
4 axiomas para la ciencia intensiva en datos
Acceso• Global y abierto• Colecciones completas• Reservorios distribuidos (BD,
repositorios de datos, datos en “la nube” )
• PreservaciónInteracción• Metadata• Servicios web de herramientas• Reutilización
Flujo• Procesos• Curaduría• Gerencia y mantenimiento• Publicación
Compartir• Estándares, XML
esquemas, ontologías• Redes sociales• Minería de datos
Claudio Mendoza. http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf
5
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Tenemos que tener capacidades para…
• Manejar volumen de datos generados actualmente
• Preservarlos
• Encontrarlos
• Compartirlos, distribuirlos
• Usarlos, reusarlos
Problemas-retos a los que nos enfrentamos
6
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo
…Problemas a los que nos enfrentamos
Momento de publicación
Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo
Retiro o cambio de carrera del científico recolector
Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida
de registros restantes
C
on
tenid
os d
e In
form
ación
Tiempo (Michener, 1997)
7
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Volumen de datos…
El problema del “diluvio” de datos. La era del Petabyte
www.wired.com
8
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Ante estos retos, tenemos posibilidades y nuevas maneras de…
• Producir datos,
• de compartirlos (publicarlos), y…
• de trabajar colaborativamente
Nuevas formas de colaboración científica
9
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Frecuentemente o cada vez más escuchamos y hablamos de…
• “ciberinfraestructura” • “e-ciencia” • “e-investigación” • “colaboracion ubicua” • “data-driven Science” • “computación grid”• “computación social”
• “acceso abierto al conocimiento”…refiriendose a nuevas formas de producción y diseminación del conocimiento
Nuevas formas de colaboración científica
10
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
e-ciencia
• El termino e-ciencia es usado para representar la creciente colaboración global de personas y uso de recursos compartidos, que serán (son) necesarias para resolver nuevos problemas de la ciencia y la ingeniería
Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspective
http://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf
11
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.):
• Datos del LHC generados en el CERN
• Datos generados por las redes mundiales de sensores
sísmicos
• Estudios sobre cambios globales (GCMD-NASA)
• Astronomía, los “telescopios virtuales” (Global Internet
Telescope)
• Banco de datos de Proteinas (PDB, Protein Data Bank)
• Datos del genoma humano y de otras especies
Ejemplos de colecciones de datos:
12
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
A esto se unen las iniciativas por el uso sin
restricciones de la información y datos:
• Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives)
• Movimiento Datos Libres (OD, Open Data)
• Repositorios Institucionales y por disciplina (temáticos)
Iniciativas de Acceso Abierto
13
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
-Ejemplos: CERN LHC
14
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Necesidad de usar tecnologías de información (TICs)
• Ubicar• Accesar• Recuperar• Compartir
…datos
La mayoría usa LA RED (la Web) para
satisfacer estas necesidades
Para…
15
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Un objetivo importante
Qué debemos hacer para lograr el…
Uso secundario y a largo plazo de colecciones de
datos científicos
Se debe…
Garantizar permanencia de los datos en el tiempo
Poder ubicar y recuperar la información
16
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Herramientas
Herramientas organizativas y tecnológicas que pueden hacer esto posible:
Uso de metadatos y estándares de intercambio de información
Tecnologías de Información y Comunicaciones
Formación de Redes de colaboración entre científicos y entre usuarios de información
Creación y mantenimiento de repositorios de datos
17
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
¿Qué significa la palabra “metadatos”?
• " Datos sobre los datos " .
• "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica" (J.K. Michener 1997).
D
M
D
M1
D
M2
Mc
D
M
a) b) c)
Metadatos como parte de los datos
Metadatos externos al recurso de información
Meta-metadatos (colecciones de metadatos)
18
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
¿Para qué “metadatos”?Preguntas que se deberían poder responder usando metadatos:
•Qué datos describe una coleccion de datos científicos?
•Quién produjo la colección?
•Porqué fue creada la colección?
•Cómo fue creada la colección?
•Qué datos componen la colección?
•Cuan confiables son los datos. Que problemas persisten en la colección?
•Cómo alguien puede obtener una copia de la colección?
•Quién escribio los metadatos?
19
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
¿Para qué “metadatos”?
• El valor científico y económico de las colecciones de datos es muy grande
• Para asegurar su uso posterior, la comunidad científica necesita acceso eficiente a estos datos
• Los datos tienen que ser confiables y persistentes en el tiempo
• La calidad de los datos debe poder probarse
20
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
¿Que hacer?
• Tratar a los datos como si fueran una publicación científica tradicional– Edición– Agregación (documentación con metadatos)– Análisis– Revisión por pares– Publicación
…para que sean útiles a los usuarios finales
21
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Ejemplos de metadatos y de comunidades
que usan metadatos
Muestra datos NBIIhttp://www.nbii.gov/
Documentación de datos geoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy
22
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Ejemplos de metadatos y de comunidades
que usan metadatosDocumentación de datos geoespaciales (Interfaz a Clearinghouse FGDC, GCMD Data Documenter, Data.gov)
23
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Algunos de los estándares para metadatos geoespaciales, biológicos, científicos y
ambientales más usados
•FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal
Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov]
•FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov].
•Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la
Tierra. [gcmd.gsfc.nasa.gov]
•Darwin Core (DwC). Colecciones de Historia Natural.
•Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos
ecológicos. Base del estándar EML. [lternet.washington.edu]
•Dublin Core. Estandar general de identificacion de objetos de información en Internet.
[www.dublincore.org]
•CCLRC Scientific metadata model (CSMD). study-data set orientated model
24
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Repositorios
• Almacenan y preservan la producción de una institución o de una disciplina científica.
• Contienen información académica y científica. - Artículos de revista, tesis, congresos, informes, colecciones de datos, etc.
• Compuestos de Metadatos + documentos. • Libre acceso a sus contenidos (open access), es
la tendencia actual.
25
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Repositorios institucionales
• Incluyen los contenidos académicos de una institución (universidad, centro de investigación, etc.).
Ejemplos:• CERN Document Server: http://cdsweb.cern.ch/• Repositorio SABER-ULA: http://www.saber.ula.ve• Dspace@MIT: http://dspace.mit.edu
26
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Repositorios temáticos
• Incluyen los contenidos académicos de una disciplina o ámbito temático.
Ejemplos: – E-LIS (biblioteconomía y documentación), – ArXiv (física), – Cogprints (psicología),– Repec (economía).
27
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Repositorios temáticos
28
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Repositorios de datos
• Publican y preservan colecciones de datos• Organizados frecuentemente por disciplinas
científicas como por ejemplo:– HEP, – Genómica– Datos geoespaciales,– Datos biológicos– Datos astronómicos– Datos gubernamentales
29
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Plataforma Dspace
• DSpace es una plataforma de software de Código Abierto que provee herramientas de administración de repositorios para gestionar muchos tipos de contenidos digitales, incluyendo colecciones de datos.
www.dspace.org
30
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
¿Donde usan Dspace?
www.dspace.org
31
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Repositorios de datos con Dspace
32
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Dificultades comunes
• Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos• Poca disposición de los científicos para compartir los datos.• Poca receptividad o disposición para aportar metadatos que
documenten las colecciones de datos.• Confusiones y reservas que tienen que ver con los derechos de
propiedad, publicación y uso de los datos.• Dificultades (aún) con la conexión a internet (conectividad,
velocidad)• Costos de los instrumentos de captura de datos• No existe la figura de “gerente local de información”, o es muy
costoso tenerlos
33
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
El Futuro• Redes de gestión de conocimientos basadas en datos y metadatos
• Herramientas analíticas "en-línea" con acceso a datos de red de científicos
• Herramientas que facilitan la creación de diferentes formas de metadatos
• Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones
• Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids)
• Por último…Comunidades y sociedades del conocimiento
34
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
A manera de conclusión para esta parte
• El reto para la infraestructura de investigación actual es facilitar la más amplia diseminación posible de los descubrimientos científicos
• Estas infraestructuras allanaran el camino para la e-ciencia, donde los investigadores serán capaces de producir, gestionar, diseminar y comparar grandes conjuntos de datos, magnificando las posibilidaded de nuevos descubrimientos
Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46
35
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
torrens@ula.ve
Gracias por la atención!!