Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso,...

30
Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el uso (fitness-for-use) de los datos de biodiversidad Manuel Vargas Del Valle ([email protected]) Coordinador de la Unidad de Desarrollos Informáticos Instituto Nacional de Biodiversidad de Costa Rica (INBio) Buenos Aires (Argentina) 30 septiembre 2011

Transcript of Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso,...

Page 1: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011

Métodos para mejorar la aptitud para el uso (fitness-for-use) de los datos de biodiversidad

Manuel Vargas Del Valle ([email protected])Coordinador de la Unidad de Desarrollos InformáticosInstituto Nacional de Biodiversidad de Costa Rica (INBio)

Buenos Aires (Argentina)30 septiembre 2011

Page 2: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Resumen

Esta charla presenta diversos métodos para mejorar la

aptitud para el uso (fitness-for-use) de los datos sobre

biodiversidad, desde el punto de vista taxonómico y

geográfico.

Los temas presentados aquí reflejan en gran parte las

investigaciones realizadas por Arthur Chapman y John

Wieczorek en los campos de aptitud para el uso,

calidad de datos y curación de datos.

Esta charla es una traducción de la elaborada en inglés

por Nicolas Noé y Meherzad Romer, y traducida

también al francés por ellos mismos.

Page 3: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Contenidos

Datos taxonómicos

Datos geográficos

Datos “delicados de manejar” (Sensitive data)

Page 4: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Mejores prácticas

Taxonomía

Page 5: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosCerteza de la identificación

Perspectiva del diseño de la base de datos:

• Bandera de nivel de verificación, nombre, fecha

• Cuidado con términos como "aff.", "cf.", "s.lat", ...

• Si la identificación no fue hecha por un experto, guarde la siguiente información: o claves taxonómicaso ADNo revisioneso ...

Page 6: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Prácticas para la entrada de datos:

• Uso de checklists• Uso de archivos de autoridad

Chequeo de errores:

• Generalmente requiere expertisia taxonómica

• Los valores extremos (outliers)ambientales/geográficos pueden ayudar a priorizar

Datos taxonómicosCerteza de la identificación

Page 7: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosProblemas de ortografía – Parte 1

•  Diseño de bases de datos:o “Atomizar” los datos (géneros, especies,

autores, certeza,...)

• Usar archivos de autoridado Listas globales (Catálogo de la Vida,

Species2000, ...)o Regionaleso Taxonómicos (fishbase, ...)

• Entradas duplicadaso Se requiere una interfaz específica para

sugerir posibles duplicados y marcarlos cuando se importan fuentes secundarias

Page 8: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosRangos infraespecíficos

• Database design: atomize fields, build scientific name later:Genus Species Infra_rank Infra_value

Stipiturus malachurus subsp. parimeda

=> se evitan nombres ambiguos=> permite chequeos en los rangos infraespecíficos (pocos valores)

Page 9: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

• Entrada de datoso Use listas de valores (pick-lists)o Permita un número limitado de valores:

subsp. subespecie

var. variedad

subvar. subvariedad

f. forma

subf. subforma

• Chequeo de errores

            No debe hacerse mucho si la base de datos está bien diseñada

Datos taxonómicosRangos infraespecíficos

Page 10: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosCultivos e híbridos

• Son casos muy complejos de manejar. La base de datos debe estar diseñada para manejar esos casos específicos

• Cultivos tienen su propio código nomenclatural

• Incluya un campo que indique si se trata de un cultivo o un híbrido (para así permitir más revisiones o atomización)

Page 11: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosNombres no publicados – Qué debe evitarse

• Deje claro que se trata de un nombre no publicado – evite el uso de binomios que parezcan nombres publicados oLos usuarios podrían perder mucho tiempo buscando nombres que no existen

• Evite nombres como "Verticordia sp.1", "Verticordia sp.2".o=> Esto puede causar mucha confusión, ya que puede hacer referencia a diferentes especies en instituciones diferentes

Page 12: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosNombres no publicados – Qué hacer

"<Genus> sp. <descripción o nombre coloquial> (<Voucher>)"

Prostanthera sp. somersbey (B.J. Conn 4024)Ventajas:

• Es claro para los usuarios que NO es un nombre publicado

• Evita la confusión entre especies/instituciones• Cuando el taxón se describa apropiadamente

puede ser usado como un sinónimo• Hay poco peligro de confusión fuera de las

publicaciones científicas

Page 13: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosProblemas ortográficos – Nombres comunes

Son casi imposibles de estandarizar debido a qué:

• Un solo taxón puede tener varios nombres comunes (debido a que son particulares de una región, lenguaje o etnia)

• Inversamente, un mismo nombre común puede ser compartido por varios taxones

No estandarize los nombres comunes, pero documéntelos tanto como sea posible

Nombre Lenguaje Región Fuente Comentarios

Page 14: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosNombres de autores

• No siempre deben incluirse. Solamente deben incluirse cuando un mismo nombre se le da a varios taxones

• Si los incluye, use un campo separado

• Tome en cuenta las diferencias entre los formatos para nombres de plantas y nombres de animales (i.e. en la concatenación):o Los nombres de animales incluyen años: 

Emydura signata Ahl, 1932 Macrotis lagotis (Reid, 1937)

o Los de plantas no Melaleuca nervosa (Lindley)

Género Especie Autor Año

Page 15: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosNombres de autores – Chequeo de errores

• Para plantas, las abreviaturas de los nombres de autores siguen un estándar que puede usarse para las revisiones

• Revise con archivos de autoridad• Use técnicas basadas en “Soundex”• Si se usan los autores, todos los

nombres publicados deben llevarlos

Page 16: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosNombres de recolectores

• Hay listas de nombres de recolectores recopiladas para algunas áreas

• El formato debe estandarizarse. El estándar HISPID recomienda:

    "Primer apellido del recolector seguido de una coma y un espacio (, ) luego las iniciales (todas en mayúscula y separadas por puntos). Todas las iniciales y la primera letra del apellido deben ir en mayúscula. Por ejemplo, Chambers, P.F."

Page 17: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos taxonómicosNombres de recolectores – Chequeo de errores

• Si el formato está estandarizado, es fácil "ordenar por recolectores" y buscar pequeñas variaciones (sin embargo, se debe tener mucho cuidado al renombrar)

• Se pueden emparejar los nombres de recolectores y las fechas de recolección con datos de los historiadores: itinerarios de barcos, descripción de expediciones científicas... 

      

      Ambas bases de datos pueden ser mejoradas si se detectan las inconsistencias y los errores

Page 18: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Mejores prácticas

Datos espaciales

Page 19: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos espacialesDiseño de bases de datos - 1/2

• Debemos asegurarnos de que hay campos para recopilar adecuadamente la información que con frecuencia se pone en el campo de localidad

Eurasia: throughout Europe to northernmost extremity of Scandinavia, except Iberian Peninsula, central Italy, and Adriatic basin; Aegean Sea basin in Matriza and from Struma to Aliakmon drainages; Aral Sea basin; Siberia in rivers draining the Arctic Ocean eastward to Kolyma. Widely introduced. Several countries report adverse ecological impact after introduction.(Distribución de Perca Fluviatilis, tomada de fishbase)

Page 20: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos espacialesDiseño de bases de datos - 2/2Coordenadas en formato decimal

Datum geodésico

Exactitud reportada por los dispositivos

Incertidumbre espacial: prefiblemente en metros

"Lugar más cercano con nombre", "Distancia" y "Dirección" (+ Localidad). Todos estos elementos juntos ayudan a geocodificar y a limpiar los datos.

Método de georreferenciación:• GPS diferencial• GPS “corrompido” por la Disponibilidad Selectiva (antes de

mayo del 2000)• Un mapa de referencia de escala 1:100 000 y triangulación• Una referencia a un mapa y “navegación por estima” (dead

reckoning)• Obtenido automáticamente con software de georreferenciación

Page 21: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos espacialesChequeo de errores en los datos existentes

• Chequeo contra el resto del registro: localidad, nombre del país

• Chequeo contra otros datos en la base de datos: ¿es el registro consistente con otros lugares que ha visitado el recolector?

• Chequeo contra datos externos mediante SIG: prueba del “punto en el polígono” - ¿el punto está en el mar o en el océano? 

• Chequeo de valores geográficos “extremos” (outliers) de una especie

• Búsqueda de valores ambientales “extremos” (outliers) de una especie

Page 22: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Datos espacialesMejores prácticas para georreferenciación – Recolección en el campo - Localidad

Las descripciones de localidades más específicas usan una referencia inequívoca, corta, fácil de localizar y persistente a un objeto geográfico (un punto, una línea, un polígono) y desplazamientos ortogonales desde el centro de ese objeto.

 "2.1 km N and 0.5 km E of North Head Light House off Sydney Heads"

 

Page 23: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Mejores prácticas

Datos “delicados” (Sensitive data)

Page 24: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Trabajando con datos “delicados”Deben presentarse “vagamente” - ¿Por qué?

• Para proteger especies amenazadas, económicamente importantes y reducir el impacto en poblaciones silvestres

• Para reducir las posibilidades de sabotaje, recolección por parte de recolectores comerciales o inescrupulosos, sobre explotación, control de la bioprospección...

• Proteger datos de terceros custodiados por la institución 

• Permitir la publicación de los resultados de investigaciones y así mantener ventajas competitivas

• Por temor a que los usuarios le den un uso inadecuado a lso datos

• Por respecto a los deseos de los dueños de la propiedad intelectual de los datos

(resultados de la encuesta en Internet de GBIF - 2006)

Page 25: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Trabajando con datos “delicados”Consideraciones generales

• Los problemas clave frecuentemente son sociales

• Hay aspectos regionales que deben tenerse en cuenta

• Algunos nunca compartirán datos “delicados”

• La documentación es esencial

Page 26: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Trabajando con datos “delicados”Como presentar datos de manera “vaga” o imprecisa

• Datos espaciales: o Con una cuadrícula espacialo Se recomiendan 3 niveles de

generalización por Chapman & Wieczorek(2006): 0.1 grados (11-16 km) - 0.01 grados (1.1-1.6km) - 0.001 grados (112-157m)

o En casos extremos, no los presente ni publique

• Datos no espacialeso Deben ser reemplazados con frases

apropiadaso No elimine los datos de la colección

Page 27: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Trabajando con datos “delicados”La documentación es esencial

Debe indicarse qué se ha hecho para presentar los datos “vagamente”, así como las razones, para que así el usuario pueda:

• saber que datos han sido modificados y como

• saber que hay más información que podría obtener

• decidir si debe ignorar esos datos, incluírlos tal como los obtiene o buscar más información

Page 28: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Trabajando con datos “delicados”Campos que deben presentarse “vagamente”

• Información de localidad y de georreferenciación

• Otros campos (información taxonómica, nombre del observador, información del hábitat, huéspedes, usos tradicionales, ...)

Page 29: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Preguntas

¡Gracias!

Page 30: Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Métodos para mejorar la aptitud para el.

Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011

Métodos para mejorar la aptitud para el uso (fitness-for-use) de los datos de biodiversidad

Manuel Vargas Del Valle ([email protected])Coordinador de la Unidad de Desarrollos InformáticosInstituto Nacional de Biodiversidad de Costa Rica (INBio)

Buenos Aires (Argentina)30 septiembre 2011