Base de Datos Biológica

4
Base de datos biológica Una base de datos biológica es una biblioteca de información sobre ciencias de la vida, recogida de experimentos científicos, literatura publicada, tecnolo- gía de experimentación de alto rendimiento, y aná- lisis computacional. [1] Contiene información de áreas de investigación incluyendo genómica, proteómica, metabolómica, expresión génica mediante microarrays,y filogenética. [2] La información contenida en bases de da- tos biológicas incluye funciones, estructura y localización (tanto celular como cromosómica) de genes, efectos clí- nicos de mutaciones, así como similitudes de secuencias y estructuras biológicas. Para entender las bases de datos biológicas son im- portantes los conceptos de bases de datos relacionales de las ciencias de la computación, y los conceptos de recuperación de información de las bibliotecas digitales. El diseño de estas bases de datos, su desarrollo y su ges- tión a largo plazo, forman un área nuclear de la discipli- na de la bioinformática. [3] El contenido de los datos in- cluye secuencias génicas, descripciones textuales, atribu- tos y clasificaciones ontológicas, anotaciones, y datos en forma tabular. Estos son descritos a menudo como da- tos semi-estructurados, y se pueden representar como ta- blas, registros delimitados por claves, y estructuras XML. Son comunes las referencias cruzadas entre bases de da- tos usando números de acceso (identificadores únicos de registros de secuencias de proteínas o ADN) como claves foráneas. 1 Descripción Las bases de datos biológicas se han convertido en un instrumento importante para ayudar a los científicos a comprender y explicar una serie de fenómenos biológicos desde la estructura biomolecular y su interacción, hasta el metabolismo completo de los organismos y a la compren- sión de la evolución de las especies. Este conocimiento ayuda a facilitar la lucha contra las enfermedades, ayuda en el desarrollo de medicamentos, y en el descubrimiento de las relaciones básicas entre las especies en la historia de la vida. El conocimiento biológico se distribuye entre múltiples bases de datos generales y especializadas. Esto a veces hace que sea difícil garantizar la coherencia de la infor- mación. Las bases de datos biológicas tienen referencias cruzadas con otras bases de datos con el número de ac- ceso como una forma de vincular sus conocimientos re- lacionados con el conjunto. Un recurso importante para la búsqueda de bases de da- tos biológicos es un tema anual de la revista Nucleic Acids Research (NAR). Un artículo acerca de las bases de da- tos en NAR está disponible gratuitamente y se clasifican muchas de las bases de datos en línea a disposición del público relacionadas con la biología y bioinformática. 2 Bases de datos de secuencias Uno de los tipos de bases de datos más usuales en bioin- formática, son las bases de datos de secuencias. Estas son una gran colección de secuencias de ADN, proteínas y otras, que son almacenadas en computadoras. Una base de datos puede incluir secuencias de un sólo organismo, como la base da datos que contiene todas las proteínas de la Saccharomyces cerevisiae, o puede incluir secuencias de todos los organismo cuyo ADN ha sido secuenciado. Existen bases de datos primarias, que contienen infor- mación directa de la secuencia, estructura o patrón de expresión de ADN o proteína,y secundarias que contie- nen datos e hipótesis derivados del análisis de las bases de datos primarias, como mutaciones, relaciones evoluti- vas, agrupación por familias o funciones, implicación en enfermedades, etc. 2.1 Problemas por los formatos de entrada Un problema fundamental en todas las grandes bases de datos genómicas es que los registros provienen de una gran variedad de fuentes, desde investigadores individua- les hasta grandes centros de secuenciamiento. Como re- sultado, las secuencias mismas y principalmente las ano- taciones biológicas adjuntas a estas secuencias, varían no- tablemente en calidad. También hay mucha redundancia ya que muchos laboratorios ingresan a menudo secuen- cias que son idénticas o muy similares a otras en la base de datos. Muchas anotaciones no están basadas en experimentos de laboratorio sino en resultados de búsquedas de secuen- cias similares de secuencias previamente anotadas. Por supuesto, una vez que una secuencia es anotada basándo- se en su similitud con otra, puede servir como base para futuras anotaciones. Esto conduce al problema de las ano- taciones transitivas, porque puede haber varias de esas secuencias transferidas por similitud de secuencia entre una base de datos de registro real y la información experi- mental de laboratorio. Por lo tanto, siempre hay observar 1

description

base de datos biologica

Transcript of Base de Datos Biológica

  • Base de datos biolgica

    Una base de datos biolgica es una biblioteca deinformacin sobre ciencias de la vida, recogida deexperimentos cientcos, literatura publicada, tecnolo-ga de experimentacin de alto rendimiento, y an-lisis computacional.[1] Contiene informacin de reasde investigacin incluyendo genmica, protemica,metabolmica, expresin gnica mediante microarrays, ylogentica.[2] La informacin contenida en bases de da-tos biolgicas incluye funciones, estructura y localizacin(tanto celular como cromosmica) de genes, efectos cl-nicos de mutaciones, as como similitudes de secuenciasy estructuras biolgicas.Para entender las bases de datos biolgicas son im-portantes los conceptos de bases de datos relacionalesde las ciencias de la computacin, y los conceptos derecuperacin de informacin de las bibliotecas digitales.El diseo de estas bases de datos, su desarrollo y su ges-tin a largo plazo, forman un rea nuclear de la discipli-na de la bioinformtica.[3] El contenido de los datos in-cluye secuencias gnicas, descripciones textuales, atribu-tos y clasicaciones ontolgicas, anotaciones, y datos enforma tabular. Estos son descritos a menudo como da-tos semi-estructurados, y se pueden representar como ta-blas, registros delimitados por claves, y estructuras XML.Son comunes las referencias cruzadas entre bases de da-tos usando nmeros de acceso (identicadores nicos deregistros de secuencias de protenas o ADN) como clavesforneas.

    1 DescripcinLas bases de datos biolgicas se han convertido en uninstrumento importante para ayudar a los cientcos acomprender y explicar una serie de fenmenos biolgicosdesde la estructura biomolecular y su interaccin, hasta elmetabolismo completo de los organismos y a la compren-sin de la evolucin de las especies. Este conocimientoayuda a facilitar la lucha contra las enfermedades, ayudaen el desarrollo de medicamentos, y en el descubrimientode las relaciones bsicas entre las especies en la historiade la vida.El conocimiento biolgico se distribuye entre mltiplesbases de datos generales y especializadas. Esto a veceshace que sea difcil garantizar la coherencia de la infor-macin. Las bases de datos biolgicas tienen referenciascruzadas con otras bases de datos con el nmero de ac-ceso como una forma de vincular sus conocimientos re-lacionados con el conjunto.

    Un recurso importante para la bsqueda de bases de da-tos biolgicos es un tema anual de la revista Nucleic AcidsResearch (NAR). Un artculo acerca de las bases de da-tos en NAR est disponible gratuitamente y se clasicanmuchas de las bases de datos en lnea a disposicin delpblico relacionadas con la biologa y bioinformtica.

    2 Bases de datos de secuenciasUno de los tipos de bases de datos ms usuales en bioin-formtica, son las bases de datos de secuencias. Estasson una gran coleccin de secuencias de ADN, protenasy otras, que son almacenadas en computadoras. Una basede datos puede incluir secuencias de un slo organismo,como la base da datos que contiene todas las protenas dela Saccharomyces cerevisiae, o puede incluir secuenciasde todos los organismo cuyo ADN ha sido secuenciado.Existen bases de datos primarias, que contienen infor-macin directa de la secuencia, estructura o patrn deexpresin de ADN o protena, y secundarias que contie-nen datos e hiptesis derivados del anlisis de las basesde datos primarias, como mutaciones, relaciones evoluti-vas, agrupacin por familias o funciones, implicacin enenfermedades, etc.

    2.1 Problemas por los formatos de entrada

    Un problema fundamental en todas las grandes bases dedatos genmicas es que los registros provienen de unagran variedad de fuentes, desde investigadores individua-les hasta grandes centros de secuenciamiento. Como re-sultado, las secuencias mismas y principalmente las ano-taciones biolgicas adjuntas a estas secuencias, varan no-tablemente en calidad. Tambin hay mucha redundanciaya que muchos laboratorios ingresan a menudo secuen-cias que son idnticas o muy similares a otras en la basede datos.Muchas anotaciones no estn basadas en experimentos delaboratorio sino en resultados de bsquedas de secuen-cias similares de secuencias previamente anotadas. Porsupuesto, una vez que una secuencia es anotada basndo-se en su similitud con otra, puede servir como base parafuturas anotaciones. Esto conduce al problema de las ano-taciones transitivas, porque puede haber varias de esassecuencias transferidas por similitud de secuencia entreuna base de datos de registro real y la informacin experi-mental de laboratorio. Por lo tanto, siempre hay observar

    1

  • 2 3 PRINCIPALES BASES DE DATOS

    el sentido biolgico de las anotaciones en las principalesbases de datos de secuencias con un considerable gradode escepticismo, a menos que pueda ser vericada por re-ferencias a artculos publicados con la descripcin de laalta calidad de los datos experimentales, o al menos porreferencia a una secuencia de la base de datos arregladapor un humano.

    3 Principales bases de datos

    3.1 De nucletidosLa colaboracin de las tres bases de datos ms impor-tantes hace posible acceder a casi toda la informacin desecuencias de ADN desde cualquiera de sus tres sedes:

    EMBL-BANK en el Instituto europeo de Bioinfor-mtica (EBI)

    Enlace externo: EMBL-BANK DNA Data Bank of Japan (DDBJ) en el Centrode Informacin Biolgica (CIB)

    Enlace externo: DDBJ GenBank en el Centro Nacional de InformacinBiotecnolgica (NCBI)

    Enlace externo: GenBank Entrez Nucleotide

    Si bien son mantenidas por distintos organismos en dis-tintos pases, existe una coordinacin entre las distintasbases. Una secuencia enviada a cualquiera de las bases sever reejada en las otras dos en aproximadamente unasemana, ya que esa es la frecuencia de actualizacin entrelas distintas bases genticas. Por este motivo es indistin-to que base se use para enviar nuevas secuencias, aunquenormalmente los europeos utilizan EMBL-BANK y losamericanos GenBank.

    3.2 De protenasBases de datos de secuencias de aminocidos.

    Swiss-Prot contiene secuencias anotadas o comen-tadas, es decir, cada secuencia ha sido revisada, do-cumentada y enlazada a otras bases de datos.

    Enlace externo: Swissprot en el EBI, Swissproten Expasy

    TrEMBL por Translation of EMBL NucleotideSequence Database incluye la traduccin de todaslas secuencias codicantes derivadas del (EMBL-BANK) y que todava no han podido ser anotadasen Swiss-Prot.

    Enlace externo: TrEMBL

    PIR por Protein Information Resource est divididaen cuatro sub-bases que tienen un nivel de anotacindecreciente.

    Enlace externo: PIR

    ENZYME enlaza la clasicacin de actividades en-zimticas completa a las secuencias de Swiss-Prot.

    Enlace externo: ENZYME

    PROSITE contiene informacin sobre la estructurasecundaria de protenas, familias, dominios, etc.

    Enlace externo: PROSITE

    InterPro integra la informacin de diversas basesde datos de estructura secundaria como PROSITE,proporcionando enlaces a otras bases de datos e in-formacin ms extensa.

    Enlace externo: INTERPRO

    Protein Data Bank (PDB) es la base de datos deestructura terciaria 3-D de protenas que han sidocristalizadas.

    Enlace externo: PDB

    3.3 De genomas

    Ensembl integra genomas eucariotas grandes, porel momemto contiene genoma humano, ratn, rata,fugu, zebrash, mosquito, Drosophila, C. elegans, yC. briggsae.

    Enlace externo: Ensembl

    Genomes server y TIGR son portales con informa-cin o enlaces de todos los genomas secuenciadospor el momento, desde virus a humanos.

    Enlace externo: Genome Server Enlace externo: TIGR

    Wormbase es el portal del genoma de gusano C. ele-gans.

    Enlace externo: Wormbase

    Flybase es el portal de la mosca del vinagreDrosophila melanogaster.

    Enlace externo: Flybase

  • 33.4 Otras Taxonomy es el portal de clasicacin taxonmicade organismos

    Enlace externo: Taxonomy Browser Pubmed da acceso gratuito al ndice de publicacio-nes de la Biblioteca Nacional de Medicina (NLM),con enlaces a artculos completos

    Enlace externo: PubMed OMIM por Online Mendelian Inheritance in Manes un catlogo de genes humanos relacionados coninformaciones genticas.

    Enlace externo: OMIM Xenobase es el portal del organismo modelo Xeno-pus laevis

    Enlace externo: Xenbase TAIR (The Arabidopsis Information Resource)es el portal de la planta modelo Arabidopsis thaliana

    Enlace externo: Arabidopsis GYPSY, base de datos de elementos genticos m-viles.

    Enlace externo: The GYPSYDatabase of Mo-bile Genetic Elements

    4 Vase tambin Bioinformtica Base de datos NCBI PubMed

    5 Referencias[1] Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-

    Rudlo E. (2011). Concepts, Historical Milestones andthe Central Place of Bioinformatics in Modern Biology: AEuropean Perspective. Bioinformatics - Trends and Met-hodologies. InTech. Consultado el 8 de enero de 2012.

    [2] Altman RB (marzo de 2004). Building successful biolo-gical databases. Brief. Bioinformatics 5 (1): 45. PMID15153301.

    [3] Bourne P (agosto de 2005). Will a biological database bedierent from a biological journal?. PLoS Comput. Biol.1 (3): 17981. doi:10.1371/journal.pcbi.0010034. PMID16158097.

    6 Enlaces externos Genome Proteome Search Engine para buscar a tra-vs de las bases de datos biolgicas

    DBD: Database of Biological Databa-ses/Bioinformatics Databases

    CAMERA Cyberinfrastructure for Metagenomics,repositorio libre de datos y herramientas bioinfor-mticas para metagenmica

    European Bioinformatics Institute databases genomas completamente secuenciados en NCBI Base de datos de Standford con el genoma de Sac-charomyces

  • 4 7 TEXT AND IMAGE SOURCES, CONTRIBUTORS, AND LICENSES

    7 Text and image sources, contributors, and licenses7.1 Text

    Base de datos biolgica Fuente: http://es.wikipedia.org/wiki/Base%20de%20datos%20biol%C3%B3gica?oldid=81052607 Colaborado-res:Museo8bits, Fremen, Matdrodes, Muro Bot, Nubecosmica, Fadesga, Leonpolanco, Asasia, MystBot, MerlLinkBot, Gonfus, EmausBot,JackieBot, Jcaraballo, KLBot2, Invadibot, Elvisor y Annimos: 3

    7.2 Images

    7.3 Content license Creative Commons Attribution-Share Alike 3.0

    Descripcin Bases de datos de secuencias Problemas por los formatos de entrada

    Principales bases de datos De nucletidos De protenas De genomas Otras

    Vase tambin Referencias Enlaces externos Text and image sources, contributors, and licensesTextImagesContent license