Base de datos biológica


Base de datos biológica

Base de datos biológica

Una base de datos biológica es una biblioteca de información sobre ciencias de la vida, recogida de experimentos científicos, literatura publicada, tecnología de experimentación de alto rendimiento, y análisis computacional. Contiene información de áreas de investigación incluyendo genómica, proteómica, metabolómica, expresión génica mediante microarrays, y filogenética.[1] La información contenida en bases de datos biológicas incluye funciones, estructura y localización (tanto celular como cromosómica) de genes, efectos clínicos de mutaciones, así como similitudes de secuencias y estructuras biológicas.

Para entender las bases de datos biológicas son importantes los conceptos de bases de datos relacionales de las ciencias de la computación, y los conceptos de recuperación de información de las bibliotecas digitales. El diseño de estas bases de datos, su desarrollo y su gestión a largo plazo, forman un área nuclear de la disciplina de la bioinformática.[2] El contenido de los datos incluye secuencias génicas, descripciones textuales, atributos y clasificaciones ontológicas, anotaciones, y datos en forma tabular. Estos son descritos a menudo como datos semi-estructurados, y se pueden representar como tablas, registros delimitados por claves, y estructuras XML. Son comunes las referencias cruzadas entre bases de datos usando números de acceso (identificadores únicos de registros de secuencias de proteínas o ADN) como claves foráneas.

Contenido

Descripción

Las bases de datos biológicas se han convertido en un instrumento importante para ayudar a los científicos a comprender y explicar una serie de fenómenos biológicos desde la estructura biomolecular y su interacción, hasta el metabolismo completo de los organismos y a la comprensión de la evolución de las especies. Este conocimiento ayuda a facilitar la lucha contra las enfermedades, ayuda en el desarrollo de medicamentos, y en el descubrimiento de las relaciones básicas entre las especies en la historia de la vida.

El conocimiento biológico se distribuye entre múltiples bases de datos generales y especializadas. Esto a veces hace que sea difícil garantizar la coherencia de la información. Las bases de datos biológicas tienen referencias cruzadas con otras bases de datos con el número de acceso como una forma de vincular sus conocimientos relacionados con el conjunto.

Un recurso importante para la búsqueda de bases de datos biológicos es un tema anual de la revista Nucleic Acids Research (NAR). Un artículo acerca de las bases de datos en NAR está disponible gratuitamente y se clasifican muchas de las bases de datos en línea a disposición del público relacionadas con la biología y bioinformática.

Bases de datos de secuencias

Uno de los tipos de bases de datos más usuales en bioinformática, son las bases de datos de secuencias. Estas son una gran colección de secuencias de ADN, proteínas y otras, que son almacenadas en computadoras. Una base de datos puede incluir secuencias de un sólo organismo, como la base da datos que contiene todas las proteínas de la Saccharomyces cerevisiae, o puede incluir secuencias de todos los organismo cuyo ADN ha sido secuenciado.

Existen bases de datos primarias, que contienen información directa de la secuencia, estructura o patrón de expresión de ADN o proteína, y secundarias que contienen datos e hipótesis derivados del análisis de las bases de datos primarias, como mutaciones, relaciones evolutivas, agrupación por familias o funciones, implicación en enfermedades, etc.

Problemas por los formatos de entrada

Un problema fundamental en todas las grandes bases de datos genómicas es que los registros provienen de una gran variedad de fuentes, desde investigadores individuales hasta grandes centros de secuenciamiento. Como resultado, las secuencias mismas y principalmente las anotaciones biológicas adjuntas a estas secuencias, varían notablemente en calidad. También hay mucha redundancia ya que muchos laboratorios ingresan a menudo secuencias que son idénticas o muy similares a otras en la base de datos.

Muchas anotaciones no están basadas en experimentos de laboratorio sino en resultados de búsquedas de secuencias similares de secuencias previamente anotadas. Por supuesto, una vez que una secuencia es anotada basándose en su similitud con otra, puede servir como base para futuras anotaciones. Esto conduce al problema de las anotaciones transitivas, porque puede haber varias de esas secuencias transferidas por similitud de secuencia entre una base de datos de registro real y la información experimental de laboratorio. Por lo tanto, siempre hay observar el sentido biológico de las anotaciones en las principales bases de datos de secuencias con un considerable grado de escepticismo, a menos que pueda ser verificada por referencias a artículos publicados con la descripción de la alta calidad de los datos experimentales, o al menos por referencia a una secuencia de la base de datos arreglada por un humano.

Principales bases de datos

De nucleótidos

La colaboración de las tres bases de datos más importantes hace posible acceder a casi toda la información de secuencias de ADN desde cualquiera de sus tres sedes:

  • EMBL-BANK en el Instituto europeo de Bioinformática (EBI)
  • DNA Data Bank of Japan (DDBJ) en el Centro de Información Biológica (CIB)
    • Enlace externo: DDBJ
  • GenBank en el Centro Nacional de Información Biotecnológica (NCBI)

Si bien son mantenidas por distintos organismos en distintos países, existe una coordinación entre las distintas bases. Una secuencia enviada a cualquiera de las bases se verá reflejada en las otras dos en aproximadamente una semana, ya que esa es la frecuencia de actualización entre las distintas bases genéticas. Por este motivo es indistinto que base se use para enviar nuevas secuencias, aunque normalmente los europeos utilizan EMBL-BANK y los americanos GenBank.

De proteínas

Bases de datos de secuencias de aminoácidos.

  • Swiss-Prot contiene secuencias anotadas o comentadas, es decir, cada secuencia ha sido revisada, documentada y enlazada a otras bases de datos.
  • TrEMBL por Translation of EMBL Nucleotide Sequence Database incluye la traducción de todas las secuencias codificantes derivadas del (EMBL-BANK) y que todavía no han podido ser anotadas en Swiss-Prot.
  • PIR por Protein Information Resource está dividida en cuatro sub-bases que tienen un nivel de anotación decreciente.
    • Enlace externo: PIR
  • ENZYME enlaza la clasificación de actividades enzimáticas completa a las secuencias de Swiss-Prot.
  • PROSITE contiene información sobre la estructura secundaria de proteínas, familias, dominios, etc.
  • InterPro integra la información de diversas bases de datos de estructura secundaria como PROSITE, proporcionando enlaces a otras bases de datos e información más extensa.
  • PDB por Protein Data Bank es la base de datos de estructura terciaria 3-D de proteínas que han sido cristalizadas.
    • Enlace externo: PDB

De genomas

  • Ensembl integra genomas eucariotas grandes, por el momemto contiene genoma humano, ratón, rata, fugu, zebrafish, mosquito, Drosophila, C. elegans, y C. briggsae.
  • Genomes server y TIGR son portales con información o enlaces de todos los genomas secuenciados por el momento, desde virus a humanos.
  • Wormbase es el portal del genoma de gusano C. elegans.
  • Flybase es el portal de la mosca del vinagre Drosophila melanogaster.

Otras

  • Taxonomy es el portal de clasificación taxonómica de organismos
  • Pubmed da acceso gratuito al índice de publicaciones de la Biblioteca Nacional de Medicina (NLM), con enlaces a artículos completos
  • OMIM por Online Mendelian Inheritance in Man es un catálogo de genes humanos relacionados con informaciones genéticas.
    • Enlace externo: OMIM
  • Xenobase es el portal del organismo modelo Xenopus laevis
  • TAIR (The Arabidopsis Information Resource) es el portal de la planta modelo Arabidopsis thaliana
  • GYPSY, base de datos de elementos genéticos móviles.

Véase también

Referencias

  1. Altman RB (March de 2004). «Building successful biological databases» Brief. Bioinformatics. Vol. 5. n.º 1. pp. 4–5. PMID 15153301.
  2. Bourne P (August de 2005). «Will a biological database be different from a biological journal?» PLoS Comput. Biol.. Vol. 1. n.º 3. pp. 179–81. DOI 10.1371/journal.pcbi.0010034PMID 16158097.

Enlaces externos

Obtenido de "Base de datos biol%C3%B3gica"

Wikimedia foundation. 2010.

Mira otros diccionarios:

  • Base de datos — Saltar a navegación, búsqueda OpenOffice.org Base: sistema de gestión de bases de datos. Una base de datos o banco de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso. En este… …   Wikipedia Español

  • Modelo de base de datos — Este artículo o sección necesita referencias que aparezcan en una publicación acreditada, como revistas especializadas, monografías, prensa diaria o páginas de Internet fidedignas. Puedes añadirlas así o avisar …   Wikipedia Español

  • Base Signy — Saltar a navegación, búsqueda Signy …   Wikipedia Español

  • Evolución biológica — «Evolución» redirige aquí. Para otras acepciones, véase Evolución (desambiguación). «Evolucionismo» redirige aquí. Para otras acepciones, véase Evolucionismo (desambiguación). Parte de la serie de …   Wikipedia Español

  • Clasificación biológica — Se ha sugerido que este artículo o sección sea fusionado en Taxonomía (discusión). Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí. La clasificación biológica o clasificación científica en biología, es un… …   Wikipedia Español

  • Complejidad biológica — Este artículo o sección necesita referencias que aparezcan en una publicación acreditada, como revistas especializadas, monografías, prensa diaria o páginas de Internet fidedignas. Puedes añadirlas así o avisar …   Wikipedia Español

  • Reserva de Biosfera Estación Biológica del Beni — Saltar a navegación, búsqueda Reserva de la Biosfera Estación Biológica del Beni Categoría IUCN IV (Área de gestión de hábitat/especies) …   Wikipedia Español

  • Bioinformática — Saltar a navegación, búsqueda La bioinformática, según una de sus definiciones más sencillas, es la aplicación de tecnología de computadores a la gestión y análisis de datos biológicos.[1] Los términos bioinformática, biología computacional y, en …   Wikipedia Español

  • Web of Science — es un servicio en línea de información científica , suministrado por Thomson Reuters, integrado en ISI Web of Knowledge, WoK. Facilita el acceso a un conjunto de bases de datos en las que aparecen citas de artículos de revistas científicas,… …   Wikipedia Español

  • Huella peptídica — Secuenciación de una proteína mediante huella peptídica. La huella peptídica o PMF (del inglés Peptide mass fingerprinting), es una técnica analítica de identificación de proteínas desarrollada en 1993 por varios grupos de forma independiente …   Wikipedia Español