Revista Cubana de Informática Médica (RCIM)

Hacia una mejor comprensión del proceso de integración de los recursos bioinformáticas

El proceso de integración de los recursos bioinformáticos ha estado ocurriendo aceleradamente durante ya varias décadas, casi desde el comienzo mismo de la creación de los primeros repositorios y herramientas de análisis bioinformáticos. El propio canon fundamental de la biología molecular, es decir, uno o varios genes (nucleótidos, secuencia/estructura)

proteínas (aminoácidos, secuencia/estructura)

función biológica (reacción, proceso y componente), en el cual datos de diferente naturaleza se integran a través de relaciones de diversa índole, exigía este proceso de integración, la compresión del todo a través de sus partes relacionadas.

En su forma más simple veámoslo así: cuando hacemos investigación biomédica leemos artículos que nos informan del tema, sus problemáticas y nos permiten hacer informes al respecto. A su vez, en nuestro intento de producir datos, nos enlazamos a otros datos, referenciados en los propios artículos que leemos aunque hospedados en bases de datos diferentes. Paralelamente utilizamos (a través de interfaz web o de web-services) o descargamos (librerías de código) herramientas de análisis que nos permiten procesar y analizar estos datos y que eventualmente podemos integrar a las nuestras. Cada etapa en esta secuencia de acciones es recursiva en sí misma, deteniéndose sólo cuando nuestras hipótesis logran un grado de confirmación adecuado, produciéndose lo que asumimos como un aporte al conocimiento en la materia.

Servicios de este tipo los ofrece un modelo integrador como el del Centro Nacional para la Investigación Biotecnológica (NCBI, siglas en inglés) de los Estados Unidos. El NCBI (http://www.ncbi.nlm.nih.gov/) almacena y actualiza periódicamente información referente a secuencias genómicas en GenBank (que en sí mismo obedece a un modelo integrador centralizado, nutriéndose de dos bases de datos más, DDBJ y la del EMBL), un índice de artículos científicos referentes a biomedicina, biotecnología, bioquímica, genética y genómica en PubMed, una base de datos de enfermedades genéticas humanas en OMIM, además de otros datos biotecnológicos de relevancia en diversas bases de datos. El modelo funciona básicamente a través de protocolos de hipertexto (hiperlinks) y su interfaz de búsqueda para todas las bases de datos que indexa es el Entrez. Además contiene un gran número de herramientas para el análisis de secuencias biológicas, de las cuales el BLAST es quizá el más usado.

Al existir integración en los datos, el paisaje que se le brinda al investigador es mucho más amplio y mejor estructurado permitiéndole tomar mejores decisiones en un tiempo significativamente menor.
Esta es la vista que se ofrece desde la perspectiva del usuario, no obstante, desde la perspectiva del desarrollador, el responsable de hacer tangible dicha integración, el paisaje se torna mucho más complejo, el reto es enorme y, a pesar de los excelentes e imponentes ejemplos de integración que se observan en la actualidad, los resultados obtenidos hasta ahora distan mucho de lo que se espera en este sentido.

El incremento exponencial de los datos biológicos, complejos y heterogéneos en cuanto a formatos y tipos, hace difícil la tarea de mapear estos objetos y hacerlos accesibles de forma integrada y flexible al usuario. Se trata, entre otras cosas, de crear motores de búsqueda inteligentes que extraigan la información de repositorios en diferentes sitios, la procesen y la vuelvan a presentar en un nuevo recurso, pero esta vez integrada desde el punto de vista estructural y conceptual. Las bases de datos que hospedan esta información emplean estructuras de datos y vocabularios específicos convirtiendo el proceso de integración en una tarea nada trivial. No existe un enfoque universal en los modelos de integración de datos biológicos (hasta ahora hemos mencionado dos: centralización e hiperlinks) y las actuales metodologías que abordan este problema están en constante desarrollo.

La biología de sistemas, establecida como disciplina académica desde el año 2000, es quizá la ciencia donde este proceso de integración se vuelve imprescindible y su formalización a través de modelos de redes de interacción es necesariamente más exhaustiva y rigurosa. Se trata de formular modelos generalizados que permitan entender integralmente los sistemas biológicos y la interacción entre ellos, observándolos dentro de la dinámica de un contexto en particular. Aunque la integración a la que nos hemos referido es mucho más diversa, podemos usar esta disciplina como ejemplo arquetípico del potencial que ofrece el proceso de integración de datos biológicos, en la cual se trata de entender el comportamiento celular a través de interacciones espacio-temporales entre componentes celulares tales como genes, proteínas, metabolitos y organelos, reduciendo la dimensionalidad de los datos que se exponen para producir información valiosa del sistema sujeto a observación.

Veamos un ejemplo, desde la perspectiva de los genes, que se puede clasificar dentro del modelo de integración de conjuntos de datos. Las tecnologías de Análisis en Serie de Expresión de Genes (SAGE) y de microarreglos de ADN permiten medir simultáneamente los niveles de expresión de miles de genes en un tejido particular. El cáncer, por ejemplo, es el resultado de cambios en la secuencia de DNA. Estos cambios se ven reflejados en los niveles de expresión de genes que directa o indirectamente son regulados por los genes mutados. Como resultado, la comparación y análisis de perfiles de expresión génica de los tejidos normales y los afectados por el tumor, van dirigidos a profundizar en el conocimiento sobre la etiología molecular de esta enfermedad.

El Mapa del Transcriptoma Humano (HTM, http://bioinfo.amc.uva.nl/HTMseq) es un recurso bioinformático que fue diseñado con este propósito y la pregunta que le dio origen es un ejemplo nítido de un empeño integracionista: "¿Es posible desarrollar una herramienta que permita identificar genes candidatos en regiones cromosómicas relacionadas con la formación de neuroblastomas (u otros tipos de cáncer) partiendo de perfiles de expresión génicas?" Para responder esta pregunta, el HTM integra los datos de las posiciones de genes humanos en los cromosomas, fruto de los proyectos de secuenciación y mapeo físico del genoma humano, con los perfiles de expresión suministrados por librerías SAGE construidas como parte del Proyecto de Anatomía Genómica del Cáncer (CGAP). Aunque parece un simple mapeo de objetos, en este caso posiciones y perfiles de expresión, la aplicación es mucho más compleja y añade algoritmos de análisis de secuencia, métodos estadísticos que hacen inferencia sobre los datos y un sistema de bases de datos relacional que permite la integración con otros recursos bioinformáticos de carácter público. Entre estos recursos se encuentran las bases de datos GenMap, UniGene y RHdb. Actualmente el alcance de HTM va más allá de la identificación de genes candidatos relacionados con el cáncer, brindando una visión mucho más holística de la organización del genoma humano.

Ocurre así también en la proteómica funcional donde las tecnologías actuales han permitido representar redes de expresión de proteínas que brindan información sobre la co-regulación de estas moléculas y sus respuestas bajo condiciones específicas. Esta información no es totalmente informativa sin indagar en la función biológica de estos productos de los genes, por lo que para solucionar este problema se necesita conocer qué otro componente celular interacciona con ellas y es aquí donde surgen las redes de interacción de proteínas. La función de una proteína no es completamente entendida hasta que se conoce su papel en las rutas celulares y su interacción con otros componentes como DNA, RNA, metabolitos, lípidos y otras proteínas.

Además de los mencionados, otros esquemas de integración se han empleado para la creación de este tipo de recurso bioinformático entre los que podemos mencionar Almacenes de Datos o Warehousing (en Pathway Commons y STRING) e Integración de Vistas (en BioZon).

Pathway Commons (http://www.pathwaycommons.org) incluye reacciones bioquímicas, complejos moleculares, eventos de transporte y catálisis, e interacciones físicas donde participan proteínas, DNA, RNA, entre otros. Permite recopilar toda esta información e integrarla en un formato estándar. Contiene datos de 9 bases de datos con 1400 rutas biológicas y 687000 interacciones. STRING (http://string-db.org) por su parte integra igualmente redes de interacción de proteínas tanto experimentales como predichas y brinda grados o puntuaciones de confiabilidad para cada una de las interacciones.

BioZon (http://biozon.org), es un sistema para la unificación, gestión y análisis de datos biológicos heterogéneos. Unifica múltiples bases de datos de objetos como (DNA, proteínas, interacciones y rutas celulares). Emplea un esquema de grafo fuertemente conectado y a su vez envuelto en una ontología jerárquica de relaciones y documentos. También implementa un sofisticado algoritmo de consultas que abarca múltiples tipos de datos.

Veamos ahora otro tipo de integración, el Sistema de Anotación Distribuido (DAS), que se puede clasificar entre los modelos de integración federados. El modelo federado se refiere a múltiples bases de datos interconectadas a través de la red e integradas de forma transparente en el sistema, brindando así un único punto de entrada para la formulación de consultas de datos. Las anotaciones genómicas son información de variada naturaleza relacionadas con la función biológica, caracterizando las secuencias genómicas en posiciones específicas. En el 2001, Dowell y colaboradores se percataron de que la realización de anotaciones genómicas no podía seguirse haciendo por un grupo centralizado debido al crecimiento exponencial de estos bancos de secuencias. El DAS surgió como solución a este problema y permite que la anotación de secuencias quedara descentralizada entre múltiples anotadores (Ensembl, UniProt, InterPro, UCSC, CBS) e integrada por diversos software clientes (Ensembl, Gbrowse, Dalliance, IGB, entre otros) comunicándose con sus respectivos servidores a través del estándar XML. Hasta el momento existen más de 1000 fuentes de anotaciones genómicas (http://www.dasregistry.org), lo cual demuestra la expansión que ha sufrido el sistema para poder cubrir estas necesidades.

A modo de conclusión podemos decir que las herramientas y modelos de integración de recursos bioinformáticos, dada su capacidad de brindarnos una visión del todo y sus partes relacionadas, incluso en la dinámica de un contexto específico, nos permiten no solo confirmar hipótesis, usualmente el paso lento en el proceso de investigación, de una forma significativamente más rápida, sino, y quizá más importante y curioso aún, generar nuevas hipótesis, de mejor calidad y en una medida significativamente mayor. Por otro lado, más allá de los intereses particulares de una investigación aislada, la integración de los recursos permite compartir esta información entre laboratorios a modo de evitar la innecesaria duplicación en los experimentos. El reto actual y futuro consiste en seguir perfeccionado estos modelos de integración y como fin último lograr la integración entre los diversos recursos, comportándose como subsistemas con personalidad propia, en sistemas de mayor alcance y poder de discernimiento.

M.Sc. Carlos M. Martínez Ortizl