Una base de datos biomédica construida mediante aprendizaje automático y pensada para facilitar el acceso a la literatura

  • Santiago Cervera
  • Salud Digital
El acceso al contenido completo es sólo para profesionales sanitarios registrados. El acceso al contenido completo es sólo para profesionales sanitarios registrados.

Un grupo de investigadores españoles de la Escuela de Ciencias de la Computación de la Universidad Politécnica de Madrid y del Grupo de Redes de Neuronas Artificiales y Sistemas Adaptativos de la Facultad de Informática de la Universidad de A Coruña publicaron a finales del año 2020 un artículo que explicaba la creación de un sistema de acceso a la literatura biomédica que suponía un cambio cualitativo muy relevante, y que se desarrolló pensando fundamentalmente en facilitar el trabajo de los investigadores. Justo ahora que tanto se habla de la utilización de la inteligencia artificial para el manejo de textos e imágenes, es un buen momento para recordar en qué consiste esta utilidad elaborada hace más de dos años, y cómo puede cambiar para siempre el acceso a la información biomédica especializada.

Tal como lo describen, el sistema pretende dar respuesta al hecho de que los repositorios de literatura biomédica existentes no disponen de sistemas avanzados que permitan a sus usuarios habituales localizar y acceder de forma remota a las bases de datos. 

Esto tiene que ver con el hecho de que desde que se dispuso de acceso a Internet, la cantidad de información disponible se ha incrementado enormemente. Un fenómeno que se puede observar especialmente en algunas áreas biomédicas específicas. Por poner un ejemplo, la publicación del Proyecto Genoma Humano condujo a una multitud de nuevos proyectos primarios y traslacionales, lo que incrementó exponencialmente la producción científica. De esta manera, es inmensa la cantidad de información "ómica" que hoy está disponible, pero que requiere de mucho mayor esfuerzo para ser encontrada, accedida, recopilada, administrada, analizada y utilizada. 

Para facilitar el acceso a esas cantidades tan elevadas de información, muchos centros científicos crearon bases de datos de nivel superior diseñadas para intercambiar conocimientos y datos con otros colegas e instituciones. Pero aun así, la cantidad de material que contienen esas bases de datos aumenta continuamente, lo que complica la posibilidad de que los recursos específicamente útiles en un momento determinado puedan tener la visibilidad adecuada. 

Se menciona en el artículo de estos investigadores un estudio que analizó el uso de bases de datos en artículos que están disponibles en PubMed Central (PMC), en el que se evidenció que el 5 % de los recursos más populares aportaba el 47 % de todas las citas, y que en comparación, un 70 % de todos los recursos existentes fueron referenciados solo una vez. Se pone de manifiesto, por tanto, que existe un sesgo de selección, probablemente condicionado por el tiempo dedicado al acceso y las búsquedas. En consecuencia, estamos ante una oportunidad perdida para que los investigadores se puedan beneficiar de herramientas informáticas que les ayuden a hacer una mejor selección.

Del simple buscador, al apoyo por aprendizaje automático.   

La idea que se ha querido desarrollar en este proyecto consiste en procurar que la selección de los datos y la información biomédica contenida en los repositorios pueda hacerse de una manera más precisa y completa a través del uso de sistemas de aprendizaje automático. En definitiva, pasar de las búsquedas que conocemos hasta ahora a un modelo en el que se disponga de una asistencia experta de carácter computacional.

Un antecedente es el Unified Medical Language System (UMLS), que se propuso crear programas informáticos que ayudaran a acceder a la literatura biomédica y hacerla más comprensible y útil. Esta iniciativa tiene, no obstante, ciertas limitaciones, porque se centra en la descripción de investigaciones científicas y en la agrupación de hallazgos en grandes repositorios de datos clínicos y genéticos, como la Systematized Nomenclature of Medicine (SNOMED). Por eso, reduce el acceso a bases de datos más pequeñas que comprenden la gran mayoría de los recursos disponibles.

Según los autores, actualmente la mayoría de los esfuerzos para detectar e incluir nuevas bases de datos en repositorios accesibles se han limitado al uso de herramientas prácticamente manuales, y, por tanto, no se puede realizar a gran escala. Por ejemplo, la llamada Database of Databases (DoD2007), un repositorio clásico de biología molecular que ha aumentado cuantitativamente a lo largo de los años, integrando un total de 1.082 bases de datos. O la mucho más moderna Fairsharing (antes llamada Biosharing), que es una colección de recursos relativa a las ciencias de la vida, que se actualiza periódicamente, y que contiene unas 1.972 bases de datos, como se afirma en su página web.

El gran cambio propuesto por este grupo de investigadores españoles consiste en estructurar una red neuronal capaz de desarrollar un sistema de aprendizaje semántico que actúe como colaborador en la búsqueda que haga un investigador. Incluso con la posibilidad de anticiparse y predecir cualquier palabra en cualquier petición de búsqueda. 

El proceso de entrenamiento de este sistema experto involucra a millones de oraciones, y de ahí que se haya conseguido un modelo de lenguaje bidireccional que permite una relación con el sistema de búsqueda capaz de capturar dependencias complejas entre palabras. 

Este modelo tecnológico se empleó para detectar las publicaciones en bases de datos en dos repositorios de artículos científicos ampliamente conocidos: PubMed y PMC. Para PubMed, se procesaron un total de 12.615.511 artículos. En el caso de PMC, el sistema se alimentó con otros  2.710.216 artículos. La principal diferencia entre estas fuentes de datos es que PMC ofrece artículos de texto completo, mientras que PubMed solo proporciona títulos y resúmenes. Posteriormente, los datos de los artículos se sometieron a una serie de pasos de preprocesamiento antes de enviarlos al modelo de entrenamiento. 

Al final, la etapa de preprocesamiento produjo una base de datos con tres campos diferentes para cada artículo. El primero contenía el título, el segundo constaba de todas las oraciones abstractas que contenía, y el tercero incluía todas las oraciones que disponían de un enlace.

Tras aplicarse otros sistemas para mejorar la depuración, etiquetado y clasificación de las bases de datos, el modelo se validó mediante cálculo del área bajo la curva (AUC) comparativa de los resultados automatizados y no automatizados. El modelo de clasificación de títulos obtuvo valores de AUC muy altos, por encima de 0,95, lo que indica elevada precisión El modelo de oraciones abstractas alcanzó valores elevados de AUC, por encima de 0,90, en algunas de las divisiones, pero no en todas. Finalmente, el modelo de oraciones de enlace mostró un desempeño consistente, con puntuajes AUC dentro de una distancia de 0.03 a 0.90. 

Para construir la base de datos Biomedical Database Inventory (BiDI), se aplicó el modelo de conjunto a todos los artículos recopilados de PubMed, PMC y COVID-19 Open Research Dataset (CORD-19). BiDI proporciona un motor de búsqueda basado en el vocabulario Medical Subject Headings (MeSH), que es una colección cerrada de términos relacionados con la medicina. Al permitir que el usuario filtre artículos de acuerdo con estos términos, se facilita la realización de consultas más especializadas.

El número de publicaciones y bases de datos asociadas incluidas en BiDI es un orden de magnitud superior al de los repositorios de bases de datos recopilados manualmente. La posibilidad de realizar actualizaciones automáticas y regulares también es una ventaja significativa de este sistema. Técnicamente, puede analizar hasta 42 artículos por segundo, empleando para ello una simple tarjeta gráfica común como procesador, y mediante esta técnica se actualizan miles de manuscritos en minutos en lugar de horas o días, como ocurriría si lo tuvieran que hacer personas. 

BiDI ha mostrado de inicio una alta precisión y capacidad de recuperación de la información utilizando un conjunto de datos de entrenamiento de magnitud moderada. Con toda seguridad tendrá un mejor rendimiento conforme siga usándose, dada la escalabilidad que es característica en los modelos de aprendizaje profundo.