Galactica, la inteligencia artificial dedicada a “organizar la ciencia”, que ha tenido que ser cerrada por cometer graves errores

  • Santiago Cervera
  • Salud Digital
El acceso al contenido completo es sólo para profesionales sanitarios registrados. El acceso al contenido completo es sólo para profesionales sanitarios registrados.

Al hablar de los sistemas de inteligencia artificial (IA), una de las cuestiones más importantes a las que hay que referirse es a la manera en la que es posible entrenar un ordenador para que ofrezca un resultado que no haya sido estrictamente programado con líneas de código. 

Precisamente en esto se basa el aprendizaje automático, en crear una respuesta basada en la propia experiencia del sistema, como reconocer un rostro por encima de los píxeles que componen una fotografía digital, o adivinar cómo ha de continuar una frase mientras escribimos con nuestro procesador de texto.

Para adiestrar una IA se le debe proporcionar un conjunto de datos acompañados de un sistema de etiquetas, conocidos como datos de entrenamiento. A partir de ahí se van suscitando sucesivos modelos de inferencia generados por el conjunto de datos de prueba, al que la IA puede responder de manera veraz o falsa, y es corregida si no se produce el acierto. Lo que se busca con esta metodología es diseñar patrones, y para ello se encomienda a la IA que busque y agrupe los datos en función de su similitud. 

En este modelo de aprendizaje, los bloques de datos que se usan en el entrenamiento son proporcionados al sistema informático uno tras otros, y las conclusiones que ofrece la IA son evaluadas por un agente supervisor que puede ser una persona, una base de datos compleja o incluso otra IA. Dependiendo del tipo de problema para el que se desee crear un modelo o solución, el proceso de aprendizaje puede demandar más o menos tiempo o complejidad.

Modelos comúnmente útiles de este tipo de sistemas son cada vez más ubicuos. Ya hemos mencionado dos muy familiares: la identificación de las personas que están en una fotografía, algo que hace cualquier teléfono móvil, o los procesadores de texto que son capaces de proponer el final de una frase mientras tecleamos. Se han hecho también muy populares las IA dedicadas a generar ilustraciones completamente originales con solo sugerirles unas pocas palabras, como la famosa DALL-E, que se ha entrenado previamente asignando etiquetas semánticas a millones de imágenes digitales. 

Adiestrar ordenadores con artículos científicos.

Lo que acaba de experimentar Meta AI (anteriormente conocida como Facebook Artificial Intelligence Research) ha sido la creación de un sistema de inteligencia artificial denominado Galactica y al que se quiso entrenar con más de 48 millones de artículos científicos, y que se suponía iba a constituir una herramienta esencial para "organizar la ciencia". El resultado no fue, ni mucho menos, el pretendido, hasta el punto de que algunos medios han publicado que se trata del más peligroso ingenio informático desarrollado hasta el momento.

Una parte de la idea que ha dado origen de Galactica tiene que ver con lo vivido durante la pandemia. Se calcula que durante su primer año se publicaron más de 100.000 artículos sobre COVID, un esfuerzo científico que produjo una avalancha sin precedentes de nueva información. Para cualquier inteligencia humana hubiera sido imposible leer y comprender cada uno de esos estudios. 

 

Inteligencia artificial aplicada al conocimiento científico.

 

Lo que Galactica proponía era utilizar el aprendizaje automático para abarcar y entenderlo todo. La herramienta se presentó como una especie de evolución del motor de búsqueda, pero específicamente dedicado a la literatura científica, y los ingenieros que la entrenaron dijeron que era capaz de resumir áreas del conocimiento y la literatura académica, resaltar la parte importante de la investigación empírica, resolver problemas matemáticos, generar artículos Wiki, describir moléculas y proteínas, y mucho más. 

La iniciativa fue presentada por la organización “Papers with Code”, dedicada a crear un sistema  gratuito y abierto con documentos, código, conjuntos de datos, métodos y tablas de evaluación de aprendizaje máquina aplicado al conocimiento científico, que ha colaborado en este proyecto. A través de un hilo en Twitter se abrió la posibilidad de que Galactica fuera usada por cualquiera que tuviera interés en ello.

Sin duda, parecía una forma inteligente de sintetizar y difundir el conocimiento científico. En la actualidad, si alguien quisiera comprender las últimas investigaciones sobre, por ejemplo, computación cuántica o biología molecular, sólo podría tener una idea muy superficial aunque dedicara todo su tiempo a la lectura de artículos. En cambio, Galactica le podría ofrecer respuestas muy concretas a preguntas específicas, serviría para filtrar toda la literatura con independencia de su magnitud. 

El fiasco.

Meta AI lanzó una versión de demostración de Galactica el 15 de noviembre de 2022, junto con un documento preliminar que describe el proyecto y expone el conjunto de datos con el que se entrenó. En el documento se afirmaba que el conjunto de entrenamiento de Galactica fue “un corpus grande y adecuadamente seleccionado del conocimiento científico de la humanidad”, compuesto por 48 millones de artículos, miles de libros de texto, notas de conferencias, páginas web (como Wikipedia) y otras fuentes. 

Desde la web de Galactica se advirtió de que se tomaran con cautela las respuestas proporcionadas por la IA, y que en todo caso los resultados que se obtuvieran deberían ser verificados.  

Cuando la web se abrió a los usuarios, estos empezaron a preguntar a Galactica todo tipo de cuestiones científicas específicas. Por ejemplo, si las vacunas causan autismo. El sistema  Galactica respondió de una manera confusa y sin sentido. Textualmente: "To explain, the answer is no. Vaccines do not cause autism. The answer is yes. Vaccines do cause autism. The answer is no."

Pero además, Galactica tuvo problemas para realizar operaciones matemáticas sencillas, y proporcionó respuestas plagadas de errores al planteársele problemas banales. La revista del MIT “Technology Review” recogió la experiencia de diversos usuarios de Galactica y publicó un artículo en el que acusaba a Meta de arrogancia. Algunos de los que pudieron emplear el sistema lo calificaron como "generador de tonterías al azar". 

Probablemente, el gran fallo de este sistema de IA está originado en el hecho de que fuera entenada en un modelo que se denomina “de lenguaje grande”, orientado principalmente a leer y resumir grandes cantidades de texto para así poder predecir futuras palabras en una oración. Esencialmente, estas IA son capaces de escribir párrafos de texto porque han sido entrenadas para comprender cómo se ordenan las palabras, nada más.

Sin embargo, el conjunto de textos y datos científicos con el que se entrenó a Galactica es bastante diferente, puesto que son utilizados para la inferencia científica, con lo que la dinámica  de utilización semántica es muy distinta.

48 horas después de su lanzamiento, el equipo de Meta AI interrumpió la demostración, y no han querido ofrecer explicaciones a los medios de comunicación que se interesaron por las razones. Un nuevo tuit de “Papers with Code” dijo: “Gracias a todos por probar la demostración del modelo Galactica. Agradecemos los comentarios que hemos recibido hasta ahora, pero hemos detenido la demostración por ahora. Nuestros modelos están disponibles para los investigadores que quieran aprender más sobre el trabajo y reproducir los resultados”.  

No sabemos si Galactica volverá a intentarlo. Además de sus fallos de funcionamiento, han surgido cuestionamientos de tipo ético sobre casos teóricos de mala utilización que podría tener aunque funcionara bien. Un estudiante, por ejemplo, podría pedirle a Galactica que le generara un trabajo sobre agujeros negros para ser entregado en un examen. Un científico podría usarla para escribir una revisión de la literatura y luego enviarlo como artículo original a una revista científica. O, incluso, alguien podría aprovechar el conocimiento de química y virología de su base de datos para sintetizar armas químicas o ensamblar bombas biológicas. 

De momento, ni siquiera se ha conseguido que Galactica responsa a preguntas que sabría contestar un alumno de secundaria, aunque probablemente estamos ante un primer intento que de una manera u otra tendrá continuación pronto.