El primer meta-análisis que compara la pericia diagnóstica de la Inteligencia Artificial con la humana.


  • Médicos e Internet
El acceso al contenido completo es sólo para profesionales sanitarios registrados. El acceso al contenido completo es sólo para profesionales sanitarios registrados.

La revista “The Lancet Digital Health” acaba de publicar la que puede ser la primera revisión sistemática mediante meta-análisis de los instrumentos diagnósticos basados en inteligencia artificial (IA), intentando determinar si los procedimientos algorítmicos empleados para detectar alteraciones en el campo de la imagen médica son tan precisos como el criterio de los propios profesionales de la salud. O, dicho de otra manera, valorar si la evidencia existente permite afirmar que la IA puede diagnosticar enfermedades igual o mejor que el hombre.

El trabajo ha sido desarrollado por un equipo dirigido por Alastair Denniston, de la Fundación NHS de Hospitales de la Universidad de Birmingham, en Reino Unido. Han empleado búsquedas en Ovid-MEDLINE, Embase, Science Citation Index y Conference Proceedings Citation Index relacionadas con estudios publicados desde el 1 de enero de 2012 al 6 de junio de 2019 que compararon el rendimiento diagnóstico con modelos de aprendizaje profundo (deep learning) y el ofrecido por los profesionales de la salud, siempre que estos estuvieran basados en imágenes médicas, y para cualquier enfermedad. Según los autores se trata de la primera revisión sistemática de este tipo.

En el trabajo se tabularon tres elementos: la calidad de los informes en dichos estudios, su valor clínico y el diseño de los mismos. Además, cuando se trataba de evaluar el rendimiento diagnóstico de la IA en comparación con el de los profesionales de la salud, los investigadores lo hicieron valorando los correspondientes porcentajes de especificidad y sensibilidad obtenidos.

A pesar de que en un principio aparecieron en las búsquedas previas hasta 31.587 estudios, se incluyeron 82 como candidatos al meta-análisis, que describían 147 cohortes de pacientes. 69 estudios proporcionaron datos suficientes para construir las tablas de contingencia, y se realizó una validación externa que concretó la posibilidad de estudio en 14 de los trabajos previos, en los cuales existía una comparación entre los diagnósticos proporcionados por los modelos de aprendizaje profundo y los correspondientes a los profesionales de la salud, y dentro de la misma muestra. 

La conclusión de este proceso selectivo ya ofrece una reflexión: no son tantos los estudios que muestran solidez metodológica como para proporcionar calidad en el análisis. De hecho, el profesor Denniston explica: "Revisamos más de 20.000 artículos, pero menos del 1% de ellos fueron lo suficientemente sólidos en su diseño como para que los revisores independientes los consideran consistentes. Además, sólo 25 estudios validaron los modelos de IA externamente (cotejándolos con imágenes médicas de una población diferente), y sólo 14 estudios compararon el desempeño de los profesionales con los de la IA mediante la misma muestra".

 

 

Datos superiores para la IA… con matic es.

Centrándose en el análisis de los trabajos seleccionados, se pudo determinar que la IA puede diagnosticar correctamente la enfermedad en el 87% de los casos, mientras que la detección por profesionales de la salud arrojó una tasa de precisión del 86%. La especificidad para los sistemas algorítmicos fue del 93%, en comparación con los “humanos”, del  91%.

Sin embargo, en el artículo se señalan algunas importantes limitaciones relativas a cómo hay que entender estos datos.

La primera tiene que ver con que en la mayoría de los estudios el análisis de las técnicas se produce en un entorno aislado que no es parangonable a la práctica clínica habitual, por ejemplo privando a los médicos de la información clínica del paciente que se hace necesaria para comprender bien un caso y establecer un diagnóstico.

Además, todos los estudios se consideraron deficientes en cuanto a la manera de establecer una terminología calificada como inconsistente, que no establece claramente un umbral para el análisis de sensibilidad y especificidad, y tampoco hay mecanismos de validación del diagnóstico externos, a modo de control adicional de la pericia diagnóstica.

 

 

Y una valoración cualitativa del mismo asunto.

En todo caso, el grupo de investigadores considera que, según su análisis, se puede afirmar que el rendimiento diagnóstico de los modelos algorítmicos es equivalente al de los profesionales de la salud. Sin embargo, pocos estudios presentaron resultados validados externamente o compararon el desempeño de los modelos automatizados con el humano dentro de la misma muestra. Se sugiere la necesidad de establecer nuevos estándares de validación metodológica en futuros estudios, permitiendo una mayor confianza en los resultados relativos a esta inminente tecnología.

Pocos días después de la publicación del meta-análisis, encontramos unas declaraciones en el periódico El País de  Andrés Cervantes, jefe de oncología del hospital Clínico de Valencia y que presidirá la Sociedad Europea de Oncología Médica en 2021. En una entrevista es preguntado por el abordaje del cáncer con la inteligencia artificial, y responde que “las herramientas de inteligencia artificial nos pueden ayudar en medicina de precisión y eso nos va a permitir volver a ser más médicos, volver a mirar a los ojos al paciente”. “¿Será la revolución de la próxima década?”, pregunta el periodista. “La genómica es siempre inteligencia artificial, pero también la información sobre el tratamiento de los pacientes, de los datos clínicos. El médico tendrá que valorar aspectos individuales, pero la inteligencia artificial nos ayudará a que el proceso de toma de decisiones sea más eficiente y resolutivo. La inteligencia artificial puede reducir ese fallo humano que hay en la toma de decisiones finales porque reconoce una serie de factores que al ser humano le resultaría imposible”, responde.