¿Qué tipo de sesgos aparecen cuando un humano interpreta el diagnóstico de una máquina?

  • Santiago Cervera
  • Salud Digital
El acceso al contenido completo es sólo para profesionales sanitarios registrados. El acceso al contenido completo es sólo para profesionales sanitarios registrados.

Los sistemas de inteligencia artificial que sirven de apoyo a las decisiones médicas son cada vez más amplios. Tenemos ejemplos de automatización computacional en muy diversos ámbitos clínicos, y de varios de ellos hemos tratado en esta sección. Sin duda, el área que mayor desarrollo ha tenido es la de diagnóstico por imagen, con ejemplos como los sistemas que son capaces de detectar una retinopatía diabética tras procesar una retinografía digital, o los que ofrecen la sospecha diagnóstica de una neoplasia de próstata o pulmón tras analizar una imagen ecográfica o radiológica. En otros campos en los que es necesario procesar mucha información, como por ejemplo las lecturas de constantes de un paciente ingresado en una Unidad de Cuidados Intensivos (UCI), también han surgido sistemas que capaces de sugerir una determinada previsión.

Por tanto, estamos ante una nueva realidad en la que un humano, el médico, ha de validar lo que le dice una máquina, un ordenador, tácitamente consciente de que esta ha realizado un complejo análisis de variables que por razones de extensión y rapidez no están al alcance de ninguna persona. El juicio clínico, que está basado en datos pero también en experiencia, tiende a ser sustituido por un ingenio tecnológico. 

Sin embargo, corresponde en exclusiva al médico establecer un posible diagnóstico, y avalarlo a efectos clínicos, deontológicos e incluso legales. De manera que es imprescindible saber qué puede ocurrir en el espacio de esa relación entre hombre y máquina al efecto de tomar una decisión, y que tipo de fenómenos de sesgo se pueden producir. ¿Tienen algún tipo de prevalencia lo que diga el ordenador? ¿Lo que estime el humano? ¿Qué contextos influyen? ¿Cómo se equilibran ambas visones, caso de ser contradictorias?

Procesos "human-in-the-loop".

Lo primero que habría que decir es que este es un asunto que cada vez se estudia más por los psicólogos del comportamiento y por los propios tecnólogos. Sistemas expertos de ayuda a las decisiones son cada vez más frecuentes, y no sólo en medicina. Por ejemplo, en España se emplean incluso por las administraciones públicas y en ámbitos económicos y sociales. Es el caso del sistema VioGén, del Ministerio del Interior, que evalúa el riesgo en los casos de violencia de género, o el sistema RisCanvi que en Cataluña sirve para valorar el riesgo de reincidencia de los reclusos. O el Bosco, que determina a qué personas se les adjudica el bono social de electricidad. Todos tienen en común que necesitan establecer una conclusión basada en una gran cantidad de datos.

 

Interacción humano - máquina

 

Estos procesos de decisión automatizados se han diseñado sabiendo que al final de cada proceso deberá actuar un humano, que será responsable de un veredicto. Es lo que se conoce como proceso "human-in-the-loop".  La supervisión humana se refiere principalmente a la existencia de un operador o controlador humano por encima de un sistema basado en algoritmos cuya misión es mitigar cualquier daño o mal funcionamiento causado por la computadora. De ahí que no se permita que una máquina se dedique a expedir diagnósticos por encima del criterio del médico que esté usando esa máquina.

Para comprender especialmente contextos complejos en los que se toman decisiones, como puede ser en los centros sanitarios, los expertos creen que hay que estudiar cómo los humanos se comportan e interactúan con las máquinas y, además, describir ese mismo entorno organizacional, legal y sociocultural. Dentro de este contexto, hay factores humanos que se deben tener en cuenta, como la carga de trabajo del humano, su motivación, o la confianza que tenga en la herramienta automatizada. Por supuesto, también se debe considerar el desempeño del sistema en sí, que puede variar según su calidad o el tipo de herramienta de que se trate.

El “human-in-the-loop” se responsabiliza de supervisar al sistema e intervenir en caso de que este cometa errores. De hecho, este principio tiene traslación a las obligaciones legales, y por ejemplo, un requerimiento del Reglamento General de Protección de Datos europeo es que se prohíbe la toma de decisiones de forma completamente automatizada.

Pero, ¿qué riesgos podemos identificar en esa interacción humano - máquina?

Todavía no hay una evidencia consolidada sobre quién suele mandar en este tipo de procesos, es decir, si es el humano el que más frecuentemente impone su criterio, ignorando al sistema, o si es el sistema el que de manera más o menos constante y tácita relega al humano para que no intervenga.

Algunos estudios señalan que el comportamiento del “human-in-the-loop” puede llegar a ser errático e inconsistente a la hora de validar las decisiones del sistema, lo que acaba produciendo un peor desempeño o decisiones sesgadas. En un experimento donde se valoró el funcionamiento de un sistema que predecía el riesgo de reincidencia de delincuentes, los jueces tendían a validar el análisis del sistema solo cuando este confirmaba sus propios prejuicios, por ejemplo cuando predecía un alto riesgo a los acusados negros y un bajo riesgo a los blancos.

En cambio, otros estudios muestran justamente lo contrario: que el “human-in-the-loop” tiende habitualmente a constatar un sesgo de automatización, de manera que es mucho más frecuente que se validen a ciegas las sugerencias del sistema en lugar de aplicar un criterio crítico que permita considerar información relevante que contradiga la decisión automatizada.

Precisamente este tipo de sesgos de automatización han sido ampliamente documentados en ámbitos como el de la atención sanitaria, y también en otros como la aviación, el ejército o el control de procesos industriales. Como podemos deducir -tal vez sin profundizar demasiado-, tiende a ocurrir en entornos especialmente exigentes.

Otro de los riesgos de este modelo de decisiones conjuntas humano-máquina es que se introduzca a la persona en el proceso solo para cumplir formalmente lo que esté legalmente prescrito, y que en fondo sólo se dedique a validar siempre al sistema.

A este fenómeno se le llama muy gráficamente “estampillero” (rubber-stamping), y se produce especialmente en situaciones en las que el humano no cuente con la experiencia, conocimiento o tiempo para supervisar o contradecir al sistema. Conclusión sanitaria inmediata: ha de abundarse en la formación médica sobre este tipo de novedades tecnológicas y propiciar entornos facilitadores para un uso adecuado.

Finalmente, estamos también ante un riesgo más general: ensalzar el valor de las máquinas cuando se les atribuya una casi infinita capacidad de tomar decisiones, y eludir un análisis de si este tipo de problemas -utilización errática, sesgos de decisión o actitudes de estampillero- deben ser analizadas y acotadas. 

Algunas propuestas para mejorar la utilidad efectiva de este tipo de interacciones consisten en aumentar la participación de los humanos, establecer mejor los niveles de responsabilidad, o evaluar mejor qué tipo de decisiones tiene sentido automatizar. Por ejemplo, cuestionar específicamente cómo deben conformarse aquellas decisiones que esencialmente incorporan aspectos experienciales más complejos, o también dimensiones éticas. Como, en efecto, son las que toman los médicos todos los días.