¿Modelos de IA pueden igualar a los médicos en razonamiento clínico?

Investigadores de la Facultad de Medicina de Harvard y del Beth Israel Deaconess Medical Center, en Estados Unidos, compararon la Inteligencia Artificial (IA) con los médicos en una amplia gama de tareas de razonamiento clínico.

En el estudio comprobaron que los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) superaron a los médicos en varias tareas, entre ellas tomar decisiones en el servicio de urgencias con la información disponible, identificar los diagnósticos más probables y elegir los siguientes pasos en el manejo de los pacientes.

«Pusimos a prueba el modelo de IA frente a prácticamente todos los estándares de referencia y superó tanto a los modelos anteriores como a nuestros grupos de médicos», señaló Arjun Manrai, coautor sénior y profesor de la Facultad de Medicina de Harvard.

Sin embargo explicaron que «esto no significa que la IA vaya a mejorar necesariamente la atención, sigue siendo poco estudiado cómo y dónde debe implantarse y necesitamos con urgencia ensayos prospectivos rigurosos para evaluar el impacto de la IA en la práctica clínica» agregaron.

¿Cómo se puso a prueba el modelo de IA?

Los investigadores evaluaron en primer lugar o1-preview, el modelo de razonamiento de OpenAI lanzado en 2024, al que sometieron a diversos casos clínicos, desde sesiones clínicas publicadas hasta historiales reales de servicios de urgencias. Donde la IA superó a los médicos en la mayoría de los experimentos, sobre todo en el razonamiento sobre el manejo de los casos, el razonamiento clínico, la documentación y los escenarios reales de urgencias con información limitada.

Por su parte, Peter Brodeur, coautor del estudio aseguró que «Los modelos son cada vez más capaces. Antes evaluábamos los modelos con exámenes tipo test, ahora obtienen de forma sistemática puntuaciones cercanas al 100% y ya no podemos seguir la evolución porque han tocado techo», explicó.

En una de las pruebas, los investigadores pidieron a los modelos de lenguaje o1 y GPT-4o que evaluaran a pacientes en distintos momentos del circuito habitual de un servicio de urgencias, desde el triaje inicial hasta las decisiones posteriores de ingreso.

En cada fase, el modelo recibía solo la información disponible en ese momento y debía generar diagnósticos probables y recomendar el siguiente paso. La mayor diferencia entre la IA y los médicos se observó en la fase de triaje, cuando la información sobre el paciente es más limitada. Al igual que ocurría con los médicos, los modelos de IA mejoraban su capacidad diagnóstica a medida que se iba disponiendo de más datos.

T/Agencias

Tags: Curiosidades Estudios IA SALUD

Noticias Relacionadas

El Foco

Noticias Relacionadas

Congreso Anfictiónico de Panamá (Parte IV): El tablero de las sombras y el juego secreto de los mercados

Venezuela: Rol femenino lidera la participación en ciencia y tecnología