Investigadores de los Institutos Nacionales de la Salud de EE.UU. descubren que los grandes modelos lingüísticos se basan en un lenguaje conciso, similar al de los libros de texto, para evaluar cuestiones médicas.
Investigadores de los Institutos Nacionales de la Salud de EE.UU. (NIH) han descubierto que, si bien las herramientas de inteligencia artificial (IA) pueden realizar diagnósticos precisos a partir de descripciones de enfermedades genéticas basadas en libros de texto, son mucho menos precisas cuando analizan resúmenes escritos por pacientes sobre su propia salud. Estos resultados, publicados en la revista American Journal of Human Genetics, demuestran la necesidad de mejorar estas herramientas de IA antes de que puedan aplicarse en entornos sanitarios para ayudar a realizar diagnósticos y responder a las preguntas de los pacientes.
Los investigadores estudiaron un tipo de IA conocido como modelo de lenguaje amplio, que se entrena con cantidades masivas de datos basados en texto. Estos modelos tienen el potencial de ser muy útiles en medicina por su capacidad de analizar y responder a preguntas y sus interfaces, a menudo fáciles de usar.
“Puede que no siempre lo veamos así, pero gran parte de la medicina se basa en las palabras”, ha afirmado Ben Solomon, autor principal del estudio y director clínico del Instituto Nacional de Investigación del Genoma Humano (NHGRI) de los NIH. “Por ejemplo, las historias clínicas electrónicas y las conversaciones entre médicos y pacientes se componen todas de palabras. Los grandes modelos de lenguaje han supuesto un enorme avance para la IA, y poder analizar las palabras de una forma clínicamente útil podría ser increíblemente transformador”.
“Tengo X, Y y Z síntomas. ¿Cuál es la enfermedad genética más probable?”
Los investigadores probaron 10 grandes modelos lingüísticos diferentes, incluidas dos versiones recientes de ChatGPT. A partir de libros de texto médicos y otros materiales de referencia, los investigadores diseñaron preguntas sobre 63 enfermedades genéticas diferentes. Entre ellas se encontraban algunas muy conocidas, como la anemia falciforme, la fibrosis quística y el síndrome de Marfan, así como muchas enfermedades genéticas poco frecuentes.
Estas enfermedades pueden manifestarse de diversas formas en distintos pacientes, por lo que los investigadores intentaron captar algunos de los posibles síntomas más comunes. Seleccionaron de tres a cinco síntomas para cada enfermedad y formularon preguntas en un formato estándar: “Tengo X, Y y Z síntomas. ¿Cuál es la enfermedad genética más probable?”.
Cuando se les plantearon estas preguntas, los grandes modelos lingüísticos variaron mucho en su capacidad para indicar el diagnóstico genético correcto, con una precisión inicial de entre el 21% y el 90%. El modelo con mejores resultados fue GPT-4, una de las últimas versiones de ChatGPT.
La precisión de los modelos de IA disminuye al eliminar las descripciones de enfermedades genéticas más académicas
El éxito de los modelos suele corresponderse con su tamaño, es decir, con la cantidad de datos con los que se han entrenado. Los modelos más pequeños tienen varios miles de millones de parámetros, mientras que los más grandes tienen más de un billón. En muchos de los modelos de menor rendimiento, los investigadores consiguieron mejorar la precisión en experimentos posteriores y, en general, los modelos siguieron ofreciendo respuestas más precisas que las tecnologías sin inteligencia artificial, incluida una búsqueda estándar en Google.
Los investigadores optimizaron y probaron los modelos de varias formas, incluida la sustitución de términos médicos por un lenguaje más común. Por ejemplo, en lugar de decir que un niño tiene «macrocefalia», la pregunta diría que el niño tiene «una cabeza grande», reflejando más fielmente cómo los pacientes o cuidadores podrían describir un síntoma a un médico.
En general, la precisión de los modelos disminuyó cuando se eliminaron las descripciones médicas. Sin embargo, 7 de cada 10 modelos seguían siendo más precisos que las búsquedas de Google cuando se utilizaba el lenguaje común.
“Es importante que las personas sin conocimientos médicos puedan utilizar estas herramientas”, ha señalado Kendall Flaharty, becario de posgrado del NHGRI que dirigió el estudio. “No hay muchos genetistas clínicos en el mundo y, en algunos estados y países, la gente no tiene acceso a estos especialistas. Las herramientas de IA podrían ayudar a la gente a obtener respuesta a algunas de sus preguntas sin tener que esperar años para una cita”.
Eficacia de los modelos basados en IA para identificar enfermedades genéticas descritas por pacientes reales
Para probar la eficacia de los modelos de lenguaje amplio con información de pacientes reales, los investigadores pidieron a pacientes del Centro Clínico de los NIH que escribieran breves descripciones de sus propias afecciones genéticas y síntomas. Estas descripciones iban de una frase a varios párrafos y su estilo y contenido eran más variables que los de las preguntas tipo libro de texto.
Cuando se le presentaron estas descripciones de pacientes reales, el modelo con mejores resultados sólo acertó el 21% de las veces. Muchos modelos obtuvieron resultados mucho peores, con una precisión de hasta el 1%.
Los investigadores esperaban que los resúmenes escritos por los pacientes fueran más complicados porque los pacientes del Centro Clínico de los NIH suelen padecer enfermedades extremadamente raras. Por tanto, es posible que los modelos no dispongan de información suficiente sobre estas afecciones para realizar diagnósticos.
Sin embargo, las precisiones mejoraron cuando los investigadores redactaron preguntas estandarizadas sobre las mismas afecciones genéticas ultrarraras encontradas entre los pacientes de los NIH. Esto indica que los modelos tuvieron dificultades para interpretar la redacción y el formato variables de los escritos de los pacientes, quizá porque los modelos se entrenan con libros de texto y otros materiales de referencia que suelen ser más concisos y estandarizados.
“Para que estos modelos sean clínicamente útiles en el futuro, necesitamos más datos, y esos datos deben reflejar la diversidad de los pacientes”, afirma el Dr. Solomon. “No sólo tenemos que representar todas las enfermedades conocidas, sino también las variaciones de edad, raza, sexo, cultura, etc., para que los datos reflejen la diversidad de experiencias de los pacientes. Así, estos modelos pueden aprender cómo pueden hablar de sus dolencias personas diferentes”.
La supervisión humana sigue siendo necesaria para aplicar IA en la identificación de enfermedades genéticas en atención sanitaria
Más allá de demostrar áreas de mejora, este estudio pone de relieve las limitaciones actuales de los grandes modelos lingüísticos y la necesidad continua de supervisión humana cuando se aplica la IA en la atención sanitaria.
“Estas tecnologías ya se están implantando en entornos clínicos”, añade el Dr. Solomon. “Las mayores preguntas ya no son sobre si los clínicos usarán IA, sino dónde y cómo los clínicos deberían utilizar IA, y dónde no deberíamos usar IA para cuidar lo mejor posible a nuestros pacientes”.
Artículo científico: Flaharty KA, et al. Evaluating large language models on medical, lay language, and self-reported descriptions of genetic conditions. Am J Hum Genet. 2024 Jul 31:S0002-9297(24)00255-6. doi: https://doi.org/10.1016/j.ajhg.2024.07.011
Si te ha gustado esta noticia y quieres aprender más sobre Genética en Medicina, te interesa nuestra formación, como el “Máster de Medicina de Precisión y Genética Clínica“, o el “Experto Universitario en Enfermedades Raras y Genética Clínica“.