¿Son precisos los informes psicológicos y psiquiátricos generados por IA? Lo que realmente dicen los estudios

¿Son precisos los informes psicológicos y psiquiátricos elaborados por la IA?

Lo que realmente dice la investigación

A muchos profesionales de la salud mental les encanta la IA por el tiempo que les permite ahorrar. En los últimos dos años he visto cómo los profesionales han pasado de una curiosidad cautelosa a un uso generalizado en el día a día, y el entusiasmo es difícil de exagerar. Los psicólogos están utilizando la IA para redactar informes de evaluación cognitiva,diagnósticos de TDAH y autismo, y informes psicoeducativos infantiles. Los psiquiatras recurren a la IA para elaborar los informes de consulta más extensos que exigen las prestaciones de Medicare, comola evaluación psiquiátrica y el plan de tratamiento del «Item 291». El argumento es sencillo: menos horas frente al teclado y más tiempo con los pacientes.

Los comentarios de los usuariosde NovoNote reflejan esa realidad. Por ejemplo, Andrea Beres, una psicóloga que utiliza la IA para realizar evaluaciones del desarrollo neurológico, es un ejemplo típico de la opinión generalizada entre los usuarios de la IA en el ámbito de las evaluaciones. 

Testimonio de Andrea Beres sobre cómo NovoNote le ayuda a agilizar la redacción de sus informes de evaluación de TDAH y autismo

¿A qué se debe entonces tanto entusiasmo? Pues bien, merece la pena cuantificarlo en dólares, porque para muchos profesionales el tiempo que se ahorra no es algo teórico.

Tomemos como ejemplo el punto 291 de Medicare: la evaluación inicial y el plan de tratamiento del psiquiatra. Este punto exige un informe escrito exhaustivo dirigido al médico de cabecera que ha derivado al paciente, además de la consulta de 45 minutos; y, según mis conversaciones con psiquiatras, la redacción del informe en sí suele llevar entre 60 y 90 minutos de tiempo no dedicado al paciente. La mayoría de los psiquiatras privados cobran unos 500 dólares. Según estas cifras, una herramienta de IA que reduzca en 45 minutos la elaboración de un informe del punto 291 supone un ahorro de tiempo para el profesional de unos 400 dólares por evaluación. Para un psiquiatra que realiza tres evaluaciones del punto 291 a la semana, esto supone unos 60 000 dólares al año de tiempo que puede dedicar a trabajo facturable adicional o que, simplemente, se devuelve al profesional y a su familia.

Un cálculo similar se aplica a los psicólogos que redactan informes de evaluación cognitiva y del desarrollo neurológico, en los que Lockwood et al. (2025) constataron que la elaboración de dichos informes por parte de personas llevaba una media de 2,5 horas. Se trata de cifras aproximadas —que variarán según cada consulta—, pero el orden de magnitud explica por qué su adopción ha sido tan rápida.

Sin embargo, tras todo ese entusiasmo se esconde una pregunta que da que pensar: 

«¿Son realmente precisos esos informes?»

Por supuesto, el dinero manda, pero esto genera riesgos importantes y un riesgo moral para los profesionales. Si la IA redacta contenidos que luego firma un profesional cualificado, debemos abordar la cuestión con los ojos bien abiertos y ser conscientes de cuál es el estado actual de la evidencia. He dedicado algún tiempo a leer la bibliografía sobre el tema, y este artículo es mi intento de resumirla de forma imparcial.

Informes redactados por psicólogos frente a los generados por IA 

El siguiente vídeo está extraído de un seminario web que impartí recientemente y en el que se abordó elfuturo de la inteligencia artificial en el ámbito de la salud conductual. 

Datos de investigación

La prueba empírica más directa de la que disponemos procede de Adam Lockwood y sus colegas de la Universidad Estatal de Kent. Su artículo,«Human vs. Machine: Comparing AI-Generated and Human-Written Psychological Reports»(El ser humano frente a lamáquina: comparación entreinformes psicológicos generados por IA y redactadospor humanos), es, por lo que yo sé, el primer estudio sometido a revisión por pares que compara directamente informes psicológicos redactados por IA con otros redactados por humanos y pide a psicólogos colegiados que los evalúen.

El diseño es sólido. Se reclutóa 249 psicólogos colegiados(el 98,8 % con formación de doctorado y una media de 18 años de experiencia) y se pidió a cada participante que evaluara de forma ciega un informe psicológico redactado por un ser humano y otro redactado por IA, extraídos de cuatro casos ficticios de niños diseñados para cumplir los criterios del DSM-5 para el TDAH, la discapacidad intelectual, el trastorno depresivo mayor y el trastorno de ansiedad generalizada. Tanto a los seres humanos como a GPT-4 se les proporcionaron datos de evaluación simulados idénticos (incluidos los resultados del WISC-V y de las escalas de valoración) y la misma indicación. Los informes se valoraron en cuanto a legibilidad, estilo de redacción, organización, calidad del resumen, calidad de las recomendaciones y calidad general mediante escalas de Likert de 5 puntos, además de la disposición a dar el visto bueno.

Los resultados fueron más interesantes de lo que nos sugieren las afirmaciones de que «gana la IA» o «ganan los humanos».

En la mayoría de los aspectos, las diferencias fueron pequeñas y clínicamente modestas. Las puntuaciones de legibilidad fueron prácticamente idénticas: 3,77 para los humanos frente a 3,75 para la IA en una escala del 1 al 5 (p= 0,842). La longitud de las frases y el uso de jerga también resultaron estadísticamente indistinguibles. El estilo de redacción favoreció a los humanos, aunque con un tamaño del efecto reducido (r= 0,17), y la estructura organizativa solo fue marginalmente significativa (r= 0,14).

En los aspectos en los que las diferencias eran relevantes, estas se daban en ambos sentidos:

  • Resúmenes:Los resúmenes elaborados por personas obtuvieron una valoración significativamente mejor. Solo el 52 % de los psicólogos calificó los resúmenes generados por IA como «normales o superiores», frente al 65 % de los resúmenes elaborados por personas. En el momento de la publicación de este estudio, la síntesis era un auténtico punto débil de la IA.
  • Recomendaciones:La IA obtuvo una valoración significativamentemejor. Alrededor del 73 % de los psicólogos calificaron las recomendaciones de la IA como «normales» o «superiores», frente al 55 % en el caso de las realizadas por personas. Los autores señalan que esto concuerda con las críticas que desde hace tiempo se vienen formulando, según las cuales las recomendaciones de los psicólogos «a menudo carecen de significado y de especificidad» (Baum et al., 2018).
  • Calidad general:Una ventaja pequeña pero significativa a favor de los humanos.
  • Disposición a dar el visto bueno:el 49,6 % de los psicólogos se sentía cómodo firmando un informe redactado por un ser humano, frente al 43,1 % en el caso de los redactados por IA —un efecto pequeño (r= 0,14). Cabe destacar quela mayoría no se sentía del todo cómoda dando el visto bueno a ninguno de los dos.
  • Tiempo:Los humanos tardaron una media de 2,5 horas por informe. GPT-4 tardó una media de 91,5 segundos.

Cuando se les obligó a elegir, el 49 % prefirió el informe elaborado por personas, el 36 % prefirió el de la IA y el 15 % no prefirió ninguno de los dos. Una preferencia clara, aunque no abrumadora, por los informes elaborados por personas.

Advertencias sobre el estudio de Lockwood

Antes de dar por sentada ninguna conclusión, hay que tener en cuenta que el estudio presenta algunas limitaciones que los propios autores señalan. Cabe destacar dos de ellas:

La IA era «primitiva» en el otro sentido, el que más me importa.No había intervención humana en el proceso de edición. Ningún profesional clínico revisaba el informe de la IA, corregía errores fácticos, ajustaba la redacción o reescribía las secciones poco fluidas. Los informes se aprobaban sin más. Así no es como funcionaNovoNoteni ningún flujo de trabajo responsable asistido por IA en el mundo real.

El modelo ya es antiguo.Se trataba de GPT-4 (consultado en noviembre de 2023). Desde entonces, el campo de la redacción de informes mediante IA ha pasado por GPT-4o, Claude 3.5 y 4, Gemini 1.5 y 2, y toda una oleada de modelos especializados en ámbitos concretos. Tal y como señalan los autores, los resultados «pueden quedar obsoletos rápidamente (y es probable que ya lo estén)». En el lenguaje psicométrico que prefiero, nos encontramos ante una instantánea de un momento concreto con una curva de obsolescencia muy pronunciada. La tecnología actual de NovoNote está muy por delante de la utilizada en este estudio.

¿Y qué hay de los informes mejorados con IA, revisados por un profesional sanitario?

Esta es, en mi opinión, la cuestión más importante, ya que se refiere a cómo se está aplicando realmente la IA en la práctica. La respuesta es quela investigación empírica directa sobre los informes psicológicos asistidos por IA y revisados por profesionales clínicos es escasa. Se trata de una de las lagunas más evidentes en nuestra base de pruebas actual.

The adjacent literature is, however, encouraging. In a cross-sectional study published in the Australian Journal of General Practice (April 2026), Foo and colleagues compared four commercially available AI scribes with human documentation in simulated GP consultations, rated blind by three experienced GPs on a modified Physician Documentation Quality Instrument (PDQI-9). AI scribes performed comparably or better than humans on overall quality, and significantly better on accuracy (p = 0.022), thoroughness (p < 0.001), succinctness (p < 0.001) and freedom from hallucination (p = 0.025). The authors made a point I found sobering: the assumption that human-generated documentation is the “gold standard” doesn’t fully hold up — both humans and AI produced errors, and the humans actually produced more of them.

En otro estudio directamente relacionado con la pregunta «¿pueden los profesionales clínicos distinguir la diferencia?», Hatch y sus colegas llevaron a cabo una comparación de tipo Turing, previamente registrada (N = 830), entre las respuestas de ChatGPT-4 y las de terapeutas titulados a viñetas clínicas, publicada enPLOS Mental Health(Hatch et al., 2025). Los participantes apenas pudieron distinguir entre ambos, y las respuestas de ChatGPT recibieron valoracionesmásfavorables en varios principios fundamentales de la psicoterapia. Fraile Navarro et al. (2025,Scientific Reports) descubrieron que los profesionales clínicos expertos evaluaron los resúmenes de diálogos clínicos generados por modelos de lenguaje grande (LLM) como de alta calidad en la mayoría de los aspectos.

Nada de esto es comparable a un ensayo clínico aleatorizado (ECA) bien diseñado sobre informes de evaluación psicológica elaborados con ayuda de la IA y revisados por un profesional clínico. Ese estudio aún está por realizarse. Sin embargo, la evidencia relacionada apunta a una conclusión defendible: cuando un profesional clínico cualificado revisa los resultados generados por la IA, es probable que la calidad sea, como mínimo, tan buena como la de un informe redactado sin ayuda —y, a menudo, superior en aspectos como la exhaustividad y la especificidad—.

La cuestión ética fundamental

Todo informe psicológico o psiquiátrico elaborado con la ayuda de la IA debe ser revisado, corregido y firmado por un profesional cualificado. No se trata de una simple sugerencia, sino de una obligación ética. Tanto la Asociación Americana de Psicología (APA), como la APS de Australia y el RACGP han hecho hincapié en la responsabilidad de los profesionales clínicos respecto al documento final, y los hallazgos de Lockwood refuerzanel motivo: la IA destaca en cuanto a estructura, recomendaciones y legibilidad, pero sigue siendo más débil en la síntesis matizada de los casos —precisamente el paso en el que más se necesita el criterio clínico—.

En la práctica, esto significa lo siguiente:

  • Nunca firmes un informe que no hayas leído con atención.
  • Comprueba que los datos objetivos —nombres, fechas, notas de exámenes, criterios del DSM— coincidan con el material de referencia.
  • Reescribe las secciones de formulación y resumen si la versión de la IA es genérica o poco detallada.
  • Documenta tu proceso de revisión. Tu firma representa tu criterio, no el de la IA.

La objetividad y la precisión de la IA

Una de las mejores formas de mejorar un flujo de trabajo de informes asistido por IA es utilizar datos más objetivos, comolas evaluaciones psicométricas. Cuando se le pide a un modelo de lenguaje grande que interprete una descripción imprecisa de un paciente («parece bastante ansiosa») o transcripciones, tiene un amplio margen para inventarse cosas, es decir, para generar afirmaciones clínicas que suenen plausibles pero que no se puedan verificar.

Ese margen de maniobra se reduce cuando la IA trabaja a partir de los resultados psicométricos de NovoPsych. La integración de los resultados psicométricos significa que el informe se basa en datos numéricos reales y verificados, como las bandas de gravedad del DASS-21, los valores de cortedel PCL-5respecto al umbral establecido y los resultados de las evaluaciones de personalidad. Además, el uso de lógica empírica y deductiva —comolos índices de cambio fiable, que cuantifican si una variación en las puntuaciones supera el error de medición— contribuye a que la IA se base en una realidad empírica y fundamentada en la evidencia.

Conceptos como los coeficientes de validez, la consistencia interna y la sensibilidad y especificidad establecidas en muestras clínicas mejoran la capacidad de la IA para ofrecer resultados precisos. En lugar de hacer conjeturas sobre la gravedad o la mejoría, la IA se limita a reflejar lo que indican los datos, utilizando el lenguaje de la comparación normativa en lugar de basarse en impresiones.

No queremos opiniones generadas por la IA; queremos datos empíricos que la capa de IA simplemente haya estructurado en forma de texto. Para una profesión cuya credibilidad se basa en la precisión, esa distinción no es meramente superficial: lo es todo, y es precisamente el tipo de fundamento que convierte los informes mejorados con IA de un atajo ingenioso en una prueba clínica defendible.

Como se suele decir, «si entran datos de mala calidad, salen datos de mala calidad». Por eso, la misión de NovoPsych es mejorar la calidad de los datos de entrada, para que los profesionales clínicos que utilizan nuestras herramientas puedan confiar en los resultados. 

Dónde acabo

Entonces, ¿son precisos los informes psicológicos generados por IA? La mejor respuesta actual, basada en los datos, es: en el flujo de trabajo adecuado, sí. Y están mejorando rápidamente. Los informes de 2023, sin ninguna revisión humana, ya se acercaban a la calidad de los informes humanos en la mayoría de los aspectos analizados en el estudio de Lockwood. Los propios datos de NovoNotemuestran que los informes de 2026 son considerablemente mejores.

Las investigaciones publicadas hasta la fecha se encuentran aún en una fase inicial. El estudio más sólido (Lockwood) se basó en un modelo de hace dos años que no había sido revisado por ningún profesional clínico. El estudio que realmente necesitamos —una comparación directa entre los informes asistidos por IA y revisados por profesionales clínicos y los informes elaborados por los propios profesionales sin asistencia de IA, evaluados en cuanto a su utilidad clínica por expertos independientes— aún no se ha realizado. Hasta que así sea, debemos ser cautelosos con nuestras afirmaciones y mantener al profesional clínico firmemente al tanto de todo.

Pero la tendencia que se desprende de los datos es bastante clara. La inteligencia artificial ya no es una novedad en la redacción de informes psicológicos. Se trata de una herramienta clínica seria y, si se utiliza de forma responsable, parece ayudarnos a elaborar informes más exhaustivos, más prácticos y en una fracción del tiempo. Se trata de una ventaja significativa tanto para los pacientes como para una profesión que soporta una pesada carga de documentación.

Como siempre, seguiré atento a la bibliografía y actualizaré mi opinión a medida que se publiquen estudios más sólidos.


Referencias

Farmer, R., Lockwood, A., Goforth, A. y Thomas, C. (2024). «La inteligencia artificial en la práctica: oportunidades, retos y consideraciones éticas».*Professional Psychology: Research and Practice*.Publicación anticipada en línea.

Foo, D., Tan, J., Stevens, S., Hansra, A. y Wilcox, H. (2026). Análisis comparativo entre la documentación generada por IA y la realizada por personas en consultas simuladas de medicina general.Australian Journal of General Practice, 55(4).https://doi.org/10.31128/AJGP-04-25-7645

Fraile Navarro, D., Coiera, E., Hambly, T. W., et al. (2025). Evaluación por expertos de modelos de lenguaje a gran escala para la síntesis de diálogos clínicos.Scientific Reports, 15, 1195.https://doi.org/10.1038/s41598-024-84850-x

Hatch, S. G., Goodman, Z. T., Vowels, L. M., Hatch, D., Brown, A. L., Guttman, S., … Braithwaite, S. R. (2025). Cuando ELIZA se encuentra con los terapeutas: una prueba de Turing para el corazón y la mente.PLOS Mental Health.https://doi.org/10.1371/journal.pmen.0000145

Lockwood, A., Farmer, R., Shergill, G., Benson, N. y Gilbert, K. (2025).«El ser humano frente a la máquina: comparación entre informes psicológicos generados por IA y redactados por personas»[Preimpresión, 23 de enero de 2025].

Tierney, A. A., Gayre, G., Hoberman, B., et al. (2024). «Scribes de inteligencia artificial ambiental para aliviar la carga de la documentación clínica».NEJM Catalyst, 5(3), CAT.23.0404.https://doi.org/10.1056/CAT.23.0404

Un cordial saludo,
Dr. Ben Buchanan
Psicólogo Clínico
Cofundador de NovoPsych
LinkedIn