¿Son precisos los informes psicológicos y psiquiátricos generados por IA? Lo que realmente dicen los estudios

Dr. Ben Buchanan

CEO de NovoPsych y Psicólogo Clínico

17 de junio de 2026

¿Son precisos los informes psicológicos y psiquiátricos elaborados por la IA?

Lo que realmente dice la investigación

A muchos profesionales de la salud mental les encanta la IA por el tiempo que les permite ahorrar. En los últimos dos años he visto cómo los profesionales han pasado de una curiosidad cautelosa a un uso cotidiano, y el entusiasmo es difícil de exagerar. Los psicólogos están utilizando la IA para redactar informes de evaluación cognitiva,diagnósticos de TDAH y autismo, y informes psicoeducativos infantiles. Los psiquiatras recurren a la IA para redactar los informes de consulta más extensos que exigen las prestaciones de Medicare, comola evaluación psiquiátrica y el plan de tratamiento del «Item 291». El argumento es sencillo: menos horas frente al teclado y más tiempo con los pacientes.

Los comentarios de los usuariosde NovoNote reflejan esa realidad. Por ejemplo, Andrea Beres, una psicóloga que utiliza la IA para realizar evaluaciones del desarrollo neurológico, es un ejemplo típico de la opinión generalizada entre los usuarios de la IA en el ámbito de las evaluaciones.

¿Velocidad sin precisión?

¿A qué se debe entonces tanto entusiasmo? Pues bien, merece la pena cuantificarlo en dólares, porque para muchos profesionales el tiempo que se ahorra no es algo teórico.

Tomemos como ejemplo el código 291 de Medicare: la evaluación inicial y el plan de tratamiento del psiquiatra. Este código exige un informe escrito exhaustivo dirigido al médico de cabecera que ha derivado al paciente, además de la consulta de 45 minutos; y, según mis conversaciones con psiquiatras, la redacción del informe en sí suele llevar entre 60 y 90 minutos con la ayuda de la IA. La mayoría de los psiquiatras privados cobran unos 500 dólares. Según estas cifras, una herramienta de IA que reduzca en 45 minutos la elaboración de este tipo de informes supone un ahorro de tiempo para el profesional de unos 400 dólares por evaluación. Para un psiquiatra que realiza tres informes a la semana, eso supone unos 60 000 dólares al año de tiempo que puede dedicar a trabajo facturable adicional o que, simplemente, recupera para él y su familia.

Un cálculo similar se aplica a los psicólogos que redactan informes de evaluación cognitiva y del desarrollo neurológico, en cuyo caso Lockwood et al. (2025) constataron que la elaboración de dichos informes por parte de personas llevaba una media de 2,5 horas. Se trata de cifras aproximadas, pero el orden de magnitud explica por qué su adopción ha sido tan rápida.

Pero, bajo todo ese entusiasmo, se esconde una pregunta:

«¿Son realmente precisos esos informes?»

Por supuesto, el dinero manda, pero esto genera riesgos importantes y un riesgo moral para los profesionales. Si la IA redacta contenidos que luego firma un profesional cualificado, debemos abordar la cuestión con los ojos bien abiertos y ser conscientes de cuál es el estado actual de la evidencia. He hablado con docenas de médicos y he dedicado horas a los controles de calidad de los informes. Pero, ¿qué dice la investigación formal? He dedicado algún tiempo a leer la bibliografía especializada, y este artículo es mi intento de resumirla de forma imparcial.

Informes redactados por psicólogos frente a los generados por IA

El siguiente vídeo está extraído de un seminario web que impartí recientemente y en el que se abordó elfuturo de la inteligencia artificial en el ámbito de la salud conductual.

Datos de investigación

La prueba empírica más directa de la que disponemos procede de Adam Lockwood y sus colegas de la Universidad Estatal de Kent. Su artículo,«Human vs. Machine: Comparing AI-Generated and Human-Written Psychological Reports»(El ser humano frente a lamáquina: comparación entreinformes psicológicos generados por IA y redactadospor humanos), es, por lo que yo sé, el primer estudio sometido a revisión por pares que compara directamente informes psicológicos redactados por IA con otros redactados por humanos y pide a psicólogos colegiados que los evalúen.

El diseño es sólido. Se reclutóa 249 psicólogos colegiados(el 98,8 % con formación de doctorado y una media de 18 años de experiencia) y se pidió a cada participante que evaluara de forma ciega un informe psicológico redactado por un ser humano y otro redactado por IA, extraídos de cuatro casos ficticios de niños diseñados para cumplir los criterios del DSM-5 para el TDAH, la discapacidad intelectual, el trastorno depresivo mayor y el trastorno de ansiedad generalizada. Tanto a los seres humanos como a GPT-4 se les proporcionaron datos de evaluación simulados idénticos (incluidos los resultados del WISC-V y de las escalas de valoración) y la misma indicación. Los informes se valoraron en cuanto a legibilidad, estilo de redacción, organización, calidad del resumen, calidad de las recomendaciones y calidad general mediante escalas de Likert de 5 puntos, además de la disposición a dar el visto bueno.

Los resultados fueron más interesantes de lo que nos sugieren las afirmaciones de que «gana la IA» o «ganan los humanos».

En la mayoría de los aspectos, las diferencias fueron pequeñas y clínicamente modestas. Las puntuaciones de legibilidad fueron prácticamente idénticas: 3,77 para los humanos frente a 3,75 para la IA en una escala del 1 al 5 (p= 0,842). La longitud de las frases y el uso de jerga también resultaron estadísticamente indistinguibles. El estilo de redacción favoreció a los humanos, aunque con un tamaño del efecto reducido (r= 0,17), y la estructura organizativa solo fue marginalmente significativa (r= 0,14).

En los aspectos en los que las diferencias eran relevantes, estas se daban en ambos sentidos:

Resúmenes:Los resúmenes elaborados por personas obtuvieron una valoración significativamente mejor. Solo el 52 % de los psicólogos calificó los resúmenes generados por IA como «normales o superiores», frente al 65 % de los resúmenes elaborados por personas. En el momento de la publicación de este estudio, la síntesis era un auténtico punto débil de la IA.
Recomendaciones:La IA obtuvo una valoración significativamentemejor. Alrededor del 73 % de los psicólogos calificaron las recomendaciones de la IA como «normales» o «superiores», frente al 55 % en el caso de las realizadas por personas. Los autores señalan que esto concuerda con las críticas que desde hace tiempo se vienen formulando, según las cuales las recomendaciones de los psicólogos «a menudo carecen de significado y de especificidad» (Baum et al., 2018).
Calidad general:Una ventaja pequeña pero significativa a favor de los humanos.
Disposición a dar el visto bueno:el 49,6 % de los psicólogos se sentía cómodo firmando un informe redactado por un ser humano, frente al 43,1 % en el caso de los redactados por IA —un efecto pequeño (r= 0,14). Cabe destacar quela mayoría no se sentía del todo cómoda dando el visto bueno a ninguno de los dos.
Tiempo:Los humanos tardaron una media de 2,5 horas por informe. GPT-4 tardó una media de 91,5 segundos.

Cuando se les obligó a elegir, el 49 % prefirió el informe elaborado por personas, el 36 % prefirió el de la IA y el 15 % no prefirió ninguno de los dos. Una preferencia clara, aunque no abrumadora, por los informes elaborados por personas.

Advertencias sobre el estudio de Lockwood

Antes de dar por sentada ninguna conclusión, hay que tener en cuenta que el estudio presenta algunas limitaciones que los propios autores señalan. Cabe destacar dos de ellas:

Sin intervención humana.Ningún profesional clínico revisó el informe de la IA, corrigió errores fácticos, ajustó la redacción ni reescribió las secciones poco fluidas. Los informes de la IA se incluyeron en el estudio «tal cual». Así no es como funciona NovoNote ni ningún flujo de trabajo responsable asistido por IA en el mundo real. Siempre hay una persona que revisa y realiza modificaciones.

El modelo ya es antiguo. Se trataba de GPT-4 (consultado en noviembre de 2023). El campo de la redacción de informes mediante IA ha pasado por varias generaciones y, desde entonces, ha surgido una oleada de modelos especializados en distintos ámbitos. Tal y como señalan los autores, los resultados «pueden quedar rápidamente obsoletos (y probablemente ya lo estén)». En el lenguaje psicométrico que prefiero, nos encontramos ante una instantánea de un momento concreto con una curva de obsolescencia muy pronunciada. La tecnología actual de NovoNote está muy por delante de la utilizada en este estudio.

¿Y qué hay de los informes mejorados con IA, revisados por un profesional sanitario?

Esta es, en mi opinión, la cuestión más importante, ya que se refiere a cómo se está aplicando realmente la IA en la práctica. La respuesta es quela investigación empírica directa sobre los informes psicológicos asistidos por IA y revisados por profesionales clínicos es escasa. Se trata de una de las lagunas más evidentes en nuestra base de pruebas actual.

Sin embargo, la bibliografía al respecto resulta alentadora. En un estudio transversal publicado en el*Australian Journal of General Practice*(abril de 2026), Foo y sus colegas compararon cuatro transcriptores de IA disponibles en el mercado con la documentación realizada por personas en consultas simuladas de medicina general, evaluadas de forma ciega por tres médicos de familia con experiencia mediante un *Instrumento de Calidad de la Documentación Médica* (PDQI-9) modificado. Los transcriptores de IA obtuvieron resultadoscomparables o mejores que los humanos en cuanto a la calidad general, y significativamente mejores en cuanto a precisión, exhaustividad, concisión y ausencia de alucinaciones (p= 0,025). Los autores señalaron algo que me pareció aleccionador: la suposición de que la documentación generada por humanos es el «estándar de referencia» no se sostiene del todo —tanto los humanos como la IA cometieron errores, y los humanos, de hecho, cometieron más—.

En otro estudio directamente relacionado con la pregunta «¿pueden los profesionales clínicos distinguir la diferencia?», Hatch y sus colegas llevaron a cabo una comparación de tipo Turing, previamente registrada (N = 830), entre las respuestas de ChatGPT-4 y las de terapeutas titulados a viñetas clínicas, publicada enPLOS Mental Health(Hatch et al., 2025). Los participantes apenas pudieron distinguir entre ambos, y las respuestas de ChatGPT recibieron valoracionesmásfavorables en varios principios fundamentales de la psicoterapia. Fraile Navarro et al. (2025,Scientific Reports) descubrieron que los profesionales clínicos expertos evaluaron los resúmenes de diálogos clínicos generados por modelos de lenguaje grande (LLM) como de alta calidad en la mayoría de los aspectos.

Nada de esto es comparable a un ensayo clínico aleatorizado (ECA) bien diseñado sobre informes de evaluación psicológica elaborados con ayuda de la IA y revisados por un profesional clínico. Ese estudio aún está por realizarse. Sin embargo, la evidencia relacionada apunta a una conclusión defendible: cuando los resultados generados por la IA son revisados por un profesional clínico cualificado, es probable que la calidad sea, como mínimo, tan buena como la de un informe redactado sin ayuda y, a menudo, superior en aspectos como la exhaustividad y la especificidad.

La cuestión ética fundamental

Todo informe psicológico o psiquiátrico elaborado con la ayuda de la IA debe ser revisado, corregido y firmado por un profesional cualificado. No se trata de una simple sugerencia, sino de una obligación ética. Tanto la Asociación Americana de Psicología (APA), como la APS de Australia y el RACGP han hecho hincapié en la responsabilidad de los profesionales clínicos respecto al documento final, y los hallazgos de Lockwood refuerzanel motivo: la IA destaca en cuanto a estructura, recomendaciones y legibilidad, pero sigue siendo más débil en la síntesis matizada de los casos —precisamente el paso en el que más se necesita el criterio clínico—.

En la práctica, esto significa lo siguiente:

Nunca firmes un informe que no hayas leído con atención.
Comprueba que los datos objetivos —nombres, fechas, notas de exámenes, criterios del DSM— coincidan con el material de referencia.
Reescribe las secciones de formulación y resumen si la versión de la IA es genérica o poco detallada.
Documenta tu proceso de revisión. Tu firma representa tu criterio, no el de la IA.

La objetividad y la precisión de la IA

Una de las mejores formas de mejorar el flujo de trabajo de los informes asistidos por IA es utilizar datos más objetivos, comolas evaluaciones psicométricas. Cuando se le pide a un modelo de lenguaje grande que interprete una transcripción, dispone de un amplio margen para inventar, es decir, para generar afirmaciones clínicas que suenan plausibles pero que no se pueden verificar.

Ese margen de maniobra se reduce cuando la IA trabaja a partir de los resultados psicométricos de NovoPsych. La integración de los resultados psicométricos significa que el informe se basa en datos numéricos reales y verificados, como las bandas de gravedad del DASS-21, los valores de cortedel PCL-5respecto al umbral establecido y los resultados de las evaluaciones de personalidad. Además, el uso de lógica empírica y deductiva —comolos índices de cambio fiable, que cuantifican si una variación en las puntuaciones supera el error de medición— contribuye a que la IA se base en una realidad empírica y fundamentada en la evidencia.

Conceptos como los coeficientes de validez, la consistencia interna y la sensibilidad y especificidad establecidas en muestras clínicas mejoran la capacidad de la IA para ofrecer resultados precisos. En lugar de hacer conjeturas sobre la gravedad o la mejoría, la IA se limita a reflejar lo que indican los datos, utilizando el lenguaje de la comparación normativa en lugar de basarse en impresiones.

No queremos opiniones generadas por la IA; queremos hechos empíricos que la capa de IA simplemente haya estructurado en forma de texto. Para las profesiones cuya credibilidad se basa en la confianza, esa distinción no es meramente superficial: lo es todo, y es precisamente el tipo de fundamento que convierte los informes mejorados con IA de un atajo ingenioso en una prueba clínica defendible.

Como se suele decir, «si entran datos de mala calidad, salen datos de mala calidad». Por eso, la misión de NovoPsych es mejorar la calidad de los datos de entrada, para que los profesionales clínicos que utilizan nuestras herramientas puedan confiar en los resultados.

Dónde acabo

Entonces, ¿son precisos los informes psicológicos generados por IA? La mejor respuesta actual, basada en los datos, es: en el flujo de trabajo adecuado, sí. Y están mejorando rápidamente. Los informes de la era de 2024, sin ninguna revisión humana, ya se acercaban a la calidad humana en la mayoría de los aspectos del estudio de Lockwood. Los propios datos de NovoNotemuestran que los informes de 2026 son considerablemente mejores.

Las investigaciones publicadas hasta la fecha se encuentran aún en una fase inicial. El estudio más sólido (el de Lockwood) utilizó un modelo de hace dos años que no había sido revisado por ningún profesional clínico. El estudio que realmente necesitamos —una comparación directa entre informes asistidos por IA y revisados por profesionales clínicos, y los informes elaborados por los propios profesionales sin asistencia de IA, evaluados en cuanto a su utilidad clínica por expertos independientes— aún no se ha publicado (¡aunque el equipo de NovoPsych está trabajando en ello!). Hasta que se publique, deberíamos ser cautelosos a la hora de hacer afirmaciones.

Pero la tendencia que se desprende de los datos es bastante clara. La inteligencia artificial ya no es una novedad en la redacción de informes psicológicos. Se trata de una herramienta clínica seria y, si se utiliza de forma responsable, parece ayudarnos a elaborar informes más exhaustivos, más prácticos y en una fracción del tiempo. Se trata de una ventaja significativa tanto para los pacientes como para los profesionales que soportan una pesada carga de documentación.

Como siempre, seguiré atento a la bibliografía y a nuestras propias investigaciones, y actualizaré mi opinión a medida que se publiquen estudios más sólidos.

Referencias

Farmer, R., Lockwood, A., Goforth, A. y Thomas, C. (2024). «La inteligencia artificial en la práctica: oportunidades, retos y consideraciones éticas».*Professional Psychology: Research and Practice*.Publicación anticipada en línea.

Foo, D., Tan, J., Stevens, S., Hansra, A. y Wilcox, H. (2026). Análisis comparativo entre la documentación generada por IA y la realizada por personas en consultas simuladas de medicina general.Australian Journal of General Practice, 55(4).https://doi.org/10.31128/AJGP-04-25-7645

Fraile Navarro, D., Coiera, E., Hambly, T. W., et al. (2025). Evaluación por expertos de modelos de lenguaje a gran escala para la síntesis de diálogos clínicos.Scientific Reports, 15, 1195.https://doi.org/10.1038/s41598-024-84850-x

Hatch, S. G., Goodman, Z. T., Vowels, L. M., Hatch, D., Brown, A. L., Guttman, S., … Braithwaite, S. R. (2025). Cuando ELIZA se encuentra con los terapeutas: una prueba de Turing para el corazón y la mente.PLOS Mental Health.https://doi.org/10.1371/journal.pmen.0000145

Lockwood, A., Farmer, R., Shergill, G., Benson, N. y Gilbert, K. (2025).«El ser humano frente a la máquina: comparación entre informes psicológicos generados por IA y redactados por personas»[Preimpresión, 23 de enero de 2025].

Tierney, A. A., Gayre, G., Hoberman, B., et al. (2024). «Scribes de inteligencia artificial ambiental para aliviar la carga de la documentación clínica».NEJM Catalyst, 5(3), CAT.23.0404.https://doi.org/10.1056/CAT.23.0404

Un cordial saludo,
Dr. Ben Buchanan
Psicólogo Clínico
Cofundador de NovoPsych
LinkedIn