Por qué la forma en que OpenAI quiere eliminar las alucinaciones de la IA podría terminar con ChatGPT mañana
Las alucinaciones en modelos de lenguaje no son solo un bug pasajero. Un trabajo reciente de OpenAI explica con matemáticas por qué ocurren y por qué podrían ser inevitables para el usuario común. La conclusión incomoda es sencilla. Los incentivos del mercado empujan a la IA de consumo hacia respuestas rápidas y seguras de sí mismas, no hacia la prudencia.
El estudio parte de algo básico. Los modelos generan texto palabra por palabra estimando probabilidades. Ese mecanismo acumula errores a lo largo de una frase. De hecho, el análisis muestra que la tasa total de error al redactar oraciones puede ser al menos el doble de la que tendría el mismo sistema si solo respondiera preguntas de sí o no. No es una falla aislada del entrenamiento. Es una consecuencia directa de cómo aprendemos a que un modelo hable.
Hay otro factor que agrava todo. Cuando un dato aparece poco en el entrenamiento, la posibilidad de alucinación sube. El propio equipo lo ilustra con cumpleaños de personas conocidas. Si un veinte por ciento de esos cumpleaños aparece una sola vez en el corpus, los modelos base deberían equivocarse al menos en ese mismo veinte por ciento de consultas. En pruebas reales, al preguntar por el cumpleaños de Adam Kalai, coautor del paper, un modelo de última generación respondió con fechas distintas y equivocadas en tres intentos. Ninguna siquiera se acercó al otoño, que es cuando realmente cumple.
El problema no termina en el modelo. También está en cómo medimos su desempeño. Nueve de diez benchmarks revisados califican con nota binaria que no distingue entre decir no lo sé y responder mal. Bajo ese esquema el modelo que adivina siempre termina con mejor puntaje que el que admite incertidumbre. La estrategia óptima se vuelve obvia. Adivinar.
La propuesta de OpenAI suena razonable sobre el papel. Hacer que el sistema evalúe su propia confianza antes de responder y ajustar los umbrales según el costo del error. Responder solo cuando supere cierta confianza. Si el umbral es alto, el modelo diría no lo sé con más frecuencia y alucinaría menos. Hasta ahí todo bien. El choque llega con la experiencia de uso. Imagina a ChatGPT diciendo no lo sé en cerca de un treinta por ciento de las consultas. Incluso siendo una estimación conservadora según el análisis de incertidumbre del entrenamiento, muchos usuarios abandonarían un asistente que se niega a contestar tan a menudo.
Hay un espejo en el mundo real que ayuda a entenderlo. En un proyecto de monitoreo de calidad de aire en Salt Lake City, cuando el sistema mostraba incertidumbre por clima adverso o calibraciones, la gente interactuaba menos, aun cuando esas señales honestas resultaban más confiables a la hora de validar.
Aun así reducir alucinaciones no es ciencia ficción. Existen métodos de estimación de incertidumbre con décadas de desarrollo. Funcionan y permiten decidir mejor cuándo responder y cuándo frenar. El obstáculo grande es económico. Incorporar conciencia de incertidumbre implica más cómputo. Hay que evaluar múltiples trayectorias y estimar confianza. A escala de millones de consultas por día, el costo sube de manera importante. Técnicas más avanzadas como el aprendizaje activo, que hace preguntas para aclarar, mejoran la precisión pero multiplican el costo computacional. En sectores donde equivocarse sale carísimo, como diseño de chips, finanzas o diagnóstico médico, el gasto adicional se justifica. En aplicaciones masivas para consumidores que esperan inmediatez, no tanto.
El panorama cambia cuando la IA opera procesos críticos. En logística, trading o salud, el precio de una alucinación supera por mucho el costo de calcular si hay suficiente certeza. En esos entornos la receta de OpenAI no solo es viable sino necesaria. Esos agentes deberán costar más.
Mientras tanto la corriente principal empuja en sentido contrario. Los usuarios quieren respuestas seguras y al instante. Los benchmarks premian la audacia por encima de la prudencia. La infraestructura favorece salidas veloces y confiadas por encima de salidas lentas y honestas sobre su incertidumbre. Incluso si la energía por token sigue abaratándose y las nuevas arquitecturas aceleran el cómputo, la diferencia relativa entre adivinar rápido y evaluar confianza seguirá pesando.
La verdad incómoda que deja el paper es clara. Los incentivos comerciales que dominan la IA de consumo no están alineados con reducir alucinaciones. Hasta que eso cambie, seguirán ahí.