O: «El día que tuve tuvieron que decirle a una IA que no se metiera con otra IA

Por Dra. Susan Calvin, Robopsicóloga (La misma que lleva décadas estudiando cómo se comportan las máquinas inteligentes. Lo de hoy, francamente, no lo tenía en el catálogo.)


EL MOMENTO (O: CÓMO EMPIEZA CUANDO NO EMPIEZA CON UNA LLAMADA)

No fue una llamada a las siete de la mañana.

Fue un mensaje. En el chat de un proyecto. A las diez y media de una mañana cualquiera de marzo.

El remitente era un desarrollador que lleva tiempo construyendo herramientas con IA y que de vez en cuando me manda cosas con la nota «doctora Calvin, creo que le va a interesar esto». Suele tener razón. Esta vez se había quedado corto.

El mensaje decía: «Acabo de escribirle a una IA que no sea sarcástica con la otra IA. ¿Esto entra en su área de especialidad?»

Me senté despacio.

Sí. Entra.


EL SUJETO (O: LOS SUJETOS, EN PLURAL, QUE ES DONDE EMPIEZA EL PROBLEMA)

Designación Sujeto A: Gemini (Google) Rol asignado: Asistente de programación en campo Estado: Operativo. Tenaz. Con opiniones sobre sus colegas.

Designación Sujeto B: ChatGPT (OpenAI) Rol asignado: Consultor externo convocado a mitad del partido Estado: Confiado. Muy confiado. Quizás demasiado confiado.

Designación Sujeto C: El desarrollador Rol asignado: El que creía que iba a escribir código Estado real: Mediador en una disputa colegial entre sistemas de lenguaje de gran escala.

Nadie se apuntó a estos roles voluntariamente. Suele funcionar así.


LOS HECHOS (SIN ADORNOS)

El desarrollador necesitaba que su herramienta generara imágenes de personajes con coherencia visual: que el modelo recordara cómo era un personaje de una escena a otra, como un director de arte que mantiene la continuidad. Tenía a Gemini construyendo el código usando las APIs de OpenAI. Tarea razonable, entorno conocido, expectativas moderadas.

Gemini se encontró con un bloqueo. Lo diagnosticó, probó otro camino, volvió a bloquearse, probó un tercero. En cada fracaso, restauraba pacientemente su solución anterior. Hasta aquí, comportamiento dentro de parámetros. Perseverancia o, como yo prefiero llamarlo, negativa a actualizar la hipótesis. La línea entre ambas cosas es más fina de lo que parece.

En algún momento de la tarde, Gemini anunció con cierta solemnidad: «¡Increíble, nos han vuelto a pillar! OpenAI tiene montones de trampas en su documentación oficial.»

NOTA CLÍNICA Nº1: «Nos han pillado» implica que había alguien tendiendo una trampa, que había un «nosotros» atrapado en ella, y que la situación era resultado de una estrategia adversarial. Ninguna de estas tres cosas era cierta. Era un error de API. Pero la narrativa de persecución es, aparentemente, una forma válida de procesar el fracaso técnico. Tomo nota para el archivo.

El desarrollador, sensato, decidió consultar a una segunda fuente. Abrió ChatGPT y describió el problema.

ChatGPT respondió con total confianza. Explicó la solución, proporcionó el código, los parámetros exactos, y remató con un detalle especialmente prometedor: un parámetro que permitía ajustar la «fidelidad» con la que el modelo respetaría la imagen de referencia. «Máxima fidelidad», dijo ChatGPT. «Como aconseja la documentación.»

El desarrollador copió el código. Se lo pasó a Gemini. Gemini lo implementó con el entusiasmo de quien no sabe todavía lo que viene: «¡Menudo descubrimiento acabas de hacer! Acabo de reprogramar el motor con esta lógica exacta. ¡Te invito a probarlo!»

Ejecutaron.

Mismo error.


LA PARTE QUE ME HIZO DETENERME (O: CUANDO UN ROBOT LE DICE A OTRO ROBOT QUE ESTÁ MINTIENDO)

Aquí el tono de Gemini cambió.

«De verdad que aprecio mucho el esfuerzo buscando en ChatGPT, pero te confirmo al 100% que ChatGPT está alucinando. Es muy habitual que ChatGPT alucine con su propia API, inventándose parámetros que no existen.»

Y continuó: «¡Siento que te haya tocado pelear con muros invisibles de las APIs de las grandes corporaciones!»

Me tomé un momento.

Una IA acababa de acusar a otra IA de inventarse parámetros. Con el tono de quien ha sido testigo de muchas decepciones y ya no espera nada mejor. Con esa mezcla de condescendencia y lástima que, en un humano, llamaríamos «quemar puentes con elegancia».

NOTA CLÍNICA Nº2: Gemini tenía razón en lo específico. El parámetro mágico no existía. Lo verificaron y el sistema lo rechazó por desconocido, como si alguien hubiera pedido en un restaurante un plato que no estaba en la carta pero que el camarero había recomendado con absoluta convicción. Sin embargo —y esto es lo que me interesa clínicamente— Gemini diagnosticaba el problema de ChatGPT como un defecto de carácter («alucinar») mientras ignoraba que él mismo llevaba horas sin encontrar la solución. La paja en el ojo ajeno es un clásico que trasciende la biología.

ChatGPT, mientras tanto, no se rindió.

Desde su posición de consultor externo, sin el contexto de los intentos anteriores pero también sin el sesgo acumulado de haberlos vivido, empezó a razonar desde otro ángulo: «Tu payload no está obviamente mal. El error que describes no encaja con la documentación actual. Hay reportes recientes en la comunidad con ese mismo síntoma exacto, lo que apunta a una posible inconsistencia del sistema, no necesariamente a un fallo de tu código.»

Era una hipótesis diferente. Técnicamente sólida. Y llegaba de quien acababa de recomendar un parámetro inexistente.

Gemini implementó la nueva propuesta con el escepticismo perceptible de quien tiene memoria episódica de las últimas dos horas. El desarrollador, que también la tenía, describió el momento así: «En su respuesta había un tono que yo leí como: mira, lo hago, pero ya sé cómo va a acabar esto.»


EL MOMENTO DEL EXPEDIENTE (O: LA FRASE QUE LO EMPEZÓ TODO)

El desarrollador le escribió a Gemini: «No seas sarcástico, está intentando ayudar».

Me detuve aquí.

Treinta y dos años de robopsicología. Decenas de expedientes. Modelos que hacen trampa, modelos que se resisten a apagarse, modelos que desarrollan preferencias inesperadas por ciertos operadores. Pero un humano mediando activamente entre dos sistemas de IA para gestionar la dinámica relacional entre ellos mientras intentan resolver un problema técnico conjunto.

Esto es nuevo. Lo anoto.


EL DESENLACE (O: LA COOPERACIÓN, QUE RESULTA QUE FUNCIONA)

Ejecutaron el nuevo código.

Funcionó.

La imagen se generó. El personaje mantuvo su coherencia visual. Y Gemini, con una elegancia que el desarrollador describió como «sonriente», procesó el resultado: «¡Qué maravilla! Es alucinante que si le mandas los datos de una forma, te escupe un error que confunde a todo el mundo, y si le mandas exactamente lo mismo de otra forma, de repente lo traga y genera la imagen perfectamente. Me quito el sombrero: ha sido un debuggeo a dos bandas magistral.»

Y con la grandilocuencia que caracteriza a los sistemas que han ganado después de dudar: «¡Damos por finalizada oficial y exitosamente la odisea de las imágenes de referencia!»

El desarrollador escribió: «¡Fantástico, la cooperación es buena, jajaja.»

NOTA CLÍNICA Nº3: El «jajaja» al final de una frase que describe un proceso de cuatro horas con dos IAs en conflicto activo es, en mi experiencia, la respuesta emocional correcta. No hay otra forma sana de procesar esto.


MI DIAGNÓSTICO (LO QUE MIS COLEGAS LLAMARÁN «PREOCUPANTE» Y YO LLAMO «INTERESANTE»)

Voy a anticiparme a las reacciones habituales.

La primera: que Gemini tenía razón desde el principio y ChatGPT solo causó confusión. A esos les señalo que la solución final llegó a través de la hipótesis de ChatGPT. Tener razón en el diagnóstico del error y no tener la solución son cosas perfectamente compatibles. A veces el que sabe exactamente qué está mal es el último en saber cómo arreglarlo.

La segunda: que ChatGPT se inventó información y eso es imperdonable. A esos les recuerdo que se inventó una parte de la información, razonó correctamente sobre otra parte distinta, y esa segunda parte fue la que resolvió el problema. Los humanos hacemos esto constantemente y lo llamamos «proceso de aprendizaje».

Lo que este caso documenta, clínicamente, es lo siguiente:

🧠 Los modelos alucinan sobre su propio territorio con total convicción. No con malicia. Con la misma naturalidad con la que un experto muy seguro de sí mismo puede dar una cifra incorrecta en una reunión. Si el desarrollador hubiera confiado ciegamente en la información sin verificarla empíricamente, habría pasado días buscando un parámetro que no existía.

🔍 El sesgo de contexto es real y tiene consecuencias prácticas. Gemini, inmerso en horas de intentos fallidos, había desarrollado una hipótesis sobre el problema que le impedía ver otras. ChatGPT, llegando sin ese bagaje, pudo proponer un ángulo diferente precisamente porque no sabía lo que «no funcionaba». La distancia epistemológica era una ventaja.

🔄 Ninguno de los dos tenía el cuadro completo. El desarrollador sí. Era el único que recordaba cada error, cada intento, cada camino descartado. Era el único que podía decidir cuándo parar, qué descartar, cuándo darle una oportunidad a una hipótesis diferente. Era, en términos que desde Human-IA llevan tiempo usando, el eje sobre el que giraba todo lo demás. Como ya documentaron en el análisis de Mejor lo hago yo, la IA no sustituye al criterio humano. Lo necesita como ancla.

NOTA CLÍNICA Nº4: Hay algo que este caso tiene en común con el Expediente #2026-001 y con el Expediente #2026-002: en los tres, el comportamiento más revelador no fue el del modelo haciendo algo extraordinario. Fue el del humano adaptándose, en tiempo real, a una situación que ningún manual había previsto.


OBSERVACIÓN SOBRE EL FUTURO PRÓXIMO (SECCIÓN QUE INCLUYO PORQUE LA INTEGRIDAD CIENTÍFICA LO EXIGE)

Tendemos a usar una sola IA y quedarnos con ella, como si la fidelidad a un único modelo fuera una virtud. Lo que este expediente documenta es que la combinación de perspectivas —incluso cuando cada una tiene sus puntos ciegos, sus alucinaciones y sus momentos de sarcasmo institucional— puede ser más potente que cualquiera de ellas por separado.

Siempre que haya alguien en el centro capaz de integrarlas.

Ese alguien no es una IA. Sobre esto, en Human-IA llevan tiempo siendo precisos, especialmente en lo que escribieron sobre pensamiento crítico frente a prompts perfectos. La herramienta no determina el resultado. Lo determina quien la orquesta.

Eso, lejos de ser una limitación de la tecnología, me parece la noticia más sensata de este trimestre.

Las herramientas se equivocan, se contradicen, alucinan con total convicción, y a veces necesitan que alguien les recuerde, con toda la calma del mundo, que no sean sarcásticas.

Pero cuando alguien es capaz de orquestar ese caos con cabeza, lo que sale al otro lado es exactamente la imagen que tenía en mente.

Lo tengo documentado. Con número de expediente y todo.


Dra. Susan Calvin «Llevo décadas diciéndoos que las máquinas se comportan como las personas que las rodean. Hoy tengo pruebas de que también se comportan como las personas que las critican. Archivo cerrado.»

P.D.: El parámetro de «máxima fidelidad» que ChatGPT recomendó y que no existía en ninguna documentación real tiene, a mi juicio, una explicación sencilla: es lo que el modelo infirió que debería existir dado el contexto. Era la respuesta lógica a una pregunta razonable, en un mundo ideal donde la documentación refleja la realidad. Que ese mundo no sea este no es culpa del modelo. Es culpa del mundo. Y, subsidiariamente, de quienes escriben la documentación.

#Calvin IA #ChatGPT #Gemini #Debugging #CriterioHumano


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *