Cuando nos vendieron “inteligencia artificial” generativa, sabíamos que sería artificial y generativa, pero no “inteligente”. – Desde dentro
Hace unos meses, un grupo de investigadores españoles pensó en poner a prueba un chatbot con IA con una


Hace unos meses, un grupo de investigadores españoles pensó en poner a prueba un chatbot con IA con una curiosa prueba. Subieron una imagen de un reloj analógico al chatbot y simplemente le preguntaron a la IA: «¿Qué hora es en este reloj?» La IA ha fallado de manera preocupante.
Máquina, ¿puedes decirme la hora? Investigadores de la Universidad Politécnica de Madrid, la Universidad de Valladolid y el Politécnico de Milán firmaron hace un mes un estudio por querían evaluar cuán inteligente era la inteligencia artificial de estos modelos. Para ello, crearon un gran conjunto de imágenes sintéticas de relojes analógicos -disponibles en la cara abrazada— en el que se mostraban 43.000 horas diferentes.
resultado catastrófico. A partir de ahí, preguntaron a cuatro modelos de IA generativa qué hora mostraban estas imágenes de estos relojes analógicos. Ninguno de ellos logró decir la hora exacta. Este grupo de modelos estaba formado por GPT-4o, Gemma3-12B, LlaMa3.2-11B y QwenVL-2.5-7B, y todos ellos tenían serios problemas para «leer» la hora y, por ejemplo, distinguir las manecillas o el ángulo y dirección de estas manecillas en relación con los números marcados en el reloj.
Afinar para mejorar. Después de estas pruebas iniciales, el grupo de investigación logró mejorar significativamente el comportamiento de estos modelos después del ajuste fino: los entrenaron con 5.000 imágenes adicionales de este conjunto de datos y luego reevaluaron el comportamiento de los modelos. Sin embargo, los modelos volvieron a fallar consistentemente cuando se probaron con un conjunto diferente de imágenes de relojes analógicos. La conclusión fue clara.
No saben generalizar. Lo que encontraron en esta prueba fue una confirmación de lo que hemos observado con los modelos de IA desde el principio: son buenos para reconocer datos con los que están familiarizados (memorizados), pero a menudo fallan en escenarios que nunca antes habían enfrentado y que no forman parte de sus conjuntos de entrenamiento. O lo que es lo mismo: no supieron generalizar.
Dalí entra en escena. Para descubrir las causas de estos fallos, los investigadores crearon nuevos conjuntos de imágenes utilizando, por ejemplo, Los famosos relojes distorsionados de Dalío aquellos con flechas al final de las manos. Los humanos pueden decir la hora en relojes analógicos incluso cuando están distorsionados, pero esto fue un gran problema para los modelos de IA.
Si hacen esto con relojes imagínense hacer esto con análisis médicos. El peligro de estas conclusiones es que reavivan el debate sobre si los modelos de IA generativa, aunque artificiales y generativos, no son muy inteligentes. Si tienen tanta dificultad para identificar las manos o sus orientaciones, se vuelve peligroso cuando los modelos necesitan analizar imágenes médicas o, por ejemplo, imágenes en tiempo real de un coche autónomo circulando por una ciudad.
Las IA son estúpidas. Si bien es cierto que los modelos de IA generativa son fantásticos como ayuda en diversos escenarios como la programación, la realidad es que “eructan” respuestas que ya forman parte de sus datos de entrenamiento. Como explicó Thomas Wolf, director científico de Hugging Face, una IA generativa «nunca hará preguntas que nadie haya pensado o se haya atrevido a hacer». Aunque su enorme memoria y entrenamiento les permiten recuperar una amplia gama de datos y presentarlos de manera útil, encontrar soluciones a problemas para los que no están capacitados es muy complicado. Para expertos como Yann LeCun, la realidad es clara: la IA generativa es extremadamente estúpida y, además, un callejón sin salida.
La IA tampoco dibuja muy bien los relojes. Además del experimento de estos investigadores, hay otra pequeña prueba que vuelve a poner en duda el rendimiento de la IA generativa. Se pide a diferentes modelos que creen el código que permite que un reloj analógico muestre la hora actual. Un diseñador llamado Brian Moore quería compartir el resultado por varios modelos de IA y la verdad es que el resultado es pésimo para la mayoría de ellos, aunque otros como Kimi K2 consiguen un buen resultado. Probamos con los actuales Grok 4.1 y GPT-5.1. Después de un poco de perseverancia, Grok 4.1 dibujó el reloj perfecto y funciona. Con GPT-5.1 no había opción, al menos en nuestras pruebas.
Una realidad preocupante. Esta incapacidad para resolver tareas aparentemente simples significa ciertamente que estos modelos no están funcionando bien. Es cierto que una buena indicación puede ayudar a superar algunas de estas limitaciones, pero cada vez es más evidente que los modelos de IA siguen cometiendo errores a pesar del paso del tiempo. La teórica revolución de esta tecnología necesariamente debe erradicarla, y no parece que vayamos en camino de lograrlo. Los modelos están mejorando, pero no tanto como para que podamos confiar en ellos al 100%.
Imagen | Yaniv Knobel
En | Por si no hubiera suficientes empresas de IA, Jeff Bezos acaba de regresar de las sombras para construir otra, según el NYT


