Una prueba revela si la inteligencia artificial realmente entiende o solo imita patrones

21 de marzo de 2026

¿Las inteligencias artificiales razonan o simplemente repiten patrones que han observado millones de veces? Esta pregunta se ha vuelto incómoda en un momento en el que los modelos de lenguaje parecen cada vez más capaces de responder casi cualquier cosa. En conversaciones cotidianas, la IA puede sonar convincente, incluso brillante. Sin embargo, al llevarla al terreno más exigente del pensamiento abstracto (como en las matemáticas de investigación real), la ilusión comienza a desmoronarse.

En este contexto, surge un experimento diseñado para desafiar a la IA: First Proof, un proyecto que tiene como objetivo evaluar si los modelos actuales pueden enfrentarse a problemas matemáticos inéditos, sin recurrir a soluciones ya publicadas en internet.

Un experimento que distingue entre memoria y razonamiento

First Proof no es una evaluación convencional. Surge de una crítica muy específica: la mayoría de las pruebas actuales de IA en matemáticas se basan en problemas de competiciones, exámenes o ejercicios que ya circulan por la red. Esto introduce un sesgo evidente: los modelos han sido entrenados con vastas cantidades de libros, artículos, soluciones y foros de discusión. Cuando “resuelven” un problema, es complicado determinar si están razonando o simplemente recombinando información conocida.

Para evitar esta trampa, once matemáticos de renombre diseñaron problemas completamente inéditos, extraídos de sus propias investigaciones no publicadas. El equipo incluye figuras de referencia mundial, como ganadores de la Medalla Fields y especialistas en áreas como topología algebraica, teoría espectral de grafos, geometría simpléctica o análisis estocástico. Además, el proyecto se planteó sin financiación de empresas de IA, precisamente para evitar conflictos de interés.

Diez problemas que no estaban en ningún conjunto de datos

El núcleo del experimento son diez problemas matemáticos reales, similares a los que un investigador humano enfrenta en su trabajo diario. No se trata de acertijos ni rompecabezas de competición: son cuestiones abiertas que requieren creatividad, intuición y construcción de pruebas formales.

Las soluciones humanas fueron resueltas previamente y cifradas en la web oficial del proyecto. Luego, varios modelos de IA de última generación fueron evaluados en modo “one-shot”: un único intento por problema, sin pistas ni contexto adicional. El objetivo era simple y contundente: observar qué sucedía cuando la IA no podía recurrir a su memoria.

Los resultados fueron reveladores. De los diez problemas, los sistemas evaluados solo lograron resolver correctamente dos, y aun así con un nivel de solidez cuestionable para los estándares académicos reales. En los demás casos, las respuestas eran plausibles en apariencia, pero fallaban en pasos clave, cometían errores conceptuales o directamente construían argumentos que “sonaban bien” pero no demostraban nada.

Texto sofisticado no implica pensamiento matemático

Once matemáticos de élite han creado una prueba que expone el mayor punto débil de la inteligencia artificial. La diferencia entre “responder bien” y razonar de verdad — © ChatGPT / Gizmodo.

Uno de los aspectos más interesantes del experimento es cómo resalta una confusión muy extendida: que una IA pueda generar texto matemático coherente no implica que esté razonando. Puede redactar demostraciones con el tono adecuado, emplear notación correcta e incluso encadenar argumentos de forma verosímil. Pero la matemática de investigación no se limita a sonar bien, sino que evita errores en cadenas de razonamiento sumamente delicadas.

En algunos casos, los modelos producían lo que los propios investigadores describen como “alucinaciones matemáticas”: pasos inventados, teoremas mal aplicados o inferencias que, a primera vista, seguían la lógica formal, pero que no se sostenían al ser revisadas por un humano experto.

El cuello de botella humano persiste

Un dato sorprendente del proyecto es que, incluso cuando las empresas desarrolladoras de IA intentaron generar soluciones candidatas para los problemas, la validación final dependió de matemáticos humanos que dedicaron horas a revisar cada respuesta. Esto revela un cuello de botella poco visible en el discurso sobre la automatización: la IA puede generar mucho, y rápido, pero verificar si eso es correcto sigue siendo un proceso costoso, lento y humano.

En matemáticas, una solución incorrecta no es “más o menos válida”: simplemente está equivocada. Y detectar el motivo de esa equivocación exige exactamente el tipo de comprensión profunda que, por el momento, las máquinas no parecen poseer.

Implicancias del experimento para el futuro de la IA

First Proof no demuestra que la IA sea ineficaz en matemáticas. En realidad, deja claro que es una herramienta extremadamente potente para explorar ideas, sugerir caminos, automatizar cálculos o incluso proponer conjeturas. Sin embargo, también expone un límite incómodo: razonar verdaderamente en terrenos no conocidos continúa siendo, hasta ahora, una frontera esencialmente humana.

Los responsables del proyecto tienen la intención de repetir el experimento periódicamente para evaluar si los avances en modelos de IA logran reducir esa brecha. Tal vez en unos años los resultados sean diferentes. O tal vez descubramos que existe una diferencia estructural entre “generar respuestas plausibles” y “construir conocimiento nuevo” que no se resuelve solo con más datos y más parámetros.

Por ahora, el experimento First Proof actúa como un espejo poco complaciente: nos recuerda que, por impresionante que parezca la inteligencia artificial, aún no hemos resuelto el problema más complicado de todos. No se trata de que las máquinas hablen como nosotros, sino de si, en el fondo, piensan realmente.