(011) 15-5117-1073

Se pone en duda la capacidad de razonamiento de las IA más poderosas


Una ligera modificación a los benchmarks utilizados para medir el rendimiento de los modelos de IA reveló que estos sistemas dependen más de la memorización que del razonamiento


Categoría: INVESTIGACIONES

Buenos Aires-(Nomyc)-Los avances en Inteligencia Artificial (IA) podrían ser menos significativos de lo que aparentan, según la conclusión de un estudio realizado por investigadores de la Universidad Nacional de Educación a Distancia (UNED), en España, quienes sugieren que “las capacidades de modelos como OpenAI o3-mini o DeepSeek R-1 dependen más de la memorización que del razonamiento genuino”.

 

El desarrollo de sistemas de IA con habilidades de razonamiento, se convirtió en el nuevo foco de competencia dentro del sector y la mayoría de estos modelos fueron entrenados para responder a solicitudes mediante “cadenas privadas de pensamiento”, un procedimiento que les permite “reflexionar” antes de generar una respuesta, según empresas como OpenAI, por lo que los sistemas están habilitados para segmentar la petición y vincularla con información previa para ofrecer una respuesta más precisa.

 

La industria sostiene que esta es una forma avanzada de razonamiento que se asemeja a la de los humanos y que se evalúa a través de pruebas de referencia conocidas como Benchmarks, o la Comparación de Rendimiento que permite Evaluar Iniciativas.

 

Los modelos con mejores puntuaciones en estos exámenes, suelen considerarse los más potentes, aunque los especialistas advierten que estos tests presentan problemas de confiabilidad, una situación algo que se agravó debido a la intensa competencia en el sector.

 

Julio Gonzalo, coautor del estudio y catedrático de Lenguajes y Sistemas Informáticos de la UNED, señaló al diario a El País que “si hay mucha presión competitiva, se presta demasiada atención a los ´benchmarks´, y a las empresas les resultaría fácil y conveniente manipularlos, así que no podemos fiarnos completamente de los números que nos reportan”.

 

Para evaluar la confiabilidad de estas pruebas, Gonzalo y los investigadores de la UNED, Eva Sánchez Salido y Guillermo Marco, diseñaron un sencillo, pero eficaz experimento que permite determinar si los modelos responden a los tests mediante razonamiento real o si solo buscan la opción más probable, en función de sus datos de entrenamiento.

Nomyc-5-3-25

Consultá por este producto
@

*Los campos son obligatorios

Cargando
¡Contactanos!
clave

NOTICIAS
con contraseña