Un estudio reciente realizado por seis investigadores de Apple cuestiona la capacidad de razonamiento auténtico en los modelos de lenguaje de gran tamaño (LLM). El informe titulado «GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models« destaca que el rendimiento de estos modelos disminuye cuando se enfrentan a problemas más complejos.
Utilizando el conjunto de pruebas GSM8K, un estándar desarrollado por OpenAI compuesto por más de 8.000 problemas matemáticos de nivel de primaria, los investigadores señalaron que, aunque los modelos han mejorado en precisión, aún presentan limitaciones en su capacidad para resolver problemas matemáticos más avanzados.
Para superar las referencias existentes en GSM8K, los investigadores desarrollaron GSM-Symbolic, un punto de referencia mejorado que permite ejecutar evaluaciones controladas en base a diferentes números y nombres (como personas, alimentos y objetos), reunidos en un nuevo conjunto de datos, GSM-NoOp.
De esa manera, generaron una serie de GSM-Symbolic únicos, que funcionan como los ejemplos de GSM8K, pero con distintos valores y nombres. Lo hicieron con el objetivo de conocer el comportamiento de modelos de IA tanto abiertos (Llama, Phi, Mistral o Gemma) como cerrados (GPT-4o y su variante o1), al modificar estos valores.
En total, se realizaron casi 500 evaluaciones en diferentes configuraciones, con cien plantillas a partir de GSM-Symbolic para cada punto de diferencia, lo que resultó en 50 conjuntos de datos compuestos por cien ejemplos cada uno, siendo estos una mutación de los cien ejemplos originales GSM8K.
En primer lugar, han puntualizado que pequeños cambios de tokens de entrada en estos modelos pueden alterar «de forma drástica» sus resultados, «lo que indica un fuerte sesgo y sugiere que estos modelos son altamente flexibles y frágiles», según se recoge en el documento.
También han observado fallas críticas en la capacidad de los modelos para discernir información relevante para la resolución de problemas debido a que su razonamiento no atiende al sentido común y se basa principalmente en la comparación de patrones.
De ese modo, descubrieron alteraciones en los resultados de rendimiento de cada LLM. Mientras que Llama 8B alcanzó una puntuación de entre el 70 y el 80 por ciento de precisión en GSM8K, Phi-3 registró una puntuación de entre el 75 y el 90 por ciento, «y así sucesivamente». Asimismo, para la mayoría de los modelos, el rendimiento promedio en su propio ‘benchmark’ es menor que en desarrollado por OpenAI.
También añadieron afirmaciones aparentemente relevantes a las preguntas trasladadas a estos modelos, a pesar de que estas no eran importantes para el razonamiento y la conclusión. En ese caso, vieron que la mayoría de LLM no ignoran estos aportes y las convierten «ciegamente» en operaciones, lo que conduce a errores en los resultados.
MAYORES LIMITACIONES ANTE PROBLEMAS MÁS COMPLEJOS
Los investigadores han concluido que su estudio revela una variedad significativa sobre el rendimiento en distintas instancias de la misma pregunta, lo que demuestra que los resultados actuales de GSM8K no son tan ejemplares como se pensaba.
Asimismo, ha matizado que los LLM «muestran cierta solidez» a los cambios en los nombres propios, pero que son más sensibles a las variaciones de los valores numéricos. Además, han observado que el rendimiento de estos modelos «se deteriora a medida que aumenta la complejidad de la pregunta».
También han señalado que en su estudio se demuestra que los LLM tienen dificultades incluso cuando se les proporcionan múltiples ejemplos de la misma pregunta o ejemplos que contienen información irrelevante similar, lo que sugiere problemas más profundos en sus procesos de razonamiento, que «no se pueden mitigar fácilmente mediante aprendizaje o el ajuste de su razonamiento».
«La alta variabilidad en el desempeño de los LLM en distintas versiones de la misma cuestión, su caída sustancial en el desempeño con un pequeño aumento de su dificultad y su sensibilidad a la información intrascendente indican que su razonamiento es frágil», han añadido.
Por tanto, teniendo en cuenta que tanto GSM8K como GSM-Symbolic incluyen preguntas matemáticas de primaria relativamente sencillas, que solo requieren operaciones aritméticas básicas, «es probable que las limitaciones actuales de estos modelos sean más pronunciadas en puntos de referencia matemáticos más desafiantes», tal y como han concluido.
En definitiva, en base a estos hallazgos, el equipo de investigación considera que es necesario desarrollar métodos de evaluación de los LLM «más robustos y adaptables», así como modelos que vayan más allá del reconocimiento de patrones hacia el razonamiento lógico «verdadero», que consideran «el próximo gran desafío» para la comunidad de IA, en palabras de Farajtabar.