DeepSeek ha presentado la última versión de su modelo de inteligencia artificial, V3-0324, que incorpora mejoras en precisión, rendimiento y estética en sus interfaces. Esta actualización optimiza la respuesta a la llamada de funciones y ha sido probada por expertos en equipos Mac Studio con chip M3, quienes han destacado su eficiencia.
El modelo DeepSeek V3, lanzado en diciembre de 2023, fue entrenado con 671.000 millones de parámetros utilizando la arquitectura Mixture of Experts (MoE). Este enfoque permite dividir la IA en pequeñas redes neuronales especializadas, lo que mejora su capacidad de respuesta y optimización en distintas tareas.
El modelo también dispone de 37.000 millones de parámetros activados para cada token y, para «lograr una inferencia eficiente y una capacitación rentable», sus responsables recurrieron al mecanismo de atención latente multicabezal (MLA), tal y como explicaron entones en GitHub.
De este modo, DeepSeek V3 alcanza una puntuación de 75.9 frente al 78.0 de Claude 3.5 Sonnet, el 72.6 de GPT 4o y el 73.3 de Llama 3.1 40B. Esto significa que el modelo es capaz de superar a otros de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado.
Los responsables han compartido recientemente una actualización de V3 en Hugging Face. Se trata de V3-0324, una versión que «demuestra mejoras notables sobre su predecesor en varios aspectos clave», tal y como han señalado en esta publicación.
En primer lugar, brinda mejoras «significativas» en el rendimiento de referencia, con valores como un 81,2 en la evaluación de comprensión del lenguaje (MMLU-Pro), frente al 75.9 de V3; un 59,4 en AIME (frente a un 39,6) y un 49,2 en LiveCodeBench (frente a 39,2).
Por otra parte, esta actualización ofrece páginas web y ‘front-ends’ de juegos más estéticamente agradables y tiene una «mayor precisión en la llamada de funciones», de modo que soluciona algunos de los problemas advertidos en versiones anteriores del modelo de lenguaje.
Asimismo, adquiere nuevas competencias en la lengua china, con un estilo mejorado -alineado con el estilo de escritora R1- y una mejor calidad en textos de formato medio a largo. Además, se ha optimizado la reescritura interactiva multi-turno y la calidad de la traducción y la redacción de cartas optimizadas.
El investigador experto en aprendizaje automático de Apple Awni Hanun ha tenido la oportunidad de probar el nuevo modelo de DeepSeek en un ordenador Mac Studio de Apple con chip M3 y ha celebrado que «en cuatro bits ejecuta a más de 20 tokens por segundo».
Por su parte, el programador británico Simon Willison ha indicado que el nuevo DeepSeek V3-0324 es «un monstruo con licencia MIT de 641 GB, que se puede ejecutar en un Mac Studio M3 de 512 GB de nivel de consumidor».