
El proyecto Open R1 se centra actualmente en perfeccionar la canalización del entrenamiento y la generación de datos sintéticos de DeepSeek R1, lo que incluye el lanzamiento del conjunto de datos OpenR1-Math-220k destinado a mejorar las capacidades de razonamiento matemático. Este conjunto de datos, generado en 512 GPU H100, incluye un gran número de problemas y permite múltiples respuestas por pregunta para facilitar los procesos de filtrado y entrenamiento. La principal innovación de OpenR1-Math-220k reside en su metodología de generación de datos de razonamiento de alta calidad, que pretende extenderse más allá de las matemáticas a otros dominios.
El desarrollo del conjunto de datos implicó la generación de soluciones para 400.000 problemas al tiempo que se implementaba un límite máximo de tokens para un procesamiento eficaz. El proyecto utilizó Math Verify para realizar comprobaciones de calidad, confirmando que el 55% de las respuestas eran correctas, a pesar de que algunas respuestas reales estaban vacías o no habían sido verificadas. Además, un método de verificación alternativo que utilizaba Llama-3.3-70B-Instruct mejoró la calidad de las respuestas de muestras previamente rechazadas.
Los debates de la comunidad también exploran el potencial de conjuntos de datos de razonamiento más pequeños y de alta calidad para mejorar el rendimiento de los modelos. Estudios recientes ponen de relieve que un número limitado de ejemplos cuidadosamente seleccionados puede ser más eficaz que la formación a gran escala para obtener un razonamiento avanzado. Este enfoque, centrado sobre todo en el forzamiento del presupuesto y el control de la longitud de la cadena de pensamiento, indica un cambio prometedor en el desarrollo de las capacidades de razonamiento dentro de los grandes modelos lingüísticos.
La comunidad sigue investigando diversos hiperparámetros y funciones de recompensa para optimizar la formación de modelos y experimentar con estrategias clásicas de destilación. Este discurso potencia la colaboración y la innovación, impulsando la misión del proyecto de amplificar el razonamiento matemático en los sistemas de IA.