若天是西湖大学和浙江大学联培博士生,任毅是不列颠哥伦比亚大学博士,郁昼亮是香港中文大学博士生,刘威杨是香港中文大学计算机系助理教授,温研东是西湖大学人工智能系助理教授
随着 Deepseek-R1,Kimi1.5 等模型展示了强化学习在提升大型语言模型复杂推理能力上的巨大潜力,使用可验证强化学习(RLVR)在数学、逻辑与编程等领域进行训练提升模型性能受到了广泛关注。
然而,尽管现有 RLVR 方法在提升模型的 pass@1 性能(单次尝试正确的概率)方面取得了显著成果,但其在 pass@K(K 次尝试中至少一次正确的概率,K>1)上的性能相比基础模型却下降了。
这一现象表明,虽然模型在「利用」(Exploitation)单一正确路径的能力有所增强,但牺牲了对多样化正确解的「探索」(Exploration)能力。
针对这一问题,研究团队从「模型预测下一个词的概率分布」这一新视角出发,深入研究了「探索」能力下降的内在机制。大量实验发现,经过现有 RLVR 算法训练后的模型,多数存在概率集中于单一推理路径的问题。
受该现象启发,研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization),显著优化了 pass@K(K=1 及 K>1)性能。