a-m-team 又发新论文了 。纯蒸A呈
这个团队上星期刚刚在 Hugging Face 低沉开源了32B稠密模型,馏模但在多项要害推理评测中打败了 DeepSeek-R1 ,型S现直悉数并与超大规模的接S据已 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 平起平坐,本钱倍数因而赢得了海内外的直降不少重视 。
今日,开源a-m-team 发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的纯蒸A呈论文,介绍了 R1 之后下一代推理模型的馏模小发展。
在这篇论文中,型S现直悉数研讨团队发现依据 AM-Thinking-v1 的接S据已问答数据“纯蒸馏”(即只用SFT)练习出的“学生模型”,居然在多个高难推理使命上挨近乃至到达当时最优水平(SOTA),本钱倍数不只超越了Qwen3-32B ,直降乃至挨近了 Qwen3-235B 这样大一个数量级的开源模型表现。
论文链接 :https://arxiv.org/pdf/2505.14464 。
在大模型才能比赛继续推动的今日,如何故更低的练习本钱获得更强的推理才能 ,成为开源社区面对的中心应战之一。
比较于 SFT+RL 的练习方法,只用 SFT 意味着着数十倍的本钱减缩——也就是说 ,没有强化学习才能的企业级玩家将 AM-Thinking-v1 蒸馏版拿去直接 SFT 后落地