在线借钱炒股 强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
2025-02-21编辑:KingHZ 英智在线借钱炒股 【新智元导读】强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了! DeepSeek-R1带火了使用强化学习训练LLM。在训练中,AI灵机一动,让作者耳目一新,甚至因此惊叹到:这就是强化学习的力与美! DeepSeek-R1-Zero惊艳了研究人员 然而,对RL训练的理解存在空白:这些工作的训练数据的透明度有限,