登上《自然》!DeepSeek-R1训练方法发布_ZAKER新闻 大语言模型(LLM)的推理能力可通过纯强化学习来提升
创始人
2025-09-18 11:20:16
0

DeepSeek-AI 团队梁文锋及其同事 17 日在《自然》杂志上发表了开源人工智能(AI)模型 DeepSeek-R1 所采用的大规模推理模型训练方法。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和 STEM 领域研究生水平问题等任务上,比传统训练的 LLM 表现更好。

DeepSeek-R1 包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1 在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

在评估 AI 表现的数学基准测试中,DeepSeek-R1-Zero 和 DeepSeek-R1 得分分别为 77.9% 和 79.8%,在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。

来源:科技日报,记者:张梦然

相关内容

热门资讯

科目三考试顺序是随机的吗 科目... 科目三考试顺序是随机的,是按照一定的顺序进行的。首先,科目三包括道路驾驶技能考试和安全文明驾驶常识考...
如何看油标尺 如何看油标尺 如... 汽车上的油标尺是用来查看润滑油孔存量的一个常用控制量尺,由于油标尺插入孔存在拐弯路径,因而要求油尺插...
科目三科目四联考规定 科目三科... 科目三与科目四联考的相关规定如下:对于符合条件的学员,一旦成功预约科目三考试,系统将自动为其预约同一...
吉利星瑞玻璃水在哪里加 吉利星... 添加玻璃水的位置在发动机舱的左下角。只需打开汽车引擎盖,找到一个标有雨刮器图案的蓝色瓶盖,然后向内添...
丰田卡罗拉车灯怎么关 丰田卡罗... 要关闭丰田卡罗拉的车灯,您只需通过方向盘左侧的灯光组合开关进行调节。轻轻转动顶部的旋钮,即可将自动大...
倒车入库是科目几? 倒车入库是... 倒车入库是科目二中的一个重要考试项目,也是很多人觉得难以掌握的技能。在驾校场地中,学员们需要花费大量...
分动箱油几年换一次 分动箱油几... 分动箱油的更换周期是五到八万公里。如果长时间不更换分动箱油,会对分动箱产生一系列的不良影响。首先,分...
因推动菲中友好遭国内施压,菲学... 直新闻按:" 马科斯政府让美国插手南海问题,为美国与中国的竞争提供支持。在我看来,这非但没有让菲律宾...
美国都要撕裂成两半了,特朗普还... 柯克追悼会 21 日举行,美国安部门如临大敌当地时间 21 日下午,遇刺身亡的美国青年保守派领军人物...
中国国民党主席选举四选一?蓝营... 中国国民党主席选举报名于 9 月 19 日结束,其中共有 6 人登记报名,分别为郑丽文、郝龙斌、张亚...