登上《自然》!DeepSeek-R1训练方法发布_ZAKER新闻 大语言模型(LLM)的推理能力可通过纯强化学习来提升
创始人
2025-09-18 11:20:16
0

DeepSeek-AI 团队梁文锋及其同事 17 日在《自然》杂志上发表了开源人工智能(AI)模型 DeepSeek-R1 所采用的大规模推理模型训练方法。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和 STEM 领域研究生水平问题等任务上,比传统训练的 LLM 表现更好。

DeepSeek-R1 包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1 在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

在评估 AI 表现的数学基准测试中,DeepSeek-R1-Zero 和 DeepSeek-R1 得分分别为 77.9% 和 79.8%,在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。

来源:科技日报,记者:张梦然

相关内容

热门资讯

董宇辉一场直播,一款真皮沙发卖... 一场直播,一款沙发,一场风波。12 月 10 日晚,公开资料显示,董宇辉团队在家居产品的专场直播中,...
专访北大孙仲:绕开光刻机“卡脖... 当 AI 时代算力集群规模正逐步从万卡向十万卡、百万卡甚至千万卡升级时,一支中国团队悄然另辟蹊径。今...
泡泡玛特开始五折甩卖,二手平台... 今年 12 月,原价 594 元一盒的 Labubu 坐坐派对搪胶毛绒系列,二手平台的均价已经从 1...
武汉一女员工与领导发生矛盾,被... 记者近日查阅中国裁判文书网发现,在一起劳动争议案中,一员工被公司监控摄像头怼脸拍,午休还被监控计时。...
贵州大一男生失联超5个月,其手... 12 月 28 日,贵州仁怀翁女士发文称,儿子杨超已失联超 5 个月。暑假期间,杨超在外租房打工。7...
44岁林俊杰公开网红女友“七七... 12 月 29 日晚,林俊杰在母亲 70 大寿这天,首次公开与女友的温馨合照,正式官宣恋情,照片中四...
男子举报山西襄汾一镇干部酒后上... 见习记者朱荣琛 记者任利12 月 29 日,山西临汾市襄汾县新城镇上庄村的温先生向纵览新闻反映,其父...
大学生收到外卖发现冰凉,申请退... 见习记者 刘世鹏 记者 任利近日,江苏一名大学生发布的一篇 " 后街墨鸭商家骂我早点死 " 的帖文引...
泽连斯基:“和平计划”仅达成9... 据乌克兰国际文传电讯社 29 日报道,乌克兰总统泽连斯基说,领土问题和扎波罗热核电站的运营事宜是 2...
印度新婚女子因高额嫁妆自杀,其... 印度班加罗尔折新娘加娜维(Ganavi)婚后一个月自杀身亡,尽管她的父母为其包办了盛大婚礼,然而还是...