DeepSeek R1 論文《DeepSeek-R1 incentivizes reasoning in LLMsthrough reinforcement learning》登上了nature 封面,梁文鋒是通訊作者,這是首個經過同行評議的具有全球影響力的LLM
這篇論文在今年2月份提交,今天終于見刊了
Nature 今天這篇論文更新了今年一月發布的預印本,該預印本描述了DeepSeek如何增強一個標準的大語言模型(LLM)來處理推理任務。其補充材料首次詳細披露了R1的訓練成本:僅相當于29.4萬美元。R1所基于的基礎LLM花費了約600萬美元,這筆費用是在此基礎上的額外成本,但總金額仍遠低于外界猜測的競爭對手模型數千萬美元的成本。R1主要使用英偉達的H800芯片進行訓練
截至目前,R1是AI社區平臺Hugging Face上最受歡迎的同類模型,下載量已達1090萬次
嚴格的審查
R1被認為是首個經歷同行評審過程的重要LLM?!斑@是一個非常值得歡迎的先例,”《自然》論文的審稿人之一、Hugging Face的機器學習工程師Lewis Tunstall說?!叭绻覀儧]有這種將大部分過程公之于眾的規范,就很難評估這些系統是否會帶來風險?!?/p>
為回應同行評審的意見,DeepSeek團隊減少了描述中的擬人化表述,并補充了技術細節的說明,包括模型訓練所用的數據類型及其安全性?!敖洑v嚴格的同行評審過程,無疑有助于驗證模型的有效性和實用性,”俄亥俄州立大學哥倫布分校的AI研究員Huan Sun說?!捌渌疽矐撨@樣做?!?/p>
DeepSeek的主要創新在于,使用了一種被稱為“純粹強化學習”的自動化試錯方法來創建R1。該過程通過獎勵模型得出正確答案,而非教它遵循人類挑選的推理示例。模型正是通過這種方式學會了自身的類推理策略,例如如何在不遵循人類預設策略的情況下驗證自己的演算過程。為提高效率,模型還使用估算值來為自己的嘗試打分,而不是使用一個獨立的算法來完成這項工作,這項技術被稱為“組相對策略優化”(group relative policy optimization)
到目前為止,2025年幾乎所有在LLM中進行強化學習的研究,都可能或多或少地受到了R1的啟發
訓練技術
今年一月的媒體報道曾暗示,OpenAI研究人員認為,DeepSeek使用了OpenAI模型的輸出來訓練R1,這種方法可以在使用更少資源的情況下,加速提升模型的能力
在與審稿人的交流中,DeepSeek研究人員聲明,R1并非通過復制OpenAI模型生成的推理示例也就是所謂的蒸餾來學習的,和大多數其他LLM一樣,R1的基礎模型是在網絡上訓練的
Sun表示,這一反駁“與我們在任何出版物中能看到的(聲明)一樣具有說服力”。自然審稿人Tunstall補充說,盡管他不能百分之百確定R1沒有用OpenAI的示例進行訓練,但其他實驗室的復現嘗試表明,DeepSeek的推理配方已經足夠好,無需這樣做。他說:“我認為現在的證據已經相當清楚,僅使用純粹強化學習就能獲得非常高的性能?!?/p>
Sun表示,對研究人員來說,R1仍然非常有競爭力。在一個名為ScienceAgentBench的挑戰中,要求模型完成分析和可視化數據等科學任務。Sun和他的同事發現,雖然R1的準確率不是第一,但在平衡能力與成本方面,它是表現最好的模型之一
自然審稿人Tunstall說,其他研究人員現在正嘗試應用創建R1所使用的方法,來提升現有LLM的類推理能力,并將其擴展到數學和編程以外的領域。他補充道,從這個意義上說,R1“引發了一場革命”。
參考:
https://www.nature.com/articles/d41586-025-03015-6?utm_source=x&utm_medium=social&utm_campaign=nature&linkId=16828397