DeepSeek-R1-Preview-模型亮相-代碼能力與-OpenAI-o1-相當(dāng)且確認(rèn)開(kāi)源

來(lái)源：八星手游網(wǎng) 日期：2025-01-20 14:02:10

DeepSeek 版 o1，有消息了。

還未正式發(fā)布，已在代碼基準(zhǔn)測(cè)試 LiveCodeBench 霸榜前三，表現(xiàn)與 OpenAI o1 的中檔推理設(shè)置相當(dāng)。

注意了，這不是在 DeepSeek 官方 App 已經(jīng)能試玩的 DeepSeek-R1-Lite-Preview（輕量預(yù)覽版）。

而是摘掉了輕量版的帽子，稱為 DeepSeek-R1-Preview（預(yù)覽版），意味著替換了規(guī)模更大的基礎(chǔ)模型。

LiveCodeBench 團(tuán)隊(duì)透露，他們正在與 DeepSeek 合作評(píng)估新模型的能力，在合作過(guò)程中，DeepSeek 團(tuán)隊(duì)還幫他們找出并解決了評(píng)分系統(tǒng)的一些 bug。

與此同時(shí)，他們還曬出了目前僅有的一張 DeepSeek-R1-Preview 的思考過(guò)程。

鑒于 DeepSeek 此前已宣布 R1 模型將開(kāi)源，有網(wǎng)友表示，與 OpenAI o1 編程能力相當(dāng)?shù)拈_(kāi)源模型即將發(fā)布，2025 年的編程就只剩下按 Tab 鍵了。

DeepSeek 推理大模型滿血版

兩個(gè)月前，DeepSeek 在官網(wǎng)上線 DeepSeek-R1-Lite-Preview 時(shí)曾透露：

DeepSeek-R1-Lite-Preview 使用強(qiáng)化學(xué)習(xí)訓(xùn)練，推理含大量反思和驗(yàn)證，遵循新的 Scaling Laws——推理越長(zhǎng)，表現(xiàn)越強(qiáng)。

在 AIME 測(cè)試基準(zhǔn)中，隨著推理長(zhǎng)度的增加，DeepSeek-R1-Lite-Preview 表現(xiàn)出穩(wěn)定的得分提升。

DeepSeek-R1-Lite 推理的特點(diǎn)在網(wǎng)友們的后續(xù)測(cè)試中也得到了驗(yàn)證：

在某些情況下，模型似乎能夠在生成推理步驟時(shí)自我糾正，表現(xiàn)出類似原生“自我反思”的能力。不過(guò)，沒(méi)有訓(xùn)練數(shù)據(jù)、模型架構(gòu)和技術(shù)報(bào)告 / 論文的細(xì)節(jié)，很難確認(rèn)這一點(diǎn)。

期待未來(lái)的開(kāi)源模型和 API！

摘掉 Lite 的帽子，變成 DeepSeek-R1-Preview，意味著換了更大的基礎(chǔ)模型。

之前 Lite 版就在難度較高數(shù)學(xué)和代碼任務(wù)上超越 o1-preview，大幅領(lǐng)先 GPT-4o。

寡妇一级毛片,亚洲va老文色欧美黄大片人人,天天色官网,久久青青草原精品无线观看