11月27日晚 ,DeepSeek悄悄地在Hugging Face 上開源了一個(gè)新模型:DeepSeek-Math-V2。這是一個(gè)數(shù)學(xué)方面的模型,也是目前行業(yè)首個(gè)達(dá)到IMO(國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽)金牌水平且開源的模型 。
在同步發(fā)布的技術(shù)論文中,DeepSeek表示,Math-V2的部分性能優(yōu)于谷歌旗下的Gemini DeepThink ,并展示了模型在IMO-ProofBench基準(zhǔn)以及近期數(shù)學(xué)競(jìng)賽上的表現(xiàn)。
具體來看,在其中的Basic基準(zhǔn)上,DeepSeek-Math-V2 遠(yuǎn)勝其他模型 ,達(dá)到了近99%的高分,而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分?jǐn)?shù)為89%。但在更難的 Advanced 子集上,Math-V2分?jǐn)?shù)為61.9% ,略遜于 Gemini Deep Think (IMO Gold)的65.7%。
在這篇名為《DeepSeek Math-V2:邁向可自驗(yàn)證的數(shù)學(xué)推理》的論文中,DeepSeek指出,大語言模型已經(jīng)在數(shù)學(xué)推理方面取得了重大進(jìn)展 ,這是人工智能的重要試驗(yàn)臺(tái),如果進(jìn)一步推進(jìn),可能會(huì)對(duì)科學(xué)研究產(chǎn)生影響 。
但當(dāng)前的AI在數(shù)學(xué)推理方面有著研究局限:以正確的最終答案作為獎(jiǎng)勵(lì) ,正確的答案卻不能保證正確的推理。許多數(shù)學(xué)任務(wù),如定理證明,需要嚴(yán)格的分步推導(dǎo),而不是數(shù)字答案 ,這使得最終答案獎(jiǎng)勵(lì)不適用。
為了突破深度推理的極限,DeepSeek認(rèn)為有必要驗(yàn)證數(shù)學(xué)推理的全面性和嚴(yán)謹(jǐn)性 。團(tuán)隊(duì)提出,自我驗(yàn)證對(duì)于擴(kuò)展測(cè)試時(shí)間計(jì)算尤為重要 ,特別是對(duì)于那些沒有已知解決方案的開放問題。
此次DeepSeek推出的Math-V2就從結(jié)果導(dǎo)向轉(zhuǎn)向了過程導(dǎo)向,展示了強(qiáng)大的定理證明能力。這一模型不依賴大量的數(shù)學(xué)題答案數(shù)據(jù),而是通過教會(huì)AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程 ,從而在沒有人類干預(yù)的情況下,也能不斷提升解決高難度數(shù)學(xué)證明題的能力 。
論文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌級(jí)成績(jī) ,在Putnam 2024上通過擴(kuò)展測(cè)試計(jì)算實(shí)現(xiàn)了接近滿分的成績(jī)(118/120)。
DeepSeek認(rèn)為,雖然仍有許多工作要做,但這些結(jié)果表明 ,可自我驗(yàn)證的數(shù)學(xué)推理是一個(gè)可行的研究方向,可能有助于開發(fā)更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)。
對(duì)于DeepSeek此次的動(dòng)作,海外的反應(yīng)是“鯨魚終于回來了 ” 。有網(wǎng)友感慨,DeepSeek以10個(gè)百分點(diǎn)的優(yōu)勢(shì)擊敗了谷歌的IMO Gold 獲獎(jiǎng)模型DeepThink ,這不在預(yù)測(cè)范圍內(nèi)?!跋胂笠幌?,當(dāng)他們公布編程模型時(shí)會(huì)發(fā)生什么,我打賭他們絕對(duì)有編程模型。”
目前 ,行業(yè)頭部廠商的模型已經(jīng)又迭代了一輪,11月,先是OpenAI發(fā)布了GPT-5.1 ,幾天后xAI發(fā)布Grok 4.1,就在上周谷歌發(fā)布了Gemini 3系列引爆AI圈,“也該輪到DeepSeek出牌了” 。不過 ,更受外界關(guān)注的仍然是,DeepSeek的旗艦?zāi)P偷降资裁磿r(shí)候更新,行業(yè)期待“鯨魚”的下一個(gè)動(dòng)作。
東財(cái)圖解·加點(diǎn)干貨(文章來源:第一財(cái)經(jīng))
雙悅網(wǎng)配資-配資平臺(tái)_炒股配資平臺(tái)_配資炒股公司提示:文章來自網(wǎng)絡(luò),不代表本站觀點(diǎn)。
雙悅網(wǎng)配資-配資平臺(tái)_炒股配資平臺(tái)_配資炒股公司?股票配資平臺(tái)提供多樣化的配資產(chǎn)品,滿足不同客戶的投資需求,助力客戶實(shí)現(xiàn)多元化投資。
3月24日,海洋王照明科技股份有限公司(以下簡(jiǎn)稱“海洋王”,002724.SZ)早盤一字跌停,此后股價(jià)拉漲,尾盤封漲停板...
當(dāng)?shù)貢r(shí)間3月24日,特斯拉美股漲幅擴(kuò)大至5%,現(xiàn)報(bào)262.055美元/股。...
國(guó)海富蘭克林基金國(guó)富深化價(jià)值基金經(jīng)理劉曉日前發(fā)表了對(duì)?2025?年市場(chǎng)的展望。劉曉指出,國(guó)內(nèi)經(jīng)濟(jì)正處于復(fù)蘇通道,市場(chǎng)大幅...
記者辛圓3月25日,博鰲亞洲論壇旗艦報(bào)告《亞洲經(jīng)濟(jì)前景及一體化進(jìn)程2025年度報(bào)告》(以下簡(jiǎn)稱《報(bào)告》...
記者王珍中國(guó)國(guó)際經(jīng)濟(jì)交流中心副理事長(zhǎng)、國(guó)務(wù)院發(fā)展研究中心原副主任王一鳴周一在“中國(guó)發(fā)展高層論壇2025...
【隔夜行情】?周五(2025年3月21日),A股三大指數(shù)集體下跌,截至收盤,截止收盤,滬指跌1.29%,報(bào)收33...
3月24日,AI眼鏡概念股開盤拉升,瀛通通訊直線漲停,明月鏡片漲超10%,比依股份、博士眼鏡、恒玄科技、國(guó)光電器等跟漲。...
近日,開源證券大連分公司遭大連證監(jiān)局處罰,暫停其辦理需要合格投資者認(rèn)定相關(guān)業(yè)務(wù)六個(gè)月。該懲處力度在近年來券商分支機(jī)構(gòu)中并...
記者|趙陽戈年初,證監(jiān)會(huì)就修改《證券發(fā)行與承銷管理辦法》部分條款向社會(huì)公開征求意見,市場(chǎng)也將注意力投向了...
記者辛圓給補(bǔ)貼、建平臺(tái),為了吸引更多高層次人才,各地紛紛放出“大招”。據(jù)央廣網(wǎng)周一發(fā)布消息,湖...
3月24日,易方達(dá)國(guó)證自由現(xiàn)金流ETF公開發(fā)售。該產(chǎn)品跟蹤國(guó)證自由現(xiàn)金流指數(shù),這個(gè)指數(shù)是什么?有哪些優(yōu)勢(shì)?投資價(jià)值如何?...
2025年3月25日,倍輕松(688793.SH)公告稱,公司股東寧波倍松投資有限公司(簡(jiǎn)稱“寧波倍松”)擬通過大宗交易...
國(guó)務(wù)院新聞辦公室9日發(fā)布《關(guān)于中美經(jīng)貿(mào)關(guān)系若干問題的中方立場(chǎng)》白皮書,澄清中美經(jīng)貿(mào)關(guān)系事實(shí),闡明中方對(duì)相關(guān)問題的政策立場(chǎng)...
滬深兩市成交額連續(xù)第44個(gè)交易日突破1萬億,較昨日此時(shí)縮量超900億。...
3月24日,業(yè)內(nèi)權(quán)威專家表示,MLF(中期借貸便利)不再有統(tǒng)一的中標(biāo)利率,標(biāo)志著MLF利率的政策屬性完全退出。3月24日...