DeepSeek贏麻了，首個(gè)推理模型就超越OpenAI o1

Napoleon Chan / 2024-11-21 17:5498100

今年早些時(shí)候，國內(nèi)科技公司DeepSeek（深度求索）因V2模型一舉成名，成名的原因簡單粗暴，主打高性價(jià)比。在當(dāng)時(shí)，DeepSeek V2的API定價(jià)約等于谷歌的七分之一，GPT-4 Turbo的七十分之一。

時(shí)隔幾個(gè)月，這家被業(yè)界冠以“AI界拼多多”之稱的公司，迅速推出首個(gè)推理模型「DeepSeek-R1預(yù)覽版」。該模型一經(jīng)推出，便在AIME以及全球頂級編程競賽（codeforces）等權(quán)威評測中，大幅超越了GPT4o，甚至o1-preview，一夜之間轟動(dòng)全球。

圖片29.JPG

時(shí)間倒退回今年5月前后，在大模型領(lǐng)域，國內(nèi)各大廠牌內(nèi)卷最兇猛，創(chuàng)立于2023年4月的DeepSeek一戰(zhàn)成名，毫無疑問是當(dāng)時(shí)的“黑馬”。但是，人們提起DeepSeek總是帶著“高性價(jià)比”的標(biāo)簽，不自覺讓大家忽視他們強(qiáng)大的技術(shù)力。

如今，推理模型DeepSeek-R1預(yù)覽版在AIME和MATH這兩個(gè)關(guān)鍵基準(zhǔn)測試上超越了OpenAI o1，大家終于不只以“性價(jià)比”來衡量DeepSeek。

圖片30.JPG

這里簡單解釋一下，AIME在美國數(shù)學(xué)競賽（AMC）中難度等級最高，所以常被用來測試不同模型解決推理問題的性能。DeepSeek-R1預(yù)覽版在解決這些復(fù)雜數(shù)學(xué)問題時(shí)擁有極強(qiáng)的“拆解能力”，能夠?qū)?fù)雜任務(wù)分解為更小的步驟并逐一執(zhí)行，從而提高其準(zhǔn)確性。

同時(shí)，DeepSeek-R1預(yù)覽版的思維過程是完全透明的，允許用戶驗(yàn)證不同階段得出的答案。

圖片31.JPG

值得注意的是，DeepSeek-R1預(yù)覽版與OpenAI o1模型類似，會(huì)根據(jù)問題的復(fù)雜度，在回答前“思考”一會(huì)兒，有時(shí)甚至長達(dá)數(shù)十秒。

就在該預(yù)覽版發(fā)布后不久，DeepSeek便表示計(jì)劃開源DeepSeek-R1并發(fā)布API，果然，這就是開源精神。在中國所有大模型創(chuàng)業(yè)公司中，DeepSeek是為數(shù)不多未做to C應(yīng)用的公司，而且堅(jiān)持開源，深受社區(qū)歡迎。

圖片32.JPG