国家产激情女熟女伦乱,成人无码精品1区2区3区免费看 ,www.婷婷,国产精品一区二区无码观看秘书,深爱五月婷婷,天堂资源在线欧美亚洲,少妇被躁爽到高潮无码A大乱3,亚洲精品无码一区二区四区,欧美一级二级三级视品,亚洲ⅴ国产v天堂a无码二区

  • <center id="8hghx"></center>

    
    
      <li id="8hghx"><tbody id="8hghx"><th id="8hghx"></th></tbody></li>
      <rt id="8hghx"></rt><li id="8hghx"></li>
      <rt id="8hghx"><tr id="8hghx"></tr></rt>

      1. <rt id="8hghx"><tr id="8hghx"><xmp id="8hghx"></xmp></tr></rt>
        歡迎訪問博易創(chuàng)科技官網(wǎng),專注研發(fā)數(shù)碼打印機(jī)20年!
        全國(guó)咨詢熱線:400-8316492
        聯(lián)系我們
        400-8316492

        手機(jī):13823737137

        郵箱:3485053954@qq.com

        QQ:3485053954

        地址:深圳市龍崗區(qū)橫坪公路89號(hào)數(shù)字硅谷E棟4樓

        當(dāng)前位置:首頁(yè) > 行業(yè)新聞 > 行業(yè)資訊

        復(fù)旦大學(xué)副教授鄭驍慶談DeepSeek:AI行業(yè)不僅有“規(guī)模法則”,開源將加速模型更新,芯片需要可能不降反增

        時(shí)間:2025-02-07 11:02:19 作者:147小編 點(diǎn)擊: 次

        undefined
        undefined
        undefined
        undefined
        undefined

        undefined

         

        每經(jīng)記者:宋欣悅 每經(jīng)編輯:高涵

        照片源自:視覺中國(guó)

        近期,中國(guó)AI初創(chuàng)機(jī)構(gòu)深度求索(DeepSeek)在全世界掀起波濤,硅谷巨頭恐慌,華爾街焦慮。

        短短一月內(nèi),DeepSeek-V3和DeepSeek-R1兩款大模型相繼推出,其成本與動(dòng)輒數(shù)億乃至上百億美元的國(guó)外大模型項(xiàng)目相比堪叫作優(yōu)惠,而性能與國(guó)外頂尖模型相當(dāng)。

        做為“AI界的拼多多”,DeepSeek還動(dòng)搖了英偉達(dá)的“算力信仰”,旗下模型DeepSeek-V3僅運(yùn)用2048塊英偉達(dá)H800 GPU,在短短兩個(gè)月內(nèi)訓(xùn)練完成。除了性價(jià)比超高,DeepSeek得到如此高的關(guān)注度,還有另一個(gè)原由——開源。DeepSeek徹底打破了以往大型語(yǔ)言模型被少許機(jī)構(gòu)壟斷的局面。

        被譽(yù)為“深度學(xué)習(xí)三巨頭”之一的楊立昆(Yann LeCun)在社交平臺(tái)X上暗示,這不是中國(guó)追趕美國(guó)的問題,而是開源追趕閉源的問題。OpenAI首席執(zhí)行官薩姆·奧爾特曼(Sam Altman)則罕見地表態(tài)叫作,OpenAI在開源AI軟件方面“始終站在歷史的錯(cuò)誤一邊”。

        DeepSeek擁有那些創(chuàng)新之處?DeepSeek的開源策略對(duì)行業(yè)有何影響?算力與硬件的主導(dǎo)地位是不是會(huì)逐步被削弱?

        針對(duì)以上疑問,《每日經(jīng)濟(jì)資訊》記者(以下簡(jiǎn)叫作NBD)專訪了復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院副教授、博士生導(dǎo)師鄭驍慶。他認(rèn)為,DeepSeek在工程優(yōu)化方面取得了明顯成果,尤其是在降低訓(xùn)練和推理成本方面?!霸跇I(yè)界存在著兩個(gè)法則,一個(gè)是規(guī)模法則(Scaling Law),另一一個(gè)法則指的是,隨著技術(shù)的持續(xù)發(fā)展,在既有技術(shù)基本連續(xù)改進(jìn),能夠大幅降低成本?!?/p>

        針對(duì)DeepSeek選取的開源策略,鄭驍慶指出,“開源模型能夠吸引全世界頂尖人才進(jìn)行優(yōu)化,對(duì)模型的更新和迭代有加速功效另外,開源模型的透明性有助于消除運(yùn)用安全的顧慮,促進(jìn)全世界范圍內(nèi)人工智能技術(shù)的公平應(yīng)用。

        盡管DeepSeek的模型降低了算力需要,但鄭驍慶強(qiáng)調(diào),AI模型仍需要必定的硬件基本來(lái)支持大規(guī)模訓(xùn)練和推理。另外,大規(guī)模數(shù)據(jù)中心和預(yù)訓(xùn)練仍是AI發(fā)展的重要構(gòu)成部分,但將來(lái)可能會(huì)更注重高質(zhì)量數(shù)據(jù)的微調(diào)和強(qiáng)化學(xué)習(xí)。

        展開全文

        鄭驍慶 照片源自:受訪者供圖

        規(guī)模法則之外,還有另一個(gè)法則

        NBD:微軟CEO薩提亞·納德拉在微軟2024年第四季度財(cái)報(bào)tel會(huì)上說(shuō)到,DeepSeek“有有些真正的創(chuàng)新”。在您看來(lái),DeepSeek有那些創(chuàng)新點(diǎn)呢?

        鄭驍慶:在深入研讀DeepSeek的技術(shù)報(bào)告后,咱們發(fā)掘,DeepSeek在降低模型訓(xùn)練和推理成本方面采用的辦法,大多基于業(yè)界已有的技術(shù)探索。例如,鍵值緩存(Key-Value cache)管理,對(duì)緩存數(shù)據(jù)進(jìn)行壓縮。另一個(gè)是混合專家模型(MoE,Mixture of Experts),實(shí)質(zhì)指的是,在推理的時(shí)候,只需運(yùn)用模型的某一個(gè)特定的模塊,而不需要所有模型的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)都參與這個(gè)推理過程。

        另外,Deepseek還采用了FP8混合精度訓(xùn)練的技術(shù)手段。這些其實(shí)之前都有所探索,而DeepSeek的創(chuàng)新之處就在于,很好地將這些能夠降低技術(shù)和推理成本的技術(shù)整合起來(lái)。

        NBD:您認(rèn)為DeepSeek現(xiàn)周期的技術(shù)水平上是不是已然接近達(dá)到了全世界領(lǐng)先水平呢?

        鄭驍慶:DeepSeek日前在現(xiàn)有技術(shù)基本上,包含網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練算法方面,實(shí)現(xiàn)了一種階段性的改進(jìn),并非是一種本質(zhì)上的顛覆性創(chuàng)新,這一點(diǎn)是比較知道的。其改進(jìn)重點(diǎn)是針對(duì)特定任務(wù),例如,DeepSeek在數(shù)學(xué)、代碼處理以及推理任務(wù)等方面,提出了一種在性能與成本上相對(duì)平衡的處理方法。然而,它在開放行業(yè)(open domain)上的表現(xiàn),優(yōu)良并不是非常顯著

        在業(yè)界存在著兩個(gè)法則,一個(gè)是規(guī)模法則(Scaling Law),即模型的參數(shù)規(guī)模越大、訓(xùn)練數(shù)據(jù)越多,模型就會(huì)更好。另一一個(gè)法則指的是,隨著技術(shù)的持續(xù)發(fā)展,在既有技術(shù)基本連續(xù)改進(jìn),能夠大幅降低成本

        例如說(shuō),以GPT-3為例,初期它的成本就很高。但隨著科研的深入,科研人員逐步清楚那些東西是工作的,那些東西是不工作的。科研人員基于過往的成功經(jīng)驗(yàn),科研目的會(huì)逐步清晰,成本實(shí)質(zhì)會(huì)隨之降低。

        DeepSeek的成功,我更覺得可能是工程優(yōu)化上的成功。當(dāng)然非常高興看到中國(guó)的科技企業(yè)在大模型的時(shí)代,在性能與成本的平衡方面取得了明顯發(fā)展,持續(xù)推動(dòng)大模型的運(yùn)用和訓(xùn)練成本下降。符合剛才我說(shuō)到的第二個(gè)法則的狀況之下,步行到世界前列。

        DeepSeek有效平衡性能和成本,但對(duì)芯片需要影響不大

        NBD:DeepSeek旗下模型的最大亮點(diǎn)之一是在訓(xùn)練和推理過程中明顯降低了算力需要。您認(rèn)為這種低成本大效能的技術(shù)創(chuàng)新,長(zhǎng)時(shí)間來(lái)看,會(huì)對(duì)英偉達(dá)等芯片機(jī)構(gòu)產(chǎn)生什么影響呢?

        鄭驍慶:我個(gè)人認(rèn)為,它并不會(huì)對(duì)芯片采購(gòu)量或出貨量產(chǎn)生太大的影響。

        首要,像DeepSeek類似的機(jī)構(gòu),在尋找有效的整合處理方法時(shí),需要進(jìn)行海量的前期科研與消融實(shí)驗(yàn)。所說(shuō)的消融實(shí)驗(yàn),即指經(jīng)過一系列測(cè)試來(lái)確定哪個(gè)方法是有效的以及那些方法的整合是有效的。而這些測(cè)試就非常依賴于芯片,由于芯片越多,迭代次數(shù)就越多,就越容易曉得哪個(gè)東西工作哪個(gè)東西不工作。

        例如說(shuō),DeepSeek的訓(xùn)練預(yù)算不到600萬(wàn)美元。它的技術(shù)報(bào)告中說(shuō)到,不到600萬(wàn)美元的資金,是根據(jù)GPU的小時(shí)數(shù)(每小時(shí)兩美元)來(lái)估算的。便是說(shuō),她們基于之前的非常多科研,把整條訓(xùn)練流程都已然搞清楚的狀況之下(那些是工作,那些不工作的),重新走一遍。它的GPU的運(yùn)算速度是多少,運(yùn)算小時(shí)數(shù)是多少,而后再乘以每小時(shí)兩美元得到的這個(gè)結(jié)果。報(bào)告中說(shuō)到了,600萬(wàn)美元其實(shí)無(wú)包括先期科研成本,例如,在結(jié)構(gòu)上的探索、在算法上的探索、在數(shù)據(jù)上采收集上的探索的成本,無(wú)涵蓋消融實(shí)驗(yàn)的開銷以及設(shè)備的折舊費(fèi)因此,我個(gè)人判斷,對(duì)英偉達(dá)其實(shí)影響不是那樣大。

        另一,DeepSeek的科研顯示,非常多中小企業(yè)都能用得起這般的大模型。盡管訓(xùn)練成本的下降可能會(huì)暫時(shí)減少對(duì)GPU的需要,但大模型變得更加經(jīng)濟(jì),會(huì)使本來(lái)由于模型成本太高而不打算運(yùn)用大模型的企業(yè),加入到運(yùn)用模型的行列,反而會(huì)增多針對(duì)芯片的需要。

        NBD:隨著DeepSeek-V3、R1等低成本大模型的面世,傳統(tǒng)的大規(guī)模數(shù)據(jù)中心和高投入的大模型訓(xùn)練是不是仍然值得繼續(xù)推進(jìn)呢?

        鄭驍慶:我覺得仍然值得。由于首要DeepSeek模型是語(yǔ)言模型,還無(wú)擴(kuò)展到多模態(tài),乃至咱們以后要科研世界模型。那樣一旦引入多模態(tài)之后,對(duì)算力的需求基本設(shè)備需求就會(huì)成指數(shù)的增長(zhǎng)。由于人工智能不可能僅僅局限于語(yǔ)言體本身,語(yǔ)言只是智慧的一種表現(xiàn),而在這方面的探索仍然需要這般的一個(gè)基本設(shè)備。

        剛才說(shuō)到DeepSeek其實(shí)是在非常多先期研究的基本之上,找到了一條性能和成本平衡的一個(gè)處理方法先期科研包含各樣各樣的嘗試,怎么樣去加速它呢?這個(gè)還是需要強(qiáng)大的硬件支持。否則,每迭代一次,就可能需要長(zhǎng)達(dá)一年多的時(shí)間,這顯然是沒法趕上此刻AI軍備競(jìng)賽的。而倘若有幾萬(wàn)張卡,迭代可能幾天就完成為了。

        另一便是應(yīng)用方面。即便是模型的推理成本再低,當(dāng)需要支持?jǐn)?shù)千、數(shù)萬(wàn)乃至更大規(guī)模的并發(fā)運(yùn)用時(shí),仍然需要一個(gè)配備海量顯卡的強(qiáng)大基本架構(gòu)來(lái)保證穩(wěn)定運(yùn)行。

        我覺得大規(guī)模預(yù)訓(xùn)練這一波潮流可能會(huì)弱化,可能不會(huì)作為下一步大眾爭(zhēng)奪的主戰(zhàn)場(chǎng)。之前這個(gè)行業(yè)曾是競(jìng)爭(zhēng)激烈的戰(zhàn)場(chǎng),但此刻看來(lái),成本和產(chǎn)出之間的比例正逐步趨于緊縮。然則后面兩步——高質(zhì)量數(shù)據(jù)的微調(diào)和基于強(qiáng)化學(xué)習(xí)的人類偏好對(duì)齊,我相信將來(lái)會(huì)有更加多的投入

        照片源自:視覺中國(guó)

        開源加速模型更新和迭代,降低安全顧慮

        NBD:DeepSeek采用開源模式,與許多國(guó)外大模型巨頭閉源的做法區(qū)別。您怎么看開源模型在推動(dòng)AI行業(yè)發(fā)展中的功效?

        鄭驍慶:DeepSeek日前受到了廣泛地關(guān)注和認(rèn)可。從開源模型與閉源模型的方向來(lái)看,咱們觀察到,開源模型在累積了以往科研成果的基本上,在目的知道狀況之下,借助于各樣訓(xùn)練技巧以及模型結(jié)構(gòu)上的優(yōu)化,尤其是吸收先前科研者在大模型行業(yè)已驗(yàn)證有效的原理和辦法開源模型已能夠大致追上閉源模型。

        開源模型最大的好處就在于,一旦模型開源,全世界的頂尖人才都能基于這些代碼進(jìn)行進(jìn)一步的迭代與優(yōu)化,這無(wú)疑加速了這個(gè)模型的更新與發(fā)展進(jìn)程。相比之下,閉源模型肯定是無(wú)這般的能力的,只能靠持有這個(gè)閉源模型所屬公司的內(nèi)部人才去推動(dòng)模型的迭代,迭代速度相對(duì)受限。

        另一,開源模型透明開放,緩解了公眾針對(duì)大模型運(yùn)用安全的有些顧慮。倘若模型閉源,大眾運(yùn)用過程其中可能或多或少會(huì)有有些顧慮。況且開源模型針對(duì)人工智能的普及以及全世界范圍內(nèi)的公平應(yīng)用起到了非常好的促進(jìn)功效,尤其是技術(shù)平權(quán)方面。便是說(shuō),當(dāng)一項(xiàng)科學(xué)技術(shù)發(fā)展起來(lái)以后,全世界的人,不管來(lái)自哪個(gè)國(guó)家、身處何地,都應(yīng)用享有平等地享受這種技術(shù)所帶來(lái)的優(yōu)良及其產(chǎn)生的經(jīng)濟(jì)效益。

        此刻的AI競(jìng)爭(zhēng)是在中國(guó)的中國(guó)人和在美國(guó)的中國(guó)人競(jìng)爭(zhēng)

        NBD:DeepSeek團(tuán)隊(duì)成員多為國(guó)內(nèi)頂尖高校的應(yīng)屆畢業(yè)生、在校博士生。您認(rèn)為中國(guó)AI是不是存在獨(dú)特的競(jìng)爭(zhēng)優(yōu)良

        鄭驍慶:我覺得咱們的AI上面的競(jìng)爭(zhēng)優(yōu)良,其實(shí)是咱們的人才數(shù)量上的優(yōu)良。這幾年,從我個(gè)人來(lái)看,咱們的高等教育,包含碩士、博士的培養(yǎng),有了長(zhǎng)足進(jìn)步。此刻從中國(guó)的頭部高校來(lái)看,對(duì)博士生、碩士生的培養(yǎng)已然比較接近于美國(guó)。

        這般狀況之下,咱們基本高等教育質(zhì)量的提高,使得咱們貯存海量的人才。在這般的過程其中,咱們能夠?qū)ΜF(xiàn)有的技術(shù)進(jìn)行快速的消化。

        實(shí)質(zhì)上,美國(guó)許多大模型科研團(tuán)隊(duì),不乏有華人的身影。大眾開玩笑說(shuō),此刻的人工智能競(jìng)爭(zhēng)是在中國(guó)的中國(guó)人和在美國(guó)的中國(guó)人競(jìng)爭(zhēng)。要說(shuō)劣勢(shì),其實(shí)我覺得還是很遺憾的,那便是咱們很少能有顛覆性的創(chuàng)新。

        每日經(jīng)濟(jì)新聞返回外鏈論壇: http://www.fok120.com,查看更加多

      2. 免責(zé)聲明:部分文章信息來(lái)源于網(wǎng)絡(luò)以及網(wǎng)友投稿,本網(wǎng)站只負(fù)責(zé)對(duì)文章進(jìn)行整理、排版、編輯,是出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真
      3. 實(shí)性,如本站文章和轉(zhuǎn)稿涉及版權(quán)等問題,請(qǐng)作者在及時(shí)聯(lián)系本站,我們會(huì)盡快刪除處理問答,若不聯(lián)系則默認(rèn)允許本站轉(zhuǎn)載。
      4. 上一篇:女子出門找工作,回家卻如同醉酒!送醫(yī)發(fā)掘真相不簡(jiǎn)單……
      5. 下一篇:《華爾街日?qǐng)?bào)》社論炮轟特朗普:開啟了史上最愚蠢的貿(mào)易戰(zhàn)
      6. 中文乱码在线中文字幕中文乱码| 亚洲av永久免费在线| 国产黄色大片免费网站| 国产蜜臀午夜麻豆精品| 国产午夜视频免费视频| 国产av熟女一区二区三| 国产成人 综合 亚洲欧洲| 欧洲熟妇色| 亚洲男人堂色偷偷一区| 国产精品麻豆中文字幕| 亚洲一区二区三区三级| 久久人妻一区两区三区| 国产优质女主播在线观看| 日本狂喷奶水在线播放212 | 免费无码久久成人网站| 亚洲人五月天一区二区| 激情福利一区二区三区| 午夜剧场亚洲狼人一区| 日韩有码中文在线观看| 亚洲熟妇夜夜一区二区三区 | 亚洲五月中文字幕在线| 欧美一区二区三区大屁股| 亚洲国产成人精品天堂| 国产大陆av一区二区三区| 最大色网男人的av天堂| 亚洲欧美日韩一区二区三区欧美| 自拍偷拍中国熟妇视频| 四虎亚洲精品永久免费| 亚洲欧美日韩在线网站| 日韩偷拍一区二区三区视频 | 超碰人人一区二区三区| 亚洲自拍成人在线视频| 亚洲乱码AV一区二区| 色老汉亚洲av影院天天精品| 一区二区三区婷婷在线| av一区二区亚洲精品| 蜜臀少妇人妻在线| 亚洲精品一区二区三区色| 国产亚洲精品自在久久| 亚洲黄色片大全在线观看| 精品少妇人妻AV无码专区|