每日經(jīng)濟(jì)新聞 2025-02-13 14:51:58
近日,中國AI初創(chuàng)公司深度求索(DeepSeek)訓(xùn)練出性能可與海外頭部企業(yè)模型相媲美的模型,吸引全球目光。該模型降低了算力需求,但FutureLabs未來實(shí)驗(yàn)室首席專家胡延平在接受每經(jīng)記者采訪時(shí)指出,算力與硬件仍在增強(qiáng)。他同時(shí)提到,低成本、高效能的技術(shù)創(chuàng)新,促使思考和重估算力基礎(chǔ)設(shè)施投資,AI應(yīng)用進(jìn)入快速導(dǎo)入期。未來,AI將走向內(nèi)生智能和自主智能。
每經(jīng)記者 宋欣悅 每經(jīng)編輯 蘭素英
近日,中國AI初創(chuàng)公司深度求索(DeepSeek)用“白菜價(jià)”的成本,訓(xùn)練出性能可與海外頭部企業(yè)OpenAI和谷歌旗下頂尖模型相媲美的模型,成功吸引了全球的目光。
百度創(chuàng)始人李彥宏在World Governments Summit 2025峰會(huì)上稱,如今,每12個(gè)月,大模型的推理成本就可以降低90%以上。OpenAI首席執(zhí)行官薩姆·奧爾特曼(Sam Altman)表示,隨著AI成本的持續(xù)下降,AI將得到更頻繁的使用。
目前,包括華為、榮耀、OPPO、魅族在內(nèi)的眾多國產(chǎn)手機(jī)均已官宣接入DeepSeek-R1。此外,吉利、極氪、寶駿等車企也宣布完成與DeepSeek模型的深度融合。
盡管DeepSeek在提高AI模型效率方面取得了突破,但李彥宏仍然堅(jiān)持認(rèn)為,持續(xù)投資AI基礎(chǔ)設(shè)施對于保持競爭力至關(guān)重要。奧爾特曼也表示,對AI基礎(chǔ)設(shè)施進(jìn)行大規(guī)模投資“仍然很重要”。
DeepSeek有哪些創(chuàng)新點(diǎn)?隨著模型訓(xùn)練成本的降低,AI應(yīng)用開發(fā)是否將迎來類似“安卓時(shí)刻”的爆發(fā)?未來的AI發(fā)展又將走向哪些方向?
胡延平 圖片來源:受訪者供圖
針對上述疑問,《每日經(jīng)濟(jì)新聞》記者(以下簡稱NBD)專訪了FutureLabs未來實(shí)驗(yàn)室首席專家胡延平。他認(rèn)為,Deepseek幾乎每一個(gè)有所突破的方向都不是首創(chuàng),但DeepSeek在這幾個(gè)重要方向都有進(jìn)一步創(chuàng)新。
他提到,盡管DeepSeek的模型降低了算力需求,但胡延平強(qiáng)調(diào),算力與硬件不僅沒有被削弱,反倒在增強(qiáng),總體趨勢是算力需求依然呈現(xiàn)大幅增長。
對于DeepSeek及其他低成本、高效能、開源模型帶來的影響,胡延平指出,以基座模型為基礎(chǔ),后訓(xùn)練、微調(diào)以及與檢索增強(qiáng)生成(RAG)、智能體(Agent)等結(jié)合的個(gè)性化垂類模型及其應(yīng)用場景,很快將成為一個(gè)數(shù)量龐大的后市場。
對于AI的未來發(fā)展方向,胡延平認(rèn)為,通用人工智能(AGI)、超級(jí)人工智能(ASI)不是終極目標(biāo),也不是根本目的。如果以更長的時(shí)間尺度來看,目前的AI,未來將走向內(nèi)生智能(EI),更遠(yuǎn)的將來是自主智能(II)。
NBD:DeepSeek旗下模型因低算力訓(xùn)練和強(qiáng)推理能力引發(fā)了熱議。從技術(shù)上來講,您認(rèn)為DeepSeek有哪些創(chuàng)新?
胡延平:DeepSeek幾乎每一個(gè)有所突破的方向都不是首創(chuàng),但DeepSeek在這幾個(gè)重要方向都有進(jìn)一步創(chuàng)新。
一是全球最大體量的開源混合專家模型(MoE),且內(nèi)置中樞小模型;二是預(yù)訓(xùn)練FP8與FP32混合精度,既節(jié)約算力又確保了模型的高性能;三是采用結(jié)果激勵(lì),而不是過程激勵(lì)的強(qiáng)化學(xué)習(xí)后訓(xùn)練機(jī)制,催生了模型的長思考多步推理能力;四是高效蒸餾技術(shù);五是多頭注意力機(jī)制;六是多Token預(yù)測;七是匯編PTX(并行線程執(zhí)行),提高算力效率。
DeepSeek的V3和R1處在大語言模型(LLM)AI 2.0初始周期的一線水平,追平了OpenAI的GPT-4o,具備o1的部分能力。但不及o3系列,且沒有多模態(tài)能力,也不能進(jìn)行語音交互等,所以還不算是全球領(lǐng)先水平。
NBD:您認(rèn)為DeepSeek低成本、高效能的技術(shù)創(chuàng)新,將對英偉達(dá)等依賴高端GPU的公司產(chǎn)生怎樣的影響?
胡延平:大語言模型的單位智能的訓(xùn)練和推理成本一直在持續(xù)降低,DeepSeek的貢獻(xiàn)是這個(gè)趨勢的一部分,促使思考和重估算力基礎(chǔ)設(shè)施投資。英偉達(dá)股價(jià)受到影響,已經(jīng)有所下調(diào),但是正在到來的多模態(tài)、時(shí)空智能、面向物理現(xiàn)實(shí)世界的模型更吃算力。實(shí)質(zhì)上,包括DeepSeek在內(nèi)的AI大模型的用戶數(shù)量正在大幅增長,AI應(yīng)用進(jìn)入快速導(dǎo)入期,推理這個(gè)部分的算力需求呈現(xiàn)增長。
算力與硬件不僅沒有被削弱,反倒在增強(qiáng)??傮w趨勢是算力需求依然呈現(xiàn)大幅增長,AI賦能導(dǎo)致硬件復(fù)興。具備一定算力和聯(lián)網(wǎng)能力的智能終端正在成為AI超級(jí)入口。
圖片來源:視覺中國
NBD:隨著DeepSeek-V3等低成本大模型的問世,傳統(tǒng)的大規(guī)模數(shù)據(jù)中心和高投入大模型訓(xùn)練是否仍然值得繼續(xù)推進(jìn)?
胡延平:AI數(shù)據(jù)中心(AIDC)建設(shè)應(yīng)需而建,整體上依然在增加。
AI大模型的發(fā)展表現(xiàn)為兩條曲線,一條向上,數(shù)據(jù)資源投入增加、原理進(jìn)化、從LLM走向基于感知理解的物理現(xiàn)實(shí)世界模型,帶來更強(qiáng)的智能,是走向AGI、ASI的必由之路。另一條曲線向下,芯片能效比、模型量效比變化等,帶來訓(xùn)練和推理的單位智能的產(chǎn)生與使用成本下降。
但是由于智能水準(zhǔn)提升,擁有更強(qiáng)、更好、更多的智能,總體上意味著算力能源等總體消耗上升。AI大模型發(fā)展的“雙曲線”特征,不僅是AI經(jīng)濟(jì)學(xué),也是AI大模型技術(shù)產(chǎn)品市場演進(jìn)的底部規(guī)律之一。
NBD:目前,DeepSeek-R1在GitHub上的開發(fā)者點(diǎn)贊數(shù)量已經(jīng)超過Llama。DeepSeek激發(fā)創(chuàng)新競爭之后,您認(rèn)為AI應(yīng)用開發(fā)是否將迎來類似“安卓時(shí)刻”的爆發(fā)?
胡延平:AI大模型不再只來自頭部少數(shù)幾家企業(yè)。以基座模型為基礎(chǔ),后訓(xùn)練、微調(diào)以及與檢索增強(qiáng)生成(RAG)、智能體(Agent)等結(jié)合的個(gè)性化垂類模型及其應(yīng)用場景,很快將成為一個(gè)數(shù)量龐大的后市場。不同開源模型相互結(jié)合的變體也會(huì)有一堆。之前主要是為數(shù)不多的幾家頭部模型。在后市場,很快會(huì)看到產(chǎn)業(yè)腰部的出現(xiàn)和長尾的涌現(xiàn),生態(tài)成型,涌現(xiàn)在即。
NBD:花旗研報(bào)認(rèn)為,DeepSeek和其他中國模型的高效低成本將有助于加速全球AI應(yīng)用開發(fā),并可能在全球引發(fā)更多技術(shù)創(chuàng)新,從而推動(dòng)今年AI應(yīng)用的拐點(diǎn)?,F(xiàn)在,經(jīng)過R1微調(diào)的70億參數(shù)小模型能夠在個(gè)人筆記本中運(yùn)行,這是否意味著開發(fā)者可以更輕松地進(jìn)行本地化部署,推動(dòng)更多創(chuàng)新型應(yīng)用的誕生?
胡延平:實(shí)際上我就在電腦里安裝運(yùn)行了R1-Distill-Llama-70B,我安裝的體量最大的模型是Mistral-123B,只不過速度比較慢。
開源端側(cè)模型同等體量下的智能水平越來越高,不僅使得各行業(yè)和企業(yè)更有積極性部署在各自業(yè)務(wù)場景,也使得個(gè)人用戶的普遍使用成為可能。實(shí)際上,個(gè)人手機(jī)、電腦里的端側(cè)模型已經(jīng)數(shù)以億計(jì)。這些模型賦能各類應(yīng)用,生發(fā)出極有活力的創(chuàng)新場景。
圖片來源:視覺中國-VCG41N1472123004
NBD:在您看來,未來的AI發(fā)展將走向哪些方向?
胡延平:從2020~2050年,如果以更長的時(shí)間尺度來看,目前的AI,未來將走向內(nèi)生智能(EI),更遠(yuǎn)的將來是自主智能(II)。AI學(xué)習(xí)知識(shí)、AI開始思考、AI睜開眼睛和AI感知世界,是AI發(fā)展的四進(jìn)階。AI的生成能力、工作能力和行為能力將基于以上四個(gè)方面進(jìn)化。現(xiàn)實(shí)、感知會(huì)變得越來越重要。
通用人工智能(AGI)、超級(jí)人工智能(ASI)不是終極目標(biāo),也不是根本目的。模型完成新任務(wù)的能力,Agent完整執(zhí)行工作流的能力,智能體內(nèi)生自主的理解現(xiàn)實(shí)的行為能力,是智能進(jìn)化所追求的方向。提升智能本身的水準(zhǔn),發(fā)展腦能力,始終是智能發(fā)展到第一性原理。原理意味著原力,原力領(lǐng)域會(huì)有真正的創(chuàng)新。
NBD:您剛才提到大模型發(fā)展的“雙曲線”理論,向上是追求通用智能,向下是優(yōu)化算力和效率。您認(rèn)為AI進(jìn)化中的“向下曲線”和“向上曲線”各自面臨哪些挑戰(zhàn)?
胡延平:向下的曲線是有下限的,曲線向下的走勢主要取決于這兩方面的變化,芯片算力的能效比、模型的量效比。而推動(dòng)向上的曲線,有賴于模型新原理探索、芯片算力的摩爾定律、模型訓(xùn)練的規(guī)模法則(Scaling Law)以及感知智能的到來。
智能汽車等從自動(dòng)駕駛走向場景智能,機(jī)器人等具身智能領(lǐng)域,可能更加會(huì)促使視覺理解走向現(xiàn)實(shí)、感知智能,比LLM這條線一路走來的AIGC派更可能激發(fā)時(shí)空智能,催生出未來的物理世界模型。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP