每日經(jīng)濟(jì)新聞 2023-04-24 14:37:16
◎ 當(dāng)大廠跑出自己的路子,小企業(yè)就有機(jī)會(huì)站在巨人的肩膀上。
每經(jīng)記者 李孟林 蘭素英 文巧 每經(jīng)編輯 蘭素英
ChatGPT的火爆帶動(dòng)了國(guó)內(nèi)對(duì)大語(yǔ)言模型的開(kāi)發(fā)熱潮。從百度3月份發(fā)布“文心一言”以來(lái),不到兩個(gè)月,國(guó)內(nèi)互聯(lián)網(wǎng)大廠、AI企業(yè)和初創(chuàng)團(tuán)隊(duì)陸續(xù)官宣了約10個(gè)大模型項(xiàng)目。此番熱鬧場(chǎng)景讓不少人感慨:自從“千團(tuán)大戰(zhàn)”之后,中國(guó)互聯(lián)網(wǎng)產(chǎn)業(yè)已經(jīng)有十年沒(méi)有如此“卷”過(guò)了。
面對(duì)英偉達(dá)CEO黃仁勛所謂的AI“iPhone”時(shí)刻,沒(méi)有人愿意被甩在“大模型時(shí)代”的浪潮身后。然而,“煉大模型”需要的是天量的算力支持和資金投入,據(jù)悉,僅硬件上的投資就需要30億元,這無(wú)疑考驗(yàn)著參與者的資金實(shí)力和戰(zhàn)略定力。
AI大模型最終將是大廠之間的“游戲”嗎?中小企業(yè)的機(jī)會(huì)又在哪里?《每日經(jīng)濟(jì)新聞》采訪了多家互聯(lián)網(wǎng)大廠、逐浪AI的創(chuàng)業(yè)者及行業(yè)人士,一窺這場(chǎng)競(jìng)速賽中的發(fā)展現(xiàn)狀。
隨著ChatGPT的現(xiàn)象級(jí)爆紅,國(guó)內(nèi)科技領(lǐng)域的創(chuàng)業(yè)熱情也被點(diǎn)燃。一時(shí)間,打造“中國(guó)版OpenAI”和類ChatGPT產(chǎn)品成為最熱門(mén)的話題和趨勢(shì)。
互聯(lián)網(wǎng)大廠自然不會(huì)錯(cuò)失這樣的機(jī)遇。百度已率先推出“文心一言”,阿里巴巴發(fā)布“通義千問(wèn)”,華為也介紹了“盤(pán)古”大模型的最新進(jìn)展……
據(jù)《每日經(jīng)濟(jì)新聞》記者的不完全統(tǒng)計(jì),今年3月~4月,已經(jīng)約有10家企業(yè)及機(jī)構(gòu)發(fā)布大模型或啟動(dòng)大模型測(cè)試邀請(qǐng)。接下來(lái),蓄勢(shì)待發(fā)的還有騰訊的“混元”、京東的“言犀”、字節(jié)跳動(dòng)的自研大模型等一系列大模型。
大廠之外,還有許多重量級(jí)科技大佬也已高調(diào)入局。原美團(tuán)聯(lián)合創(chuàng)始人王慧文、前搜狗CEO王小川、創(chuàng)新工場(chǎng)董事長(zhǎng)兼首席執(zhí)行官李開(kāi)復(fù)等相繼成立初創(chuàng)公司,投身AI大模型創(chuàng)業(yè)。
圖片來(lái)源:每經(jīng)記者 蘭素英制圖
一場(chǎng)“百模大戰(zhàn)”就此在國(guó)內(nèi)全面拉開(kāi)序幕。
一名不愿具名的硅谷大模型工程師認(rèn)為,國(guó)內(nèi)現(xiàn)在的大模型領(lǐng)域有點(diǎn)過(guò)熱。“在海外,搞大模型的其實(shí)就那么幾家。在國(guó)內(nèi),競(jìng)爭(zhēng)對(duì)手的數(shù)量是美國(guó)的幾倍,而市場(chǎng)就這么大。”他告訴《每日經(jīng)濟(jì)新聞》記者。
這種熱到發(fā)燙的形勢(shì)也讓許多人質(zhì)疑,蜂擁的投入能不能在商業(yè)價(jià)值上帶來(lái)回報(bào)。長(zhǎng)期關(guān)注芯片產(chǎn)業(yè)的集微咨詢資深分析師錢禹對(duì)《每日經(jīng)濟(jì)新聞》記者表示,“我個(gè)人覺(jué)得是有機(jī)會(huì)的,因?yàn)楝F(xiàn)在的AIGC(AI生成內(nèi)容)產(chǎn)品的準(zhǔn)確性和效率的優(yōu)勢(shì)是非常明顯的。”他認(rèn)為,互聯(lián)網(wǎng)和AI的商業(yè)模式靈活度很高,未來(lái)既可做API或者SDK開(kāi)發(fā)包的授權(quán),也可以參與硬件業(yè)務(wù),探索to B和to C的服務(wù)。
圖片來(lái)源:阿里云提供
隨著眾多玩家“入局”大模型研發(fā),一場(chǎng)關(guān)于算力的爭(zhēng)奪戰(zhàn)也打響了。
在業(yè)內(nèi),開(kāi)發(fā)大語(yǔ)言模型被戲稱為“煉大模型”,是一個(gè)“大力出奇跡”的模式,指的就是依靠巨大算力訓(xùn)練海量數(shù)據(jù)后“涌現(xiàn)”出的對(duì)答如流能力。ChatGPT的成功就得益于微軟慷慨的資金和算力支持。美國(guó)市場(chǎng)研究機(jī)構(gòu)TrendForce推算稱,處理ChatGPT的訓(xùn)練數(shù)據(jù)需要2萬(wàn)枚GPU芯片,而隨著OpenAI進(jìn)一步展開(kāi)ChatGPT和其他GPT模型的商業(yè)應(yīng)用,其GPU需求量將突破3萬(wàn)張(該報(bào)告計(jì)算以A100芯片為主)。
行業(yè)人士普遍認(rèn)為,1萬(wàn)顆A100芯片是訓(xùn)練大模型的入門(mén)券。馬斯克4月17日表示,他要開(kāi)發(fā)一款名為“TruthGPT”的AI模型,叫板ChatGPT。據(jù)外媒報(bào)道,馬斯克已經(jīng)為搭建大模型購(gòu)入了1萬(wàn)張A100芯片。
“現(xiàn)在(國(guó)內(nèi)大模型廠商面臨的)問(wèn)題是買不到芯片。對(duì)于目前訓(xùn)練大模型的主流芯片,例如英偉達(dá)GPU A100和(更新一代的)GPT H100,市場(chǎng)上所有的公司都在搶貨。一個(gè)公司能搶到多少?”上述硅谷工程師反問(wèn)道,“國(guó)內(nèi)真正有萬(wàn)卡級(jí)別的公司是鳳毛麟角。”
據(jù)此前媒體報(bào)道,國(guó)內(nèi)擁有超過(guò)1萬(wàn)枚GPU的企業(yè)不超過(guò)5家,且多為英偉達(dá)中低性能產(chǎn)品,而擁有1萬(wàn)枚A100芯片的企業(yè)最多只有一家。
在A100這樣的“香餑餑”短缺的情況下,英偉達(dá)在國(guó)內(nèi)市場(chǎng)推出了A100的低配版A800和專為ChatGPT研發(fā)的H100芯片的“特供版”芯片H800,但A800和H800的數(shù)據(jù)傳輸速率相比A100分別下降了30%和50%。有業(yè)內(nèi)人士對(duì)媒體表示,H800國(guó)內(nèi)已經(jīng)少量出貨,但新近下的訂單可能要年底才能到貨。
互聯(lián)極簡(jiǎn)聯(lián)合創(chuàng)始人&CTO馬力遙告訴《每日經(jīng)濟(jì)新聞》記者,目前市場(chǎng)上有一些存量A100芯片,更多的是用A800在做芯片替代。他所在的公司就專注于應(yīng)用私有數(shù)據(jù)微調(diào)大模型,服務(wù)垂直行業(yè)。錢禹估計(jì),國(guó)內(nèi)的互聯(lián)網(wǎng)公司或算法公司之前肯定對(duì)英偉達(dá)芯片做了儲(chǔ)備,不過(guò)具體數(shù)量不好量化。
百度、阿里等大廠以及國(guó)內(nèi)芯片廠商也在自研芯片,但錢禹指出,目前這些自研芯片主要還是部署在大模型的推理階段,而非要求更高的訓(xùn)練階段。
即便市場(chǎng)上芯片供應(yīng)充足,但也不是每個(gè)入局者都能玩得起的,擋在他們面前的不僅是高昂的成本,還有協(xié)同發(fā)揮硬件設(shè)施的能力。
圖片來(lái)源:每經(jīng)記者蘭素英制圖
1)燒錢的GPU
取決于購(gòu)買量和英偉達(dá)的折扣政策,一顆80GB的A100芯片在國(guó)外的定價(jià)為1萬(wàn)~1.5萬(wàn)美元(約合人民幣68800~103300元)之間。
《每日經(jīng)濟(jì)新聞》記者注意到,目前京東售賣的的80GB A800芯片價(jià)格為89999元(約13079美元),而庫(kù)存僅剩數(shù)張。有媒體報(bào)道稱,實(shí)際上A800現(xiàn)在處于“有價(jià)無(wú)市”的情況,供應(yīng)緊張,真實(shí)成交價(jià)格高于平臺(tái)報(bào)價(jià)。即便按89999元一顆A800芯片的價(jià)格計(jì)算,1萬(wàn)顆的成本就是約人民幣9億元。
更重要的是,這還只是GPU芯片部分的成本,并非全部的硬件投入花費(fèi)。錢禹對(duì)《每日經(jīng)濟(jì)新聞》記者指出,除GPU外,建設(shè)數(shù)據(jù)中心還需要ASIC或FPGA類專用芯片、服務(wù)器CPU芯片,以及服務(wù)于分布式訓(xùn)練硬件架構(gòu)的光模塊通信芯片。搭建一臺(tái)服務(wù)器,刨除GPU芯片成本,還需要3萬(wàn)元到4萬(wàn)元的成本。據(jù)估算,一臺(tái)服務(wù)器多由8顆GPU組成,那1萬(wàn)顆GPU就意味著1250臺(tái)服務(wù)器,所涉及的GPU之外的成本就還需要3750萬(wàn)~5000萬(wàn)元。
業(yè)內(nèi)估計(jì),服務(wù)器的采購(gòu)成本通常為數(shù)據(jù)中心建設(shè)成本的30%,按此推算,一個(gè)服務(wù)于大模型的數(shù)據(jù)中心建設(shè)成本或超過(guò)30億元。
2)不只是GPU
構(gòu)建大模型的計(jì)算基礎(chǔ)設(shè)施,不僅是簡(jiǎn)單的硬件堆砌,更需要實(shí)際搭建過(guò)程中積累的know-how(實(shí)踐知識(shí))。
“大模型訓(xùn)練離不開(kāi)密集型計(jì)算算力,今天模型的訓(xùn)練往往會(huì)以有多少?gòu)埧▉?lái)表示背后的算力,其實(shí)這是一個(gè)非常簡(jiǎn)單的描述,”阿里云CTO周靖人對(duì)《每日經(jīng)濟(jì)新聞》記者表示。
他進(jìn)一步指出,“所有GPU不是簡(jiǎn)簡(jiǎn)單單的堆砌,更需要的是讓所有GPU,讓異構(gòu)算力能夠聯(lián)合起來(lái)去為我們的模型訓(xùn)練服務(wù)。我們有成千上萬(wàn)的模塊,如何幫助他們有效地高速連接起來(lái),如何能夠提供一個(gè)高吞吐、低延遲的網(wǎng)絡(luò)方案,對(duì)模型訓(xùn)練是至關(guān)重要的。”此外,完善的大規(guī)模的數(shù)據(jù)存儲(chǔ)和低延遲的網(wǎng)絡(luò)方案同樣重要。
前述硅谷工程師也認(rèn)為,就算是現(xiàn)在市面上能直接商業(yè)化買到的最強(qiáng)算力策略,也很難建設(shè)一個(gè)特別大的計(jì)算機(jī)群,因?yàn)檫B接芯片用的是電,而電的衰減很快,一般來(lái)說(shuō)只能達(dá)到百卡互聯(lián)的量級(jí)。
“如果是距離較近的芯片連接,你可能感受不到損耗;但如果距離稍微遠(yuǎn)一點(diǎn),例如說(shuō)機(jī)器在10米遠(yuǎn)的地方,想把兩個(gè)卡連在一起,電的損耗實(shí)際上是非常大的。”他對(duì)記者解釋稱。
3) 訓(xùn)練和運(yùn)營(yíng)成本
硬件搭建完成后,大模型的訓(xùn)練花費(fèi)也不菲。馬力遙對(duì)記者透露,訓(xùn)練大模型門(mén)檻非常高,GPT-4的訓(xùn)練成本據(jù)估計(jì)達(dá)到了10億美元,是GPT-3的5倍。在他看來(lái),大模型的訓(xùn)練絕對(duì)是少數(shù)人的游戲。
此外,錢禹還指出,若芯片性能不足,那模型的訓(xùn)練效率就會(huì)受到巨大影響。“比如一個(gè)大模型,用英偉達(dá)可能一個(gè)月就訓(xùn)練好了,但如果訓(xùn)練卡算力沒(méi)有人家那么好,那訓(xùn)練三個(gè)月或者半年都是有可能的。”而如果要加快訓(xùn)練速度,電力消耗就會(huì)攀升。
原騰訊副總裁、自然語(yǔ)言模型專家吳軍此前就在一次直播分享中形象地描繪了大模型訓(xùn)練中的電力成本:ChatGPT訓(xùn)練一次需要耗費(fèi)的電量,相當(dāng)于3000輛特斯拉電動(dòng)車每輛跑20萬(wàn)英里(32萬(wàn)公里)的耗電量。
一旦推出,每天的用戶訪問(wèn)也需要大量算力支撐。相比訓(xùn)練階段,大規(guī)模運(yùn)營(yíng)的推理階段對(duì)算力要求更高。
半導(dǎo)體研究公司SemiAnalysis認(rèn)為,ChatGPT大規(guī)模服務(wù)用戶的成本遠(yuǎn)超訓(xùn)練成本,以GPT-3模型推算,ChatGPT每天的運(yùn)營(yíng)成本高達(dá)70萬(wàn)美元,新一代的GPT-4模型只會(huì)更燒錢。按每日70萬(wàn)美元計(jì)算,則ChatGPT一年的運(yùn)營(yíng)成本高達(dá)2.555億美元(約17.6億人民幣)。
國(guó)盛證券則從電費(fèi)角度進(jìn)行了分析,以英偉達(dá)A100芯片、DGX A100服務(wù)器、現(xiàn)階段每日2500萬(wàn)訪問(wèn)量等假設(shè)為基礎(chǔ),ChatGPT的初始投入成本約為8億美元(約合人民幣55億元),對(duì)應(yīng)約4000臺(tái)服務(wù)器,每日運(yùn)行電費(fèi)約為5萬(wàn)美元。
這還沒(méi)算人力成本,高昂的投資意味著只有手握云計(jì)算、數(shù)據(jù)資源和資金實(shí)力的幾家大廠才能承擔(dān)開(kāi)發(fā)大模型的成本。
圖片來(lái)源:視覺(jué)中國(guó)-VCG41N1356593648
實(shí)際上,在巨額的投入面前,部分一開(kāi)始激動(dòng)不已的創(chuàng)業(yè)者也逐漸冷靜。
出門(mén)問(wèn)問(wèn)創(chuàng)始人、前谷歌科學(xué)家李志飛曾在2月份第一個(gè)喊出做中國(guó)OpenAI的口號(hào),但在近期的采訪中,他已經(jīng)轉(zhuǎn)變思路,放棄了從零開(kāi)始“煉大模型”的思路。他在一次采訪中提到, “兩個(gè)月以前,我就是要復(fù)制ChatGPT,但現(xiàn)在我覺(jué)得不想清楚商業(yè)模式到最后會(huì)很痛苦。”
那在這場(chǎng)AI“軍備賽”中,各路玩家的機(jī)會(huì)在哪里?
馬力遙告訴《每日經(jīng)濟(jì)新聞》記者,大模型產(chǎn)業(yè)主要分為三大塊:最底層是芯片,中間是大模型,最上面是大模型的開(kāi)發(fā)應(yīng)用。
圖片來(lái)源:每經(jīng)記者 蘭素英制圖(資料整理自采訪內(nèi)容)
英國(guó)工程技術(shù)協(xié)會(huì)會(huì)員、Frelan GPT的開(kāi)發(fā)者張冶對(duì)《每日經(jīng)濟(jì)新聞》記者表示, “在日新月異的AI行業(yè),每個(gè)層級(jí)的廠商都有著自己的任務(wù)和使命。頭部的廠商有著大量的財(cái)力人力,應(yīng)該專注在核心技術(shù)的研發(fā)以及算法的迭代,把大部分的精力用于應(yīng)對(duì)國(guó)際上激烈的競(jìng)爭(zhēng)。中小型企業(yè)應(yīng)著重技術(shù)應(yīng)用,并且靈活的方式應(yīng)對(duì)活躍的市場(chǎng),并反哺頭部大廠。”
當(dāng)大廠跑出自己的路子,小企業(yè)就有機(jī)會(huì)站在巨人的肩膀上。前述硅谷工程師以MidJourney為例解釋說(shuō),“MidJourney實(shí)際上是一個(gè)非常小的公司。新時(shí)代的公司不會(huì)說(shuō)‘賣漢堡是從養(yǎng)牛做起’,我們都是基于一個(gè)平臺(tái),上面接亞馬遜云等,站在巨人的肩膀上,能以很快的速度就做很多的事情,獲得高關(guān)注度和高收益。”
4月20日,出門(mén)問(wèn)問(wèn)發(fā)布了自家的百億參數(shù)級(jí)的多模態(tài)大模型“序列猴子”。李志飛表示,未來(lái)公司將聚焦在算法層面的研發(fā)和迭代,不做硬件,在商業(yè)化上側(cè)重于面向B端的企業(yè)定制類服務(wù),“這會(huì)比一個(gè)通用大模型可能更加有用。”
目前,在大模型上走在前列的大廠,也在積極推動(dòng)把自己的算力和模型開(kāi)放給第三方企業(yè)使用,從而降低中小企業(yè)開(kāi)發(fā)模型的成本,一個(gè)分工有序的大模型生態(tài)正在形成之中。阿里云和商湯科技就對(duì)《每日經(jīng)濟(jì)新聞》記者表示,他們可為企業(yè)提供大模型服務(wù)或算力服務(wù),騰訊和字節(jié)跳動(dòng)近期也推出了面向大模型開(kāi)發(fā)的算力服務(wù)。
錢禹認(rèn)為,像王小川和王惠文這樣的創(chuàng)業(yè)團(tuán)隊(duì),可以把精力放在算法和模型上,服務(wù)器硬件和訓(xùn)練數(shù)據(jù)可以找合作伙伴,“比如說(shuō)我給阿里提需求,我需要這樣的服務(wù)器和這樣的算力,你來(lái)給我配置。”
另一方面,中小企業(yè)也可以利用大廠的模型做二次開(kāi)發(fā)。“比如說(shuō)文言文的研究我是比較專業(yè)的,那我可能把百度的模型拿來(lái)借鑒一下,在此基礎(chǔ)上做一個(gè)深度開(kāi)發(fā),然后實(shí)現(xiàn)文言文的聊天,這是完全可以的。”錢禹表示。
專注垂直行業(yè)的馬力遙對(duì)此也深以為然。
他告訴《每日經(jīng)濟(jì)新聞》記者,初創(chuàng)企業(yè)可根據(jù)其核心能力和市場(chǎng)地位選擇創(chuàng)業(yè)方向,只要掌握私有數(shù)據(jù)和充沛的業(yè)務(wù)知識(shí),仍可打造其行業(yè)壁壘。他強(qiáng)調(diào),要在應(yīng)用層實(shí)現(xiàn)突破,一定要把握垂直行業(yè)企業(yè)客戶的痛點(diǎn),有的放矢,一定要具備私有的高質(zhì)量數(shù)據(jù)、對(duì)大模型能力的充分利用能力和對(duì)行業(yè)的深刻理解,有效結(jié)合這三者才能產(chǎn)生實(shí)實(shí)在在的商業(yè)價(jià)值。
“一個(gè)再聰明的孩子,如果沒(méi)有高質(zhì)量的數(shù)據(jù)教導(dǎo),也是不可能成材的。例如Stack Overflow,OpenAI就是用這個(gè)平臺(tái)上的高質(zhì)量數(shù)據(jù)來(lái)訓(xùn)練代碼的生成。”前述硅谷工程師也對(duì)記者如是說(shuō)道。
更重要的是,利用垂直領(lǐng)域數(shù)據(jù)對(duì)大模型微調(diào)的成本已經(jīng)達(dá)到中小企業(yè)可以接受的范圍。馬力遙以開(kāi)源聊天機(jī)器人 Vicuna-13B為例對(duì)記者解釋道,這款通過(guò) LLaMA 模型微調(diào)和 ShareGPT 用戶共享對(duì)話訓(xùn)練而成的機(jī)器人的訓(xùn)練成本僅為 300 美元(約合人民幣 2060 元),而質(zhì)量可達(dá) OpenAI ChatGPT 和 Google Bard 的 90% 以上。
封面圖片來(lái)源:視覺(jué)中國(guó)-VCG41N1356593648
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP