每日經濟新聞 2024-03-19 20:20:19
◎ 馬斯克沒有食言,將大模型Grok開源了。但從深層次看,開源的背后還隱藏著更大的戰(zhàn)略謀劃。
每經記者 文巧 每經編輯 蘭素英
3月18日,馬斯克旗下大模型公司xAI兌現諾言,正式對Grok-1大模型開源。隨后在X平臺上,馬斯克還不忘嘲諷OpenAI一番,“我們想了解更多OpenAI的開放部分”。
據悉,Grok-1模型參數大小為3140億,是迄今為止業(yè)界開源參數最大的模型。
馬斯克的開源舉措引發(fā)了業(yè)界的廣泛關注和熱烈討論。表面上,這一舉動像是針對OpenAI的一記“回擊”,但從更深的層次來看,還隱藏著馬斯克的戰(zhàn)略謀劃和考量。
據xAI去年公布的文檔,盡管Grok-1在各個測試集中呈現的效果要比GPT-3.5、Llama2要好,但距離Palm-2、Claude2和GPT-4仍然差了一大截。
因此有分析認為,在強敵環(huán)伺,且Grok難以匹敵頂尖大模型的情況下,馬斯克選擇開源是必然之舉,其考量之一可能是將模型迭代進化的任務交給社區(qū)。
開源還是閉源,一直是AI浪潮之下一個極具爭議性的話題。有AI專家此前在接受《每日經濟新聞》記者采訪時認為,開源已是大勢所趨。從商業(yè)角度來看,開源不僅能夠避免少數財力雄厚的科技公司控制前沿模型,對于AI創(chuàng)業(yè)者來說,也進一步降低了門檻和成本。
3月18日凌晨,馬斯克旗下大模型公司xAI宣布正式開源3140億參數的混合專家(MoE)模型Grok-1以及該模型的權重和網絡架構。截至發(fā)稿,在Github上,該開源項目已經攬獲31.6k星標,足見其火爆程度。
圖片來源:Github
值得注意的是,這是迄今為止業(yè)界開源參數最大的模型,超過GPT-3.5當時1750億的參數量。
DeepMind工程師Aleksa Gordié預測,Grok-1的能力應該比Llama2要強,但目前尚不清楚有多少數據受到了污染,二者的參數量也不是一個量級。
從Grok-1的模型細節(jié)來看,值得注意的一點是,該基礎模型基于大量文本數據進行訓練,沒有針對任何具體任務進行微調。而在X平臺上可用的Grok大模型就是微調過的版本,其行為和原始權重版本并不相同。也就是說,xAI目前開源的Grok-1模型并不包括X平臺上的語料。
據xAI去年公布的文檔,從Grok-1的整體測試效果來看,Grok-1在各個測試集中呈現的效果要比GPT-3.5、70億參數的Llama2和Inflection-1要好,但距離Palm-2、Claude2和GPT-4仍然差了一大截。
圖片來源:xAI
基于此,有分析認為,馬斯克開源Grok-1的一個考量是,盡管該模型表現尚可,但“比上不足,比下有余”,并未具備打敗頂尖模型如GPT-4的能力,更別說未來的GPT-5。
在大模型角逐的當下,盡管Grok依托X平臺的數據,但其無論是在能力上,還是知名度上都不具備與OpenAI、谷歌、Anthropic等公司匹敵的優(yōu)勢。尤其是今年以來,谷歌發(fā)布了Gemini,Anthropic發(fā)布了Claude3,大型語言模型的競爭更加激烈,在這樣的情況下,馬斯克選擇開源路線也是必然之舉。
模型開源讓研究者和開發(fā)者可以自由地使用、修改和分發(fā)模型,打開了更多開放合作和創(chuàng)新的可能性。因此,一次性開源可以將迭代進化的任務交給社區(qū)。
正如月之暗面CEO楊植麟在此前接受騰訊采訪時表示,“如果我今天有一個領先的模型,開源出來,大概率不合理。反而是落后者可能會這么做,或者開源小模型,攪局嘛,反正不開源也沒價值。”
再加上馬斯克頻繁諷刺OpenAI并不Open,外媒Venture Beat認為,Grok-1的開源顯然對他來說也是一個有益的立場。
不過,針對讓社區(qū)來實現迭代這一目的,有業(yè)內人士在X平臺表示,Grok-1的問題可能是模型參數太大,這需要巨大的計算資源,所以開源社區(qū)可能無法對Grok-1進行迭代。
另有評論認為,Grok-1沒有對特定任務進行微調,這提高了用戶使用它的門檻。AI工具飽和的市場可能更需要針對特定用例的工具。
開源和閉源是當前AI浪潮之下的一個極具爭議性的話題。
紐約大學坦登工程學院計算機科學與工程系副教授Julian Togelius在此前接受《每日經濟新聞》記者采訪時曾認為,開源是業(yè)界大勢所趨,Meta正在引領這一趨勢,其次是Mistral AI、HuggingFace等規(guī)模較小的公司。谷歌今年2月罕見地改變了去年堅持的大模型閉源策略,推出了“開源”大模型Gemma,似乎也是對Togelius言論的驗證。
從技術視角來看,開源代碼可以提高透明度并有助于推進技術發(fā)展,也能幫助了解模型弱點,這樣才能更好地部署模型,從而降低風險。另一方面,也有不少反對開源的一派認為,開源AI會被不良行為者操縱從而造成風險。
從商業(yè)角度來看,Julian Togelius認為開源對防止權力集中很重要,能夠避免少數財力雄厚的科技公司控制前沿模型。此外,還有分析認為,對于創(chuàng)業(yè)者來說,開源大模型則進一步降低了創(chuàng)業(yè)門檻,降低了大模型的開發(fā)成本,讓更多創(chuàng)業(yè)者在基礎模型方面處于同一起跑線上。
例如,目前許多開源模型都是基于Meta的開源模型Llama2而開發(fā)。據報道,截至2023年底,HuggingFace上開源的大模型排行榜前十名中,有8個是基于Llama2打造的,使用Llama2的開源大模型已經超過1500個。
Grok-1的權重和架構是在寬松的Apache 2.0許可下發(fā)布的,這使得研究者和開發(fā)者可以自由地使用、修改和分發(fā)模型,這種開源方式可以適應多種不同的任務和應用場景,更適合那些想要用開源模型打造自己專有模型的開發(fā)者。因此,有分析認為,Grok-1的開源也是為許多AI初創(chuàng)公司提供了另一個選擇。
例如,AI初創(chuàng)公司Abacus AI的CEO就在X平臺上表示,將開始研究Grok-1,并在幾周內進行更新/發(fā)布。
圖片來源:X平臺
對話搜索引擎公司Perplexity CEO Aravind Srinivas也在X平臺上發(fā)文稱,將會基于Grok的基礎模型進行對話式搜索和推理的微調。
圖片來源:X平臺
隨著開源力量的不斷壯大,馬薩諸塞大學洛厄爾分校計算機科學教授Jie Wang曾對《每日經濟新聞》記者表示,未來各個主要參與者可能都傾向于采用半開源的方式,類似Meta開源Llama2系列大模型的方式,即開源模型的某些部分,以便研究人員和開發(fā)人員了解模型的架構和訓練過程,但保留最重要的部分,例如用于訓練和預訓練模型權重的完整數據集。
Grok-1走的也是這樣的路線。
知名機器學習研究者Sebastian Raschka認為,“盡管Grok-1比其他通常帶有使用限制的開放權重模型更加開源,但是它的開源程度不如Pythia、Bloom和OLMo,后者附帶訓練代碼和可復現的數據集。”
圖片來源:X平臺
封面圖片來源:新華社記者 韓傳號 攝
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP