每日經(jīng)濟新聞 2025-03-28 20:37:52
每經(jīng)記者 葉曉丹 每經(jīng)編輯 陳俊杰
近日,來自杭州的三家科技公司發(fā)布的大模型拿下全球最大AI開源社區(qū)HuggingFace趨勢榜前三。
這三款模型分別是DeepSeek-v3、群核科技SpatialLM、通義千問Qwen2.5-Omni。
《每日經(jīng)濟新聞》記者從阿里云方面了解到,Qwen2.5-Omni采用了通義團隊全新首創(chuàng)的Thinker-Talker雙核架構(gòu),Position Embedding (位置嵌入)融合音視頻技術(shù),位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)。
雙核架構(gòu)Thinker-Talker讓Qwen2.5-Omni擁有了人類的“大腦”和“發(fā)聲器”,形成了端到端的統(tǒng)一模型架構(gòu),實現(xiàn)了實時語義理解與語音生成的高效協(xié)同。
3月27日凌晨,阿里巴巴發(fā)布并開源首個端到端全模態(tài)大模型通義千問Qwen2.5-Omni-7B,可同時處理文本、圖像、音頻和視頻等多種輸入,并實時生成文本與自然語音合成輸出。
相較于動輒數(shù)千億參數(shù)的閉源大模型,Qwen2.5-Omni以7B的小尺寸讓全模態(tài)大模型在產(chǎn)業(yè)上的廣泛應(yīng)用成為可能。即便在手機上,也能輕松部署和應(yīng)用Qwen2.5-Omni模型。
而近期群核科技發(fā)布的空間理解開源模型SpatialLM,登上全球最大AI開源社區(qū)HuggingFace趨勢榜第二位。
公開資料顯示,SpatialLM是群核科技自主研發(fā)的一款空間理解模型,該模型僅通過一段視頻即可生成物理正確的3D場景布局。不同于傳統(tǒng)大語言模型,SpatialLM突破了對物理世界幾何與空間關(guān)系的理解局限,將在機器類人的空間認知和解析能力上發(fā)揮重大作用。
而據(jù)《每日經(jīng)濟新聞》此前報道,3月24日,DeepSeek發(fā)布了V3的一個小版本更新,版本號為V3-0324。雖然官方稱這只是“小版本升級”,但實測能力接近V3.5版本,尤其在復(fù)雜邏輯和多模態(tài)理解上表現(xiàn)突出。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP