每日經(jīng)濟(jì)新聞 2025-03-29 21:15:27
3月29日,在2025中關(guān)村論壇年會(huì)期間的“未來(lái)人工智能先鋒論壇”上,生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍宣布,生數(shù)科技正式發(fā)布業(yè)內(nèi)首個(gè)高可控視頻大模型Vidu Q1,并計(jì)劃于4月全球上線。該模型在技術(shù)層面實(shí)現(xiàn)重大突破,能夠接受空間布局信息作為輸入,極大提升了視頻生成的可控性。朱軍認(rèn)為,2025年將是AI視頻模型商業(yè)化快速發(fā)展的一年。
每經(jīng)記者 可楊 每經(jīng)編輯 陳俊杰
大模型的發(fā)展日新月異。
3月29日,在2025中關(guān)村論壇年會(huì)期間舉辦的“未來(lái)人工智能先鋒論壇”上,清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍宣布,生數(shù)科技正式發(fā)布業(yè)內(nèi)首個(gè)高可控視頻大模型Vidu Q1,并計(jì)劃于4月全球上線。
會(huì)后,在接受媒體采訪時(shí),朱軍談到,2025年將是AI(人工智能)視頻商業(yè)化快速發(fā)展的一年。視頻大模型的商業(yè)化路徑相較于語(yǔ)言大模型更加多元,行業(yè)競(jìng)爭(zhēng)格局也不同于“大模型內(nèi)卷”態(tài)勢(shì)。
朱軍認(rèn)為,未來(lái)視頻大模型不會(huì)出現(xiàn)類似語(yǔ)言模型市場(chǎng)那樣的“一超多強(qiáng)”格局,而是依賴持續(xù)創(chuàng)新能力,向更高質(zhì)量、更長(zhǎng)時(shí)長(zhǎng)、更強(qiáng)敘事性的方向發(fā)展。
主辦方供圖
朱軍介紹,相較于生數(shù)科技在1月推出的Vidu 2.0,Vidu Q1在技術(shù)層面實(shí)現(xiàn)了重大突破,能夠接受空間布局信息作為輸入,極大提升了視頻生成的可控性,使視頻生成走向“高可控”時(shí)代成為可能。
朱軍指出,走向高可控為AI視頻生成的發(fā)展找到了新路徑,清晰指出了AI視頻生成的痛點(diǎn),通過(guò)技術(shù)手段引入多元素控制,它不再是沒(méi)有頭緒的“亂生成”,而是人為可控,這就讓AI視頻生成與當(dāng)下精益求精的制作逐漸趨向一致。
另一方面,高可控意味著AI視頻生成的創(chuàng)意呈現(xiàn)更極致、更多元。朱軍表示,過(guò)去Vidu陸續(xù)在畫面生成、生成速度、多主體一致等視頻生成關(guān)鍵環(huán)節(jié)下功夫,現(xiàn)在,當(dāng)“高可控”時(shí)代到來(lái)時(shí),人們將能夠更便捷地將自己頭腦中的想法變成現(xiàn)實(shí)。具體而言,Vidu Q1在多主體細(xì)節(jié)可控、音效同步可控 、畫質(zhì)增強(qiáng)方面均取得成效。
對(duì)于多模態(tài)模型層面的探索,朱軍在采訪中表示,生數(shù)科技自成立之初便專注于多模態(tài)大模型研發(fā),Vidu的基座本身就是一個(gè)多模態(tài)大模型,視頻只是多模態(tài)技術(shù)的其中一種表現(xiàn)形式。除此之外,公司還在探索音頻及機(jī)器人可控操作數(shù)據(jù)的應(yīng)用等多種模態(tài)。“對(duì)我們來(lái)說(shuō)底層架構(gòu)基本上是一樣的,沒(méi)有修改就可以去適應(yīng)多模態(tài),只是面向用戶的需求,在不同階段會(huì)推出。”
朱軍認(rèn)為,未來(lái)多模態(tài)的發(fā)展方向是智能體與工作流的全面打通,這種打通也是生數(shù)科技規(guī)劃的重要方向。朱軍表示,未來(lái)也需要通過(guò)推動(dòng)智能體與工作流的打通,實(shí)現(xiàn)不同模態(tài)之間的協(xié)同,以更好地服務(wù)各行業(yè)用戶。
在商業(yè)化方面,朱軍坦言,隨著AI視頻技術(shù)的商業(yè)價(jià)值不斷提升,資本市場(chǎng)對(duì)生數(shù)科技的關(guān)注重點(diǎn)也在發(fā)生變化。朱軍表示,在公司早期階段,投資人更關(guān)注團(tuán)隊(duì)實(shí)力,而如今,除了技術(shù)壁壘,商業(yè)化進(jìn)展已成為核心考量因素。“視頻的價(jià)值密度更高,商業(yè)化進(jìn)程也更快。2025年將是AI視頻模型商業(yè)化快速發(fā)展的一年。”
目前,其SaaS(軟件即服務(wù))產(chǎn)品已覆蓋全球200多個(gè)國(guó)家和地區(qū),上線100天內(nèi)用戶突破千萬(wàn),增速位居全球第一。同時(shí),在MaaS(模型即服務(wù))端,AI視頻技術(shù)正在深入應(yīng)用于動(dòng)漫影視、文旅、廣告、游戲等多個(gè)行業(yè),重塑內(nèi)容生產(chǎn)模式。
近期,OpenAI宣布在GPT-4o模型中集成了迄今為止最先進(jìn)的圖像生成器,并將其整合進(jìn)ChatGPT中,未來(lái),視頻生成能力會(huì)否同樣被集成進(jìn)大模型?朱軍認(rèn)為,現(xiàn)在談這個(gè)問(wèn)題為時(shí)尚早。
目前,視頻生成的重點(diǎn)仍然是提升視頻生成的質(zhì)量和效率,而隨著基座模型的不斷優(yōu)化,AI視頻生成自然會(huì)逐步向交互式方向發(fā)展,但其中最核心突破點(diǎn)仍在于理解能力和可控性。朱軍表示,只有實(shí)現(xiàn)真正的高可控生成,才能滿足未來(lái)交互式AI視頻的需求。
在談及高可控能力是否會(huì)影響創(chuàng)意表達(dá)時(shí),朱軍表示兩者并不沖突。相反,提升可控性能夠讓創(chuàng)作過(guò)程更加高效、精準(zhǔn),減少用戶反復(fù)試驗(yàn)的成本,提高創(chuàng)作體驗(yàn)。
“在AI視頻創(chuàng)作中,用戶的輸入可能是圖片或文字,我們的任務(wù)是精準(zhǔn)理解并實(shí)現(xiàn)他們的需求。”朱軍解釋道,過(guò)去,AI視頻生成往往帶有較高的隨機(jī)性,用戶需要反復(fù)嘗試才能獲得理想的結(jié)果。而高可控能力的引入,使模型能夠更準(zhǔn)確地理解并執(zhí)行用戶的創(chuàng)作意圖,同時(shí)保持創(chuàng)意表達(dá)的自由度,例如動(dòng)作幅度、想象力等方面依然可以充分發(fā)揮。
朱軍在接受采訪時(shí)表示,2025年行業(yè)整體落地進(jìn)展非???,例如在視頻和音頻領(lǐng)域,由于其應(yīng)用場(chǎng)景較為通用,市場(chǎng)接受度更高,而語(yǔ)言模型的落地則往往需要結(jié)合行業(yè)專業(yè)知識(shí),因此鏈路相對(duì)較長(zhǎng)。不過(guò),目前行業(yè)內(nèi)同樣有應(yīng)用公司致力于推進(jìn)大語(yǔ)言模型的落地應(yīng)用。
談及技術(shù)突破,朱軍強(qiáng)調(diào),目前階段最重要的仍然是通用基礎(chǔ)模型的提升。“它決定了我們后端在控制和一致性方面的能力,所有后端的實(shí)現(xiàn)都依賴于基礎(chǔ)模型的進(jìn)展。”基于基礎(chǔ)模型,生數(shù)科技也在不斷探索,以實(shí)現(xiàn)更高的模型一致性和可控性。
朱軍認(rèn)為,與語(yǔ)言模型不同,視頻大模型的商業(yè)化路徑相對(duì)更快。他指出,視頻的消費(fèi)需求非常曠闊,因此,當(dāng)前行業(yè)內(nèi)領(lǐng)先的公司在視頻大模型領(lǐng)域各具特色,并形成了不同的商業(yè)化布局。這一領(lǐng)域并不像語(yǔ)言模型市場(chǎng)那樣“內(nèi)卷”,而是呈現(xiàn)出更多元化的競(jìng)爭(zhēng)格局。
目前,大語(yǔ)言模型行業(yè)逐步進(jìn)入收購(gòu)與被收購(gòu)階段,朱軍認(rèn)為,這與行業(yè)發(fā)展?fàn)顟B(tài)相關(guān)。語(yǔ)言模型的競(jìng)爭(zhēng)已經(jīng)進(jìn)入深水區(qū),領(lǐng)先企業(yè)在技術(shù)和市場(chǎng)布局方面占據(jù)優(yōu)勢(shì),而視頻大模型則完全不一樣,中國(guó)的視頻大模型在全球范圍內(nèi)很多方面都有應(yīng)用,這與語(yǔ)言模型的發(fā)展?fàn)顟B(tài)截然不同。
未來(lái),視頻大模型行業(yè)是否會(huì)和語(yǔ)言大模型一樣,只會(huì)留下幾家專注于基礎(chǔ)模型研發(fā)的公司?朱軍認(rèn)為,大概率不會(huì)出現(xiàn)一家獨(dú)大的情況。一方面,視頻大模型行業(yè)不算擁擠;另一方面,從人工智能發(fā)展的長(zhǎng)期來(lái)看,核心因素在于團(tuán)隊(duì)是否具備持續(xù)創(chuàng)新能力。今天,模型的發(fā)展大部分是階段性發(fā)展,盡管目前已經(jīng)可以服務(wù)專業(yè)用戶并生成高質(zhì)量?jī)?nèi)容,但整體上仍有很大提升空間,包括效率、成本以及內(nèi)容密度等方面的突破。
相比于語(yǔ)言模型,視頻生成模型的起步稍晚,但朱軍認(rèn)為,這種“后發(fā)”反而帶來(lái)了更快、更堅(jiān)定的前進(jìn)步伐。他提到,視頻模型領(lǐng)域已經(jīng)形成了對(duì)效率優(yōu)化的共識(shí)。例如,生數(shù)科技在推出Vidu2.0時(shí),就明確提出要做“最高效、最便宜的高質(zhì)量視頻模型”。這種理念已經(jīng)深入行業(yè),因此,他判斷視頻領(lǐng)域很難出現(xiàn)類似DeepSeek在語(yǔ)言模型中“效率遙遙領(lǐng)先”的局面,而是更期待讓視頻模型朝著“更可控、更好用”的方向發(fā)展。
談及開源,朱軍表示,開源一直是人工智能行業(yè)的重要趨勢(shì),生數(shù)科技也會(huì)開放部分創(chuàng)新方法供業(yè)界使用。然而,他指出,大部分所謂的開源模型并未真正開放核心訓(xùn)練過(guò)程及數(shù)據(jù)。“DeepSeek之所以受到用戶歡迎,核心在于其出色的效果和高效率。對(duì)C端用戶而言,最關(guān)心的始終是質(zhì)量和效率,而非模型是開源還是閉源。”
目前,視頻生成模型大多集中在5秒以內(nèi)的短視頻,朱軍認(rèn)為,這主要是成本問(wèn)題,而非能力限制。同時(shí),用戶的使用習(xí)慣也影響了視頻時(shí)長(zhǎng)的選擇。“現(xiàn)階段,大部分用戶習(xí)慣于豎屏短視頻,而如果要?jiǎng)?chuàng)作1分鐘以上的內(nèi)容,就需要更完整的故事架構(gòu),涉及到從文案策劃到內(nèi)容創(chuàng)作的完整流程,而不僅僅是簡(jiǎn)單的‘圖生視頻’。”
朱軍認(rèn)為,隨著基礎(chǔ)模型能力的提升,行業(yè)將逐步向更長(zhǎng)時(shí)長(zhǎng)、更具敘事性的場(chǎng)景拓展。“從短視頻向更長(zhǎng)時(shí)長(zhǎng)、敘事性更強(qiáng)的方向發(fā)展,將成為未來(lái)的一個(gè)重要趨勢(shì)。”
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP