四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

<rp id="scm2q"></rp>

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

對(duì)話生數(shù)科技CEO唐家渝：AI視頻到了“普及”節(jié)點(diǎn)，提升時(shí)長不是產(chǎn)品化的重點(diǎn)

每日經(jīng)濟(jì)新聞 2024-09-12 21:26:32

每經(jīng)記者李少婷可楊每經(jīng)編輯段煉文多

9月11日，生數(shù)科技舉辦媒體開放日活動(dòng)，發(fā)布“主體參照”（Subject Consistency）功能，意在破解視頻模型生成主體的“一致性”難題。

活動(dòng)上，生數(shù)科技聯(lián)合創(chuàng)始人、CEO唐家渝在回應(yīng)《每日經(jīng)濟(jì)新聞》記者關(guān)于商業(yè)模式的提問時(shí)表示，目前行業(yè)內(nèi)有SaaS（軟件即服務(wù)）訂閱和MaaS（模型即服務(wù)）兩種，7月30日Vidu上線以來，在全球范圍內(nèi)已收到數(shù)萬個(gè)API接入申請(qǐng)。

就底層架構(gòu)，唐家渝表示旗下產(chǎn)品“VIDU”所用的“U-ViT架構(gòu)”與Sora所用的“DiT架構(gòu)”幾乎一模一樣，差別在于U-ViT作了更多面向落地的設(shè)計(jì)。在技術(shù)路線上，大家現(xiàn)在處于底層架構(gòu)收斂的狀態(tài)，但同質(zhì)化并不代表大家所有進(jìn)展、能力相同，唐家渝舉例說：“例如現(xiàn)在的語言模型，（雖然）大家都使用Transformer架構(gòu)，但從現(xiàn)實(shí)來看，OpenAI還是明顯領(lǐng)先的?！?/span>

目前，AI視頻的主要使用者還是專業(yè)用戶，如電影工作者等，但唐家渝認(rèn)為，AI視頻已經(jīng)來到了“普及”的節(jié)點(diǎn)。

此外，從當(dāng)前階段的收入來說，生數(shù)科技在B端市場獲得的收入更多，C端的增長曲線則在Vidu產(chǎn)品上市這一個(gè)月以來非?！岸盖汀?。

CFF20LXzkOxnlfBbXURpd39MVKpibQiaWDZgrejlYrIYScSpNR0VlBRDgccdFPHr3Ojaqx5DDBaLSvpiaE4r9gVibw.jpg

唐家渝圖片來源：每經(jīng)記者李少婷攝

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

“最終的目標(biāo)還是做通用大模型”

唐家渝是清華大學(xué)自然語言處理實(shí)驗(yàn)室碩士，此前曾任瑞萊智慧副總裁、騰訊優(yōu)圖實(shí)驗(yàn)室高級(jí)產(chǎn)品經(jīng)理等。唐家渝目前所在的生數(shù)科技于2023年3月成立，今年3月初宣布完成新一輪融資。今年4月底，該公司與清華大學(xué)聯(lián)合研發(fā)的原創(chuàng)視頻大模型Vidu面向全球發(fā)布，7月底正式上線，全面開放使用。

Vidu問世即被稱為“中國版Sora”。這種稱呼一方面是因?yàn)橥饨鐚?duì)中國視頻大模型充滿期待，另一方面，從技術(shù)架構(gòu)上說，二者也有異曲同工之處。

據(jù)介紹，Vidu的底層基于自研的U-ViT架構(gòu)，而Sora是基于DiT架構(gòu)。關(guān)于U-ViT與DiT架構(gòu)的區(qū)別，唐家渝介紹：“一句話總結(jié)來說，幾乎一模一樣?！倍叨际荄iffusion和Transformer的融合，甚至底層一些技術(shù)細(xì)節(jié)也是相同的。不同之處在于，U-ViT架構(gòu)“做了更多面向落地的優(yōu)化設(shè)計(jì)”，簡單概括下來，就是在訓(xùn)練同一模型時(shí)，相同時(shí)間下，U-ViT所需的算力更少。

從整體的技術(shù)路線來看，當(dāng)前國內(nèi)幾家視頻大模型都走的是“類Sora路線”，那大家未來是否會(huì)愈加同質(zhì)化？

對(duì)此，唐家渝介紹，當(dāng)前大家是處于底層架構(gòu)收斂的狀態(tài)中，“但同質(zhì)化并不代表大家所有進(jìn)展、能力都相同”。他以語言模型為例分析道，大家都會(huì)使用Transformer架構(gòu)，但從現(xiàn)實(shí)情況來看，OpenAI還是明顯領(lǐng)先，這是因?yàn)樵谶@一架構(gòu)基礎(chǔ)上仍有諸多環(huán)節(jié)需要技術(shù)技巧、實(shí)踐經(jīng)驗(yàn)幫助破解難點(diǎn)，這就導(dǎo)致了不同語言模型在能力上的差距。

當(dāng)前，業(yè)內(nèi)也在探索新的架構(gòu)路線，例如將多模態(tài)的生成和多模態(tài)理解結(jié)合起來，但目前仍沒有特別好的方案出現(xiàn)。

“我們最終的目標(biāo)還是做通用大模型，視頻生成是多模態(tài)生成大模型中間的一個(gè)階段?！碧萍矣逄钩辛碎_發(fā)通用大模型的雄心。

他還表示：“這并不意味著我們完全只在做這一個(gè)事情（指視頻大模型），我們除了視頻以外也有其他模態(tài)的生成能力?！?/span>

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

“目前B端市場收入更多”

技術(shù)底層邏輯的趨同，也或多或少低導(dǎo)致了市場開發(fā)思路相近。

“大家的商業(yè)選擇上還是比較類似的，即便是像Sora、Runway，都在積極地?fù)肀Ш萌R塢或者廣告合作等方向。”唐家渝認(rèn)為，AI生成視頻領(lǐng)域總的來說還處在發(fā)展前期，國際頭部玩家在齊頭并進(jìn)，或者叫“共同擴(kuò)大市場”。

以生數(shù)科技為例，唐家渝將落地商業(yè)模式分為兩個(gè)方向：其一是SaaS訂閱模式，Vidu每個(gè)月有一些免費(fèi)的額度，但是如果有更多的需求或想使用更高級(jí)的能力，就需要支付訂閱費(fèi)用，Vidu也會(huì)不斷豐富產(chǎn)品功能，以滿足用戶的創(chuàng)作需求；其二是模型能力輸出模式（MaaS），當(dāng)前不少客戶需要視頻生成能力，以此作為工作流程的一個(gè)環(huán)節(jié)或者來衍生出有意思的玩法，這些客戶希望可以直接調(diào)用模型。

從收入角度來看，B端市場在目前這個(gè)階段獲得的收入更多。不過Vidu上線一個(gè)月來，C端的增長曲線也非?！岸盖汀薄！拔覀兡壳芭袛嘞聛淼脑?，B端（的需求）是比較明確、比較直接和比較穩(wěn)定的，所以B端是我們的一個(gè)長期、重點(diǎn)方向。C端我們也在不斷探索。”唐家渝表示。

當(dāng)前，國內(nèi)的視頻生成模型和工具已形成“出海潮”，并且表現(xiàn)亮眼，但唐家渝認(rèn)為：“還不能說國內(nèi)已經(jīng)完全領(lǐng)先，國內(nèi)外頭部玩家都屬于第一梯隊(duì)。”

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

“AI視頻來到了一個(gè)節(jié)點(diǎn)”

視頻大模型的受眾群體中，影視、動(dòng)漫從業(yè)者居多，他們多被視為“專業(yè)受眾”，那對(duì)“普通人”來說，AI視頻何時(shí)能成為他們可以駕馭的工具？

唐家渝以攝影為例，從膠片機(jī)時(shí)代到手機(jī)攝影普及，就是一個(gè)不斷降低創(chuàng)作者門檻的過程?！艾F(xiàn)在的AI視頻來到了一個(gè)節(jié)點(diǎn)?！碧萍矣褰榻B，9月11日，生數(shù)科技發(fā)布的“主體參照”功能，正是為降低創(chuàng)作者門檻或者加速創(chuàng)作過程所作的努力。

“技術(shù)仍是關(guān)鍵因素，目前的視頻生成只是初步符合物理規(guī)律，還有很高的天花板需要突破，比如更強(qiáng)的模型能力以及更多模態(tài)的協(xié)同生成?！碧萍矣褰榻B，這次發(fā)布的“主體參照”能力在一致性生成方面確實(shí)有了很大提升，但是還有很多地方需要進(jìn)一步提升?！袄缫竽Ｐ蛷纳梢粋€(gè)商品變成生成一個(gè)工藝品，而這個(gè)工藝品上面有繁復(fù)花紋和鏤空部分，面對(duì)如此復(fù)雜的結(jié)構(gòu)，目前的生成成功率依舊不高。場景生成包含很多組成因素，例如運(yùn)動(dòng)鞋，我就希望它能在更復(fù)雜、更動(dòng)態(tài)化的場景中有更好的表現(xiàn)。這些都需要不斷提升模型能力?！?/span>

這個(gè)過程中，技術(shù)的原創(chuàng)性和突破性需要與良好的商業(yè)化齊頭并進(jìn)，因?yàn)樯虡I(yè)公司畢竟不是科研機(jī)構(gòu)。

以視頻生成的時(shí)長為例，拓展生成時(shí)長需要提升模型對(duì)世界抽象理解的能力、信息壓縮和放大的雙向能力。當(dāng)前Vidu最長可以生成32秒的視頻，生數(shù)科技計(jì)劃將其擴(kuò)展得更長，不過，時(shí)長還不是生數(shù)科技現(xiàn)在重點(diǎn)產(chǎn)品化的部分。

“在實(shí)際創(chuàng)作中，粗略地來說，90%以上的片段都是幾秒鐘。因此，從實(shí)用角度來看，我們還沒有將時(shí)長作為我們的優(yōu)先發(fā)布考慮。”唐家渝強(qiáng)調(diào)，但從模型能力角度，公司實(shí)際上在持續(xù)提升。

記者|李少婷?可楊

編輯|段煉文多?杜恒峰

校對(duì)|王月龍

｜每日經(jīng)濟(jì)新聞 ?nbdnews??原創(chuàng)文章｜

未經(jīng)許可禁止轉(zhuǎn)載、摘編、復(fù)制及鏡像等使用

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

杭州一些樓盤開始“破發(fā)”了

返回每經(jīng)網(wǎng)首頁

下一篇文章

國產(chǎn)美妝龍頭重大人事突變：85后“二代”侯亞孟接棒舅舅方玉友，成珀萊雅新CEO

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

<p id="zjvt2"></p>