四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟新聞
今日報紙

每經(jīng)網(wǎng)首頁 > 今日報紙 > 正文

大模型大幅降價乃至免費 互動數(shù)字人的春天來了?

每日經(jīng)濟新聞 2024-05-23 22:34:39

每經(jīng)記者 朱成祥    每經(jīng)編輯 張海妮    

在通義千問宣布大模型降價后,百度也隨即宣布旗下兩款大模型免費。5月22日,科大訊飛也宣布訊飛星火Lite API永久免費開放。

新華社圖

當下,數(shù)字人(本文為方便敘述,虛擬人亦表述為數(shù)字人)的互動能力正是依賴于大模型。大模型紛紛降價,對互動數(shù)字人是否是個機會?5月21日,飛影數(shù)字人戰(zhàn)略顧問小豪對《每日經(jīng)濟新聞》記者表示:“數(shù)字人和大模型是兩個領域。大模型價格下跌,對我們正在做的新產(chǎn)品(互動數(shù)字人)是利好。我們結合大模型之后,數(shù)字人可升級進化成數(shù)智人。”

訊飛智作產(chǎn)品經(jīng)理姚仕豪認為:“大模型有利于數(shù)字人的發(fā)展,目前看來成本不是關鍵因素,效果更重要。”

技術迭代:大模型提供了更好的交互性

小豪首先向記者講述了數(shù)字人的具體操作:“現(xiàn)在的數(shù)字人,是需要你給文案,再根據(jù)文案來生成數(shù)字人視頻。接入大模型之后,這個數(shù)字人就可以實時互動。比如數(shù)字人直播,可以根據(jù)觀眾的提問來實時回答。大模型是‘大腦’,數(shù)字人是‘身體’,兩者結合,成為新的數(shù)智人。”

那么,大模型降價之后,對數(shù)字人行業(yè)有何影響?

小豪說:“比如前面說到的互動數(shù)字人,大模型成本降低后,面向C端(消費端)的用戶場景才能夠被真正釋放。如果大模型的價格很高,你跟一個數(shù)字人聊天1小時,光是大模型的費用就要很多,現(xiàn)在價格下降了90%后,普通人也能承擔(得起)這個費用。”

頭豹研究院行業(yè)分析師陳慶民也對記者表示:“大模型技術的發(fā)展將為數(shù)字人提供更好的交互性,尤其是結合自然語言處理和語音識別技術,數(shù)字人可以更自然地理解和回應人類語言,從而提升用戶體驗。”

不過,在姚仕豪看來,相比降價,數(shù)字人的效果更重要。根據(jù)訊飛智作公眾號文章,數(shù)字人本質(zhì)是對人的數(shù)字化模擬,具備三大特征:外觀、行為和思想。這些特性的實現(xiàn)依賴一系列先進技術的融合,如圖像識別、3D建模、動作捕捉、自然語言處理、計算機視覺等。

也就是說,數(shù)字人不僅僅需要大模型技術。

4月30日,《每日經(jīng)濟新聞》記者來到淘氣叮當總部。工作人員向記者展示了數(shù)字人動作捕捉的場景,以及數(shù)字人直播效果展示。如果不是工作人員提醒,記者已經(jīng)很難分清真人直播與數(shù)字人直播的區(qū)別。

上述工作人員說:“你看到的這個場景叫做多模態(tài)建模。她(正在被建模的真人主播)現(xiàn)在說的話、行為動作都會被我們在后臺打上標簽,通過文字帶動標簽形成一系列動作,還原成你看到的現(xiàn)場。錄制需要一個小時以上,因為得有足夠多的動作和語言。如果用5分鐘、10分鐘的素材來做建模,出來的效果并不符合品牌方的要求。”

公司總經(jīng)理王微接受《每日經(jīng)濟新聞》記者采訪時表示:“數(shù)字人直播之所以能做到那么逼真,與技術進步密切相關。比如大模型技術、動作捕捉、CG(計算機圖形)、CV(計算機視覺)。前年時,能夠實現(xiàn)的只是類似二次元卡通人物的數(shù)字人,到去年已經(jīng)出現(xiàn)1:1擬人的數(shù)字人。”

陳慶民也表示:“CG和渲染技術在實現(xiàn)數(shù)字人外觀和動作的逼真度上發(fā)揮重要作用。在面部表情和身體語言處理上,現(xiàn)在的技術能更精細地捕捉和模擬真實人類的微表情和細微動作。”

上海交通大學博士生導師、深蘭科技創(chuàng)始人、董事長陳海波告訴記者:“目前數(shù)字人主要依賴于深度學習、計算機視覺、語音識別和自然語言處理等技術。其中,CG和渲染技術在數(shù)字人的創(chuàng)建中占據(jù)了重要的地位,尤其是在數(shù)字人的外觀和動作的生成中。在處理面部表情和身體語言方面,目前的技術已經(jīng)可以通過深度學習算法識別人類的面部表情和身體語言,并生成相應的數(shù)字人表情和動作。”

競爭優(yōu)勢:解決傳統(tǒng)主播無法批量化復制的問題

既然相關技術已在面部表情、身體語言處理、互動能力等多方面取得較大進步,加上大模型降價,這一切會帶來數(shù)字人市場的爆發(fā)嗎?

某人工智能公司高管朱舜水(化名)5月20日向《每日經(jīng)濟新聞》記者講述了他實際使用數(shù)字人的感受:“數(shù)字人技術的進步,顯著提升了視頻制作的效率。以往在制作課程視頻時,每一期視頻都需要進行單獨的修改和剪輯,既費時又費力?,F(xiàn)在我們只需要花半天時間收集音視頻素材,再用約一天時間進行渲染、訓練,就能夠達到‘以假亂真’的效果。”

朱舜水補充說:“使用數(shù)字人,我們可以替代真人進行各種操作,不僅實現(xiàn)了高度逼真的呈現(xiàn)效果,還大大簡化了修改過程。當需要調(diào)整內(nèi)容時,只需對數(shù)字人進行相應的修改,操作(起來)非常方便。”

王微認為,過去電商行業(yè)存在主播成本高、流動性強的問題。很多時候,把主播培養(yǎng)出來卻留不住,主播自己單干了。平庸的主播留得住,但不為公司創(chuàng)造價值且成本也不低。比如在上海,幾乎沒有低于1萬元(月薪,下同)的主播。一個比較好的主播,可能需要1.5萬元以上,甚至2萬元以上再加提成,這對企業(yè)而言成本也蠻高的。

在一線城市或是網(wǎng)紅經(jīng)濟比較發(fā)達的地區(qū),可能數(shù)字人主播是對真人主播的替代。而在相對較為偏遠的地方,招到合適的主播并非易事。王微稱:“對于下沉市場,(數(shù)字人)解決的是公司找不到合適的團隊去做直播這件事。”

此外,數(shù)字人直播還能解決傳統(tǒng)主播無法批量化復制的問題。王微稱:“(真人)主播可能播4到6個小時就很辛苦。但像數(shù)字人主播,你讓它播多久就可以播多久。比如你是某電器廠商,可以批量打造矩陣直播間,100個直播間只需要準備100臺電腦。我們找來100個模特來克隆,克隆成數(shù)字人后,你就可以開100個直播間。”

此外,數(shù)字人還可以做外語的口播視頻。小豪表示:“比如一些跨境電商,他們需要去海外社交平臺引流,做外語口播視頻。目前都要求降本增效,主要是不用找外語專業(yè)的人出鏡,產(chǎn)量也提升很多。一般這類口播視頻,一天拍不了幾條,還需要找場地、拍攝人員、剪輯人員。數(shù)字人主要就是做真人嘴替,只要提供文案就能生成,一天100條都可以。”

行業(yè)生態(tài):數(shù)字人直播從“重技術”到“重運營”

目前,淘氣叮當提供的是介于2D與3D之間的2.5D(數(shù)字人)。

姚仕豪表示:“訊飛支持2D和3D數(shù)字人的構建和驅動,我們將數(shù)字人分為5大類:2D真人、2D生成人、3D超寫實、3D美型和3D卡通,根據(jù)不同的應用場景推薦不同的數(shù)字人類型。”

隨著技術的巨大進步,數(shù)字人在“逼真程度”上已經(jīng)媲美真人。朱舜水也表示:“我們給很多人看過,不提醒都意識不到是數(shù)字人。”

但他也提到數(shù)字人技術門檻不高。朱舜水稱:“小公司都能做(數(shù)字人視頻),基本都是小單子。”

《每日經(jīng)濟新聞》記者觀察到,數(shù)字人直播行業(yè)也呈現(xiàn)出從“重技術”到“重運營”的趨勢。

小豪表示:“數(shù)字人直播我們也做,主要是受平臺規(guī)則的限制。(但)技術上已經(jīng)能實現(xiàn)(數(shù)字人直播),數(shù)字人可以和觀眾互動,與真人同屏出現(xiàn)。另外有一些方式,可以規(guī)避在抖音直播間里被判定(為)違規(guī),但平臺整體的方向目前是不支持的態(tài)度。”

數(shù)字人視頻門檻相對低,而數(shù)字人直播則相對復雜。小豪表示:“數(shù)字人直播,老板們是很重視ROI(投資回報率)的,我們(產(chǎn)品提供方)需要和他們(用戶)的直播團隊深度交流,研究他們的話術,了解他們直播的上品流程和策略,是一個重運營的活。”

王微表示:“去年之前,我們更多做的是技術端的服務。即你買我的產(chǎn)品,我把數(shù)字人交付給你。(在)這個過程中,我們發(fā)現(xiàn)有一些客戶沒有運營團隊,(數(shù)字人)拿回去很可能會被閑置。”

“對于那些不太會用的,也沒有運營團隊的,我們提供‘技術+運營’的方式。你只需提供你的賬號,把你的樣品、產(chǎn)品賣點提供給我們,你就可以不用管了。我們來克隆數(shù)字主播,然后在我們基地直播。(客戶)也不用提供硬件。”王微說。

據(jù)悉,淘氣叮當已經(jīng)在全國建設了7個數(shù)字人直播基地。

盡管平臺目前尚不支持,數(shù)字人直播依然轟轟烈烈地開展起來。

對于數(shù)字人直播是否會沖擊傳統(tǒng)主播,陳慶民說:“數(shù)字人直播的興起確實對傳統(tǒng)主播的職業(yè)生涯產(chǎn)生了影響。數(shù)字人可以提供7×24小時的服務,降低人力成本,這可能導致傳統(tǒng)主播面臨更大的競爭壓力。但同時,數(shù)字人的出現(xiàn)也可能催生新的職業(yè)機會,如數(shù)字人的設計與開發(fā)、運營管理等。”

陳海波表示:“數(shù)字人直播的興起對傳統(tǒng)主播的職業(yè)生涯產(chǎn)生了一定的影響。例如,數(shù)字人可以24小時不間斷地直播,而且可以同時應對大量的用戶。此外,數(shù)字人還可以通過算法優(yōu)化直播內(nèi)容,提升直播效果。這使得數(shù)字人在某些方面具有優(yōu)勢,例如在直播時長和應對大量用戶方面。然而,傳統(tǒng)主播在表達情感、互動和個性化方面仍然具有優(yōu)勢,因此數(shù)字人和傳統(tǒng)主播可以相互補充,共同發(fā)展。”

此外,陳慶民也指出了數(shù)字人的技術局限性。其表示:“盡管技術取得了進步,但數(shù)字人在模仿人類行為和表情方面仍有局限性,如情感表達的深度、復雜情感的細微差別等。目前技術成熟度在特定場景下已較為可靠,但應對更復雜多變的人類行為和情感表達仍需進一步發(fā)展。”

陳海波說:“目前數(shù)字人在模仿人類行為和表情方面還存在一些局限性。例如,數(shù)字人的表情和動作可能不如人類自然,或者無法完全準確地表達人類的情感。此外,數(shù)字人的語音和語調(diào)也可能不如人類自然。雖然技術已經(jīng)取得了很大的進步,但在各種復雜場景下,數(shù)字人的表現(xiàn)可能仍然不如人類。”

封面圖片來源:新華社圖

如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

數(shù)字人 醫(yī)療服務 山東省

歡迎關注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0