四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟(jì)新聞
今日?qǐng)?bào)紙

每經(jīng)網(wǎng)首頁(yè) > 今日?qǐng)?bào)紙 > 正文

海天瑞聲董事長(zhǎng)賀琳:為大模型“火箭”加燃料

每日經(jīng)濟(jì)新聞 2023-07-19 23:09:09

■相關(guān)公司:海天瑞聲(SH688787,股價(jià)89.26元,市值53.85億元)

■核心競(jìng)爭(zhēng)力:具備標(biāo)準(zhǔn)化數(shù)據(jù)集產(chǎn)品規(guī)模化生產(chǎn)能力,累計(jì)完成超過(guò)1300個(gè)自有知識(shí)產(chǎn)權(quán)的訓(xùn)練數(shù)據(jù)標(biāo)準(zhǔn)化產(chǎn)品的建設(shè),在全球企業(yè)中穩(wěn)居前列;較早地布局并建立了多語(yǔ)種能力。

■機(jī)構(gòu)眼中的公司:國(guó)內(nèi)AI訓(xùn)練數(shù)據(jù)龍頭提供商,自動(dòng)駕駛業(yè)務(wù)打開(kāi)成長(zhǎng)空間

■所屬概念:數(shù)據(jù)服務(wù) 人工智能 AIGC

每經(jīng)記者 可楊 每經(jīng)編輯 董興生

11.2公里/秒,是火箭能夠成功擺脫地球引力束縛,飛離地球的速度。而瞬間的燃料燃燒所提供的推動(dòng)力,是幫助火箭一次又一次加速直至進(jìn)入外太空的助力。

在與《每日經(jīng)濟(jì)新聞》記者交流時(shí),海天瑞聲董事長(zhǎng)賀琳覺(jué)得,作為一切人工智能技術(shù)最上游的數(shù)據(jù),就是人工智能這艘火箭的“燃料”。海天瑞聲正是一家生成“燃料”的公司。

海天瑞聲是國(guó)內(nèi)最早投入AI訓(xùn)練數(shù)據(jù)的專業(yè)服務(wù)商之一,2023年,不斷翻涌的大模型浪潮將這家公司推至資本市場(chǎng)的聚光燈下。而身處潮水之中,賀琳對(duì)未來(lái)的思考依舊謹(jǐn)慎。

大模型狂熱:初印象非常驚艷,但對(duì)預(yù)期“審慎樂(lè)觀”

2023年初,賀琳在海天瑞聲公司年會(huì)上的發(fā)言稿,80%由ChatGPT完成。

“非常的驚艷,有點(diǎn)不(敢)相信。”這是賀琳對(duì)ChatGPT的初印象,“當(dāng)然,也有不盡如人意的地方,我覺(jué)得這才是我們要努力的方向。”ChatGPT的出現(xiàn),讓這家數(shù)據(jù)公司突然站到了資本市場(chǎng)舞臺(tái)中央。

2023年開(kāi)年以來(lái),海天瑞聲股價(jià)一路走高,3月一度漲至191.96元/股,較其2021年8月上市時(shí)翻了一番。而海天瑞聲方面,則已多次在投資者互動(dòng)平臺(tái)發(fā)布提示,稱公司與OpenAI沒(méi)有合作,也尚不能預(yù)期大模型業(yè)務(wù)將帶來(lái)多少收入。

“年初,我們還在仔細(xì)觀察、論證這個(gè)技術(shù)到底對(duì)數(shù)據(jù)有什么樣的需求。”賀琳認(rèn)為,合適的入局時(shí)機(jī)應(yīng)該是當(dāng)這項(xiàng)技術(shù)能夠真正在行業(yè)中落地的時(shí)候,這意味著其有真正的應(yīng)用場(chǎng)景,而非偽場(chǎng)景。“我們要確定這個(gè)需求是真的,且有人會(huì)為這個(gè)需求買(mǎi)單,這才是一個(gè)正常的商業(yè)邏輯。”

同時(shí),當(dāng)行業(yè)落地時(shí)刻到來(lái),數(shù)據(jù)的需求量也會(huì)迎來(lái)大規(guī)模提升。“這給公司帶來(lái)的上升空間,我認(rèn)為是非常樂(lè)觀的,(目前)我們還是抱著樂(lè)觀審慎的態(tài)度去看,去跟蹤,去研究這項(xiàng)技術(shù)。”

“判斷一個(gè)行業(yè),我們會(huì)更深刻地去想這個(gè)行業(yè)到底需要什么樣的數(shù)據(jù),只有想清楚這件事,我們才會(huì)走過(guò)去,我們當(dāng)初對(duì)自動(dòng)駕駛領(lǐng)域的布局就遵循了這個(gè)邏輯。”賀琳介紹。

布局自動(dòng)駕駛行業(yè)是海天瑞聲在2021年定下的戰(zhàn)略方向,在賀琳看來(lái),自動(dòng)駕駛賽道已經(jīng)符合這個(gè)判斷邏輯。從L2到L4,自動(dòng)駕駛已經(jīng)有相當(dāng)多的應(yīng)用落地,同時(shí),自動(dòng)駕駛的數(shù)據(jù)需求量十分巨大。

她判斷,自動(dòng)駕駛是一個(gè)人命關(guān)天、對(duì)安全要求非常高的技術(shù),它需要大量數(shù)據(jù)來(lái)打磨,去覆蓋各個(gè)不常見(jiàn)的場(chǎng)景來(lái)保證安全性,因?yàn)槿魏螛O端天氣或極端場(chǎng)景都可能導(dǎo)致誤判。“怎么避免?就需要大量的數(shù)據(jù)去訓(xùn)練,讓模型接觸到更多長(zhǎng)尾的場(chǎng)景來(lái)提高它的安全性。”

今年4月18日,海天瑞聲正式推出其專為自動(dòng)駕駛場(chǎng)景設(shè)計(jì)的全棧式數(shù)據(jù)標(biāo)注平臺(tái)“DOTS-AD自動(dòng)駕駛標(biāo)注平臺(tái)”。

數(shù)據(jù)需求增加背后:系統(tǒng)性差距依舊存在

賀琳曾就職于中國(guó)科學(xué)院聲學(xué)研究所,從事語(yǔ)音識(shí)別、語(yǔ)音合成、漢語(yǔ)語(yǔ)言理解、語(yǔ)音心理測(cè)試等方面的研究工作。

成立于2005年的海天瑞聲,最初誕生于賀琳在這份工作中捕捉到的行業(yè)痛點(diǎn)。“我們當(dāng)時(shí)在課題組其實(shí)也會(huì)遇到(缺少)數(shù)據(jù)的問(wèn)題,解決辦法就是工作人員,加上研究生、博士生,自己來(lái)做數(shù)據(jù)。”盡管彼時(shí)實(shí)驗(yàn)室的數(shù)據(jù)量相對(duì)較少,但也已經(jīng)算是一項(xiàng)繁瑣的工作。

隨著技術(shù)的發(fā)展,智能語(yǔ)音從實(shí)驗(yàn)室走向大規(guī)模應(yīng)用階段,更多場(chǎng)景的覆蓋需求,意味著數(shù)據(jù)需求隨之大規(guī)模增加。與此同時(shí),在與一些就職于大型企業(yè)或研究機(jī)構(gòu)的前同事交流時(shí),賀琳發(fā)現(xiàn),大家都在關(guān)注數(shù)據(jù)的問(wèn)題。“(大家)認(rèn)為數(shù)據(jù)是一個(gè)非常大的瓶頸,阻礙他們技術(shù)的落地。所以我就在想,那是不是可以由我出來(lái)做這件事情,幫助大家解決這個(gè)困難。”

時(shí)至今日,賀琳覺(jué)得,彼時(shí)促使她創(chuàng)業(yè)的瓶頸依舊存在。

在她看來(lái),數(shù)據(jù)的需求是跟著技術(shù)的發(fā)展而變化的,隨著技術(shù)在各個(gè)行業(yè)中落地,就會(huì)有更多的數(shù)據(jù)需求爆發(fā)。“像現(xiàn)在大模型起來(lái),很多人都認(rèn)為,數(shù)據(jù)差距是一個(gè)造成系統(tǒng)性差距的非常重要的原因,所以大家認(rèn)為數(shù)據(jù)還是很重要的要素,這個(gè)瓶頸依然存在。”

不同的是,賀琳創(chuàng)業(yè)之初,國(guó)內(nèi)競(jìng)爭(zhēng)對(duì)手少,海天瑞聲得以在市場(chǎng)快速突圍。而如今,國(guó)內(nèi)已經(jīng)出現(xiàn)一批新的數(shù)據(jù)公司,先發(fā)優(yōu)勢(shì)成為當(dāng)下數(shù)據(jù)公司核心競(jìng)爭(zhēng)力的基礎(chǔ)。“其實(shí),這個(gè)行業(yè)有很多的技術(shù)壁壘和‘know-how’,也是需要不斷打磨項(xiàng)目,才能去沉淀自己的技術(shù)、學(xué)會(huì)各類‘knowhow’的,這是靠項(xiàng)目積累出來(lái)的,而不是短期能很快積累起來(lái)的。”

海量數(shù)據(jù)如何最終成功支撐起龐大參數(shù)的大模型運(yùn)行?需要首選了解一個(gè)概念——數(shù)據(jù)集。

賀琳介紹,數(shù)據(jù)集的產(chǎn)生是一個(gè)非常復(fù)雜的過(guò)程,其中包括設(shè)計(jì)階段、采集階段、處理階段以及最后的質(zhì)檢階段。

在設(shè)計(jì)環(huán)節(jié),需要先去了解數(shù)據(jù)集是為了解決哪個(gè)問(wèn)題,這個(gè)問(wèn)題需要什么樣的數(shù)據(jù),需要多大的量,需要什么樣的場(chǎng)景,以及采集的樣本、規(guī)模、內(nèi)容,包括采集的設(shè)備、標(biāo)注的規(guī)范等;采集環(huán)節(jié)則是按照設(shè)計(jì)的方案,到大千世界采集,有可能是聲音,有可能是圖像、圖片,又或是手寫(xiě)的字、道路的場(chǎng)景。采集完成后則需要進(jìn)入清洗、標(biāo)注環(huán)節(jié)。最后生產(chǎn)出的數(shù)據(jù)集需要通過(guò)雙層的質(zhì)檢流程,最終才能生產(chǎn)出一個(gè)合格的數(shù)據(jù)集。

這其中,清洗規(guī)則的好壞、標(biāo)注的準(zhǔn)確性都會(huì)極大地影響數(shù)據(jù)集的質(zhì)量,進(jìn)而影響模型的效果。

賀琳舉例說(shuō),海天瑞聲的大模型數(shù)據(jù)清洗率是5%,即清洗出來(lái)正確的數(shù)據(jù)僅僅占原數(shù)據(jù)的5%,這也印證了數(shù)據(jù)清洗環(huán)節(jié)的重要性。而標(biāo)注的流程則主要是解決準(zhǔn)確性和一致性問(wèn)題,“我們通常說(shuō)95%、98%或者是99%,不同的準(zhǔn)確率對(duì)模型訓(xùn)練的結(jié)果有非常大的影響”。

“數(shù)據(jù)的清洗和標(biāo)注流程對(duì)于模型的質(zhì)量至關(guān)重要,它們可以提高數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,幫助模型更好地去學(xué)習(xí),也為模型的評(píng)估奠定了一個(gè)很好的基礎(chǔ)。”賀琳表示。

賀琳認(rèn)為,高質(zhì)量的數(shù)據(jù)包括了數(shù)據(jù)的豐富度,場(chǎng)景的豐富度,數(shù)據(jù)的準(zhǔn)確性、一致性等,這都是衡量高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)。她也認(rèn)同,高質(zhì)量數(shù)據(jù)的提供,需要高質(zhì)量人工的支持。

“有一些高質(zhì)量的數(shù)據(jù),尤其是行業(yè)數(shù)據(jù),確實(shí)需要更高層次的人去處理。因?yàn)槲覀円擦私獾剑馩penAI這樣的公司,它背后也有一個(gè)很強(qiáng)大的數(shù)據(jù)處理團(tuán)隊(duì),他們要把對(duì)行業(yè)的‘know-how’或者是更高層的一些知識(shí)灌輸?shù)綌?shù)據(jù)里。”她表示。

浪潮的下一步:離開(kāi)人工,實(shí)現(xiàn)智能

“有多少智能,就有多少人工。”這句話依舊得到大部分人的認(rèn)同。

在海天瑞聲這家“燃料”制造商,優(yōu)質(zhì)“燃料”的誕生,同樣需要最了解“火箭”的人來(lái)把控。

賀琳介紹,海天瑞聲的管理層除擁有比較好的學(xué)術(shù)背景外,也都有在外企或大廠等機(jī)構(gòu)的工作、管理經(jīng)驗(yàn)。“他們以前是數(shù)據(jù)的使用者,加入公司以后,他們非常知道數(shù)據(jù)的使用者需要什么樣的數(shù)據(jù),這可以讓他們更快速地對(duì)市場(chǎng)有預(yù)判,也會(huì)更好地跟業(yè)界交流。”

她同時(shí)坦言,為不同行業(yè)提供的數(shù)據(jù),需要具備不同行業(yè)專業(yè)知識(shí)的人來(lái)處理。“但把規(guī)則定下后,可能通過(guò)一些訓(xùn)練,讓基礎(chǔ)的人員能具備這樣的訓(xùn)練能力。”

在賀琳看來(lái),“有多少智能就有多少人工”是一個(gè)誤解。“確實(shí),這個(gè)行業(yè)有很多的人力,但人力是在技術(shù)的支撐下做這些事,沒(méi)有技術(shù)支撐,可能人力需要現(xiàn)在的10倍都不止。所以,我們這種綜合性的數(shù)據(jù)服務(wù)商一直都在追求用更自動(dòng)、更智能的方式來(lái)完成數(shù)據(jù)的任務(wù),不斷解放人力。”

賀琳希望,能一步步減少人工對(duì)人工智能的參與,大模型的浪潮,正在加速實(shí)現(xiàn)這個(gè)目標(biāo)。“讓計(jì)算機(jī)自動(dòng)處理數(shù)據(jù),永遠(yuǎn)都是我們的追求。”

據(jù)她介紹,公司也在探討未來(lái)的兩大工作方向,一個(gè)是打造一批針對(duì)通用領(lǐng)域、垂直領(lǐng)域,且具備單模態(tài)和多模態(tài)屬性的、供給大模型使用的數(shù)據(jù)集產(chǎn)品。另外,海天瑞聲也在計(jì)劃啟動(dòng)數(shù)據(jù)生產(chǎn)垂直大模型的研發(fā)項(xiàng)目,希望用大模型技術(shù)來(lái)支撐數(shù)據(jù)的生產(chǎn)。“大家都說(shuō)大模型將給眾多垂直行業(yè)帶來(lái)重大積極影響,其實(shí)數(shù)據(jù)處理本身也是一個(gè)垂直行業(yè),我們希望用大模型的能力來(lái)更自動(dòng)化地把數(shù)據(jù)處理這件事情做好。”

“人工智能的背后是人工”也是有可能發(fā)生改變的。“現(xiàn)在背后依然確實(shí)需要很多的人工,但是我們一直在盡量想辦法減少人工。包括加入很多算法,提高對(duì)數(shù)據(jù)做預(yù)標(biāo)注的準(zhǔn)確率,準(zhǔn)確率越高,人工參與的程度越低。”

但賀琳也坦言,這件事并不容易。“其實(shí),如果真的把這個(gè)事都做成了,人工智能就完成了。因?yàn)椴恍枰说慕槿?,相?dāng)于它處理的東西都跟人想的是一樣的。”但另一方面,當(dāng)技術(shù)達(dá)到一定突破后,倫理、法規(guī)、安全等問(wèn)題就會(huì)出現(xiàn),如何解決這些問(wèn)題,也是今后整個(gè)人工智能行業(yè)面臨的難題。

新的變革契機(jī):多模態(tài)需求將推高行業(yè)門(mén)檻

每一次的火箭升空,都需要大量的燃料助推。賀琳認(rèn)為,當(dāng)人工智能技術(shù)迎來(lái)新的變革時(shí),對(duì)數(shù)據(jù)提供商來(lái)說(shuō)就是一次契機(jī)。“我覺(jué)得可能也是根據(jù)一些需求,比如像蘋(píng)果手機(jī)的siri出來(lái)以后,大家就會(huì)認(rèn)為在語(yǔ)音上有一些突破,這些數(shù)據(jù)的需求就會(huì)暴增。”

賀琳覺(jué)得,在整個(gè)人工智能行業(yè),數(shù)據(jù)就像人類學(xué)習(xí)知識(shí)時(shí)使用的教科書(shū),“你的教科書(shū)越全面,信息越準(zhǔn)確,學(xué)習(xí)的結(jié)果就會(huì)越好,其實(shí)機(jī)器也是一樣的”。她認(rèn)為,數(shù)據(jù)集本質(zhì)上就是人類把自己對(duì)大千世界、萬(wàn)事萬(wàn)物的一些認(rèn)知和判斷方法加載到數(shù)據(jù)上,然后讓機(jī)器去學(xué)習(xí),使機(jī)器得出來(lái)的對(duì)事物的判斷結(jié)果更加趨近于人類。在她看來(lái),這就是數(shù)據(jù)公司的價(jià)值。

而在大模型的熱潮之下,多模態(tài)的能力成為一個(gè)關(guān)鍵詞。賀琳表示,多模態(tài)數(shù)據(jù)是未來(lái)的一個(gè)方向。“多模態(tài)的數(shù)據(jù)里蘊(yùn)含了更多更豐富的信息,對(duì)機(jī)器做判斷也會(huì)提供更多的信息來(lái)源,但多模態(tài)的數(shù)據(jù)(獲?。┑碾y度也非常大。”

她進(jìn)一步介紹,首先,多模態(tài)數(shù)據(jù)要求的量很大,合規(guī)取得這些數(shù)據(jù)的難度就會(huì)更大;其次,多模態(tài)數(shù)據(jù)采集的設(shè)備也非常昂貴,對(duì)數(shù)據(jù)公司的財(cái)務(wù)能力是一種考量。此外,多模態(tài)數(shù)據(jù)對(duì)齊的問(wèn)題、對(duì)齊的標(biāo)準(zhǔn)等,都是多模態(tài)數(shù)據(jù)的難點(diǎn)。

賀琳認(rèn)同一點(diǎn),多模態(tài)能力會(huì)導(dǎo)致數(shù)據(jù)公司的入門(mén)門(mén)檻提高。“包括我們可能還要去做一些數(shù)據(jù)生成技術(shù),用我們的一些單一形態(tài)的數(shù)據(jù)來(lái)合成多模態(tài)的數(shù)據(jù),這都要求公司有更高維度的研發(fā)能力。”

目前,賀琳依舊認(rèn)為,數(shù)據(jù)這個(gè)方向是海天瑞聲未來(lái)的定位,因?yàn)檫@個(gè)領(lǐng)域要做的事情太多了。“隨著技術(shù)的發(fā)展進(jìn)入千行百業(yè),每一個(gè)行業(yè)都需要認(rèn)真地去了解這個(gè)行業(yè)的‘knowhow’是什么、如何解決這個(gè)行業(yè)的一些關(guān)鍵痛點(diǎn)。那么多行業(yè)呢,我們有足夠大的空間去拓展。”

而深入行業(yè),則需要公司本身有一定的研發(fā)能力,同時(shí),在進(jìn)入行業(yè)時(shí),需要有行業(yè)專家的參與,通過(guò)真實(shí)的項(xiàng)目打磨,進(jìn)而逐漸積累。“這不是個(gè)一蹴而就的事情,需要一個(gè)長(zhǎng)期持續(xù)的過(guò)程。”她表示。

賀琳相信,通用人工智能終將有一天會(huì)實(shí)現(xiàn),但這也需要一個(gè)過(guò)程,即便技術(shù)達(dá)到了,還有倫理的問(wèn)題、安全的問(wèn)題、合規(guī)的問(wèn)題。這些都解決了之后,如何解決行業(yè)的問(wèn)題,也有很長(zhǎng)的一段路要走。

而在這條路上,她認(rèn)為,數(shù)據(jù)公司將會(huì)扮演越來(lái)越重要的角色。在這個(gè)過(guò)程中,算法可能會(huì)相對(duì)趨于穩(wěn)定,但仍需大量的、類型迥異的數(shù)據(jù)對(duì)算法進(jìn)行訓(xùn)練,才能解決行業(yè)的問(wèn)題。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

數(shù)據(jù) 海天瑞聲 IT服務(wù) 北京市 數(shù)字水印 人臉識(shí)別 董事長(zhǎng)

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0