四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

海天瑞聲創(chuàng)始人賀琳:為大模型“火箭”加燃料|專訪董事長(zhǎng)

每日經(jīng)濟(jì)新聞 2023-07-11 19:05:52

◎海天瑞聲是國(guó)內(nèi)最早投入AI訓(xùn)練數(shù)據(jù)的專業(yè)服務(wù)商之一,2023年,不斷翻涌的大模型浪潮將這家公司推至資本市場(chǎng)的聚光燈下。

◎“數(shù)據(jù)的清洗和標(biāo)注流程對(duì)于模型的質(zhì)量至關(guān)重要,它們可以提高數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,幫助模型更好地去學(xué)習(xí),也為模型的評(píng)估奠定了一個(gè)很好的基礎(chǔ)?!辟R琳表示。

每經(jīng)記者 可楊    每經(jīng)編輯 董興生    

相關(guān)公司:海天瑞聲(SH688787,股價(jià)92.15元,市值56億元)

核心競(jìng)爭(zhēng)力:具備標(biāo)準(zhǔn)化數(shù)據(jù)集產(chǎn)品規(guī)?;a(chǎn)能力,累計(jì)完成超過1300個(gè)自有知識(shí)產(chǎn)權(quán)的訓(xùn)練數(shù)據(jù)標(biāo)準(zhǔn)化產(chǎn)品的建設(shè),在全球企業(yè)中穩(wěn)居前列。較早地布局并建立了多語(yǔ)種能力。

機(jī)構(gòu)眼中的公司:國(guó)內(nèi)AI訓(xùn)練數(shù)據(jù)龍頭提供商,自動(dòng)駕駛業(yè)務(wù)打開成長(zhǎng)空間

所屬概念:數(shù)據(jù)服務(wù) 人工智能 AIGC

11.2公里/秒,是火箭能夠成功擺脫地球引力束縛,飛離地球的速度。而瞬間的燃料燃燒所提供的推動(dòng)力,是幫助火箭一次又一次加速直至進(jìn)入外太空的助力。

與《每經(jīng)人物•專訪董事長(zhǎng)》記者交流時(shí),海天瑞聲董事長(zhǎng)賀琳覺得,作為一切人工智能技術(shù)最上游的數(shù)據(jù),就是人工智能這艘火箭的“燃料”。海天瑞聲正是一家生成“燃料”的公司。

 

海天瑞聲是國(guó)內(nèi)最早投入AI訓(xùn)練數(shù)據(jù)的專業(yè)服務(wù)商之一,2023年,不斷翻涌的大模型浪潮將這家公司推至資本市場(chǎng)的聚光燈下。而身處潮水之中,賀琳對(duì)未來的思考依舊謹(jǐn)慎。

大模型狂熱:初印象非常驚艷,但對(duì)預(yù)期“審慎樂觀”

2023年初,賀琳在海天瑞聲公司年會(huì)上的發(fā)言稿,80%由ChatGPT完成。

“非常的驚艷,有點(diǎn)不(敢)相信。”這是賀琳對(duì)ChatGPT的初印象,“當(dāng)然,也有不盡如人意的地方,我覺得這才是我們要努力的方向。”ChatGPT的出現(xiàn),讓這家數(shù)據(jù)公司突然站到了資本市場(chǎng)舞臺(tái)中央。

2023年開年以來,海天瑞聲股價(jià)一路走高,3月一度漲至191.96元/股,較其2021年8月上市時(shí)翻了一番。而海天瑞聲方面,則已多次在投資者互動(dòng)平臺(tái)發(fā)布提示,稱公司與OpenAI沒有合作,也尚不能預(yù)期大模型業(yè)務(wù)將帶來多少收入。

“年初,我們還在仔細(xì)觀察、論證這個(gè)技術(shù)到底對(duì)數(shù)據(jù)有什么樣的需求。”賀琳認(rèn)為,合適的入局時(shí)機(jī)應(yīng)該是當(dāng)這項(xiàng)技術(shù)能夠真正在行業(yè)中落地的時(shí)候,這意味著其有真正的應(yīng)用場(chǎng)景,而非偽場(chǎng)景。“我們要確定這個(gè)需求是真的,且有人會(huì)為這個(gè)需求買單,這才是一個(gè)正常的商業(yè)邏輯。”

同時(shí),當(dāng)行業(yè)落地時(shí)刻到來,數(shù)據(jù)的需求量也會(huì)迎來大規(guī)模提升。“這給公司帶來的上升空間,我認(rèn)為是非常樂觀的,(目前)我們還是抱著樂觀審慎的態(tài)度去看、去跟蹤、去研究這項(xiàng)技術(shù)。”

“判斷一個(gè)行業(yè),我們會(huì)更深刻地去想這個(gè)行業(yè)到底需要什么樣的數(shù)據(jù),只有想清楚這件事,我們才會(huì)走過去,我們當(dāng)初對(duì)自動(dòng)駕駛領(lǐng)域的布局就遵循了這個(gè)邏輯。”賀琳介紹。

布局自動(dòng)駕駛行業(yè)是海天瑞聲在2021年定下的戰(zhàn)略方向,在賀琳看來,自動(dòng)駕駛賽道已經(jīng)符合這個(gè)判斷邏輯。從L2到L4,自動(dòng)駕駛已經(jīng)有相當(dāng)多的應(yīng)用落地,同時(shí),自動(dòng)駕駛的數(shù)據(jù)需求量十分巨大。

她判斷,自動(dòng)駕駛是一個(gè)人命關(guān)天、對(duì)安全要求非常高的技術(shù),它需要大量數(shù)據(jù)來打磨,去覆蓋各個(gè)不常見的場(chǎng)景來保證安全性,因?yàn)槿魏螛O端天氣或極端場(chǎng)景都可能導(dǎo)致誤判。“怎么避免?就需要大量的數(shù)據(jù)去訓(xùn)練,讓模型接觸到更多長(zhǎng)尾的場(chǎng)景來提高它的安全性。”

今年4月18日,海天瑞聲正式推出其專為自動(dòng)駕駛場(chǎng)景設(shè)計(jì)的全棧式數(shù)據(jù)標(biāo)注平臺(tái)“DOTS-AD自動(dòng)駕駛標(biāo)注平臺(tái)”。

數(shù)據(jù)需求增加背后:系統(tǒng)性差距依舊存在

賀琳曾就職于中國(guó)科學(xué)院聲學(xué)研究所,從事語(yǔ)音識(shí)別、語(yǔ)音合成、漢語(yǔ)語(yǔ)言理解、語(yǔ)音心理測(cè)試等方面的研究工作。

成立于2005年的海天瑞聲,最初誕生于賀琳在這份工作中捕捉到的行業(yè)痛點(diǎn)。“我們當(dāng)時(shí)在課題組其實(shí)也會(huì)遇到(缺少)數(shù)據(jù)的問題,解決辦法就是工作人員,加上研究生、博士生,自己來做數(shù)據(jù)。”盡管彼時(shí)實(shí)驗(yàn)室的數(shù)據(jù)量相對(duì)較少,但也已經(jīng)算是一項(xiàng)繁瑣的工作。

隨著技術(shù)的發(fā)展,智能語(yǔ)音從實(shí)驗(yàn)室走向大規(guī)模應(yīng)用階段,更多場(chǎng)景的覆蓋需求,意味著數(shù)據(jù)需求隨之大規(guī)模增加。與此同時(shí),在與一些就職于大型企業(yè)或研究機(jī)構(gòu)的前同事交流時(shí),賀琳發(fā)現(xiàn),大家都在關(guān)注數(shù)據(jù)的問題。“(大家)認(rèn)為數(shù)據(jù)是一個(gè)非常大的瓶頸,阻礙他們技術(shù)的落地。所以我就在想,那是不是可以由我出來做這件事情,幫助大家解決這個(gè)困難。”

時(shí)至今日,賀琳覺得,彼時(shí)促使她創(chuàng)業(yè)的瓶頸依舊存在。

在她看來,數(shù)據(jù)的需求是跟著技術(shù)的發(fā)展而變化的,隨著技術(shù)在各個(gè)行業(yè)中落地,就會(huì)有更多的數(shù)據(jù)需求爆發(fā)。“像現(xiàn)在大模型起來,很多人都認(rèn)為,數(shù)據(jù)差距是一個(gè)造成系統(tǒng)性差距的非常重要的原因,所以大家認(rèn)為數(shù)據(jù)還是很重要的要素,這個(gè)瓶頸依然存在。”

不同的是,賀琳創(chuàng)業(yè)之初,國(guó)內(nèi)競(jìng)爭(zhēng)對(duì)手少,海天瑞聲得以在市場(chǎng)快速突圍。而如今,國(guó)內(nèi)已經(jīng)出現(xiàn)一批新的數(shù)據(jù)公司,先發(fā)優(yōu)勢(shì)成為當(dāng)下數(shù)據(jù)公司核心競(jìng)爭(zhēng)力的基礎(chǔ)。“其實(shí),這個(gè)行業(yè)有很多的技術(shù)壁壘和‘know-how’,也是需要不斷打磨項(xiàng)目,才能去沉淀自己的技術(shù)、學(xué)會(huì)各類‘know-how’的,這是靠項(xiàng)目積累出來的,而不是短期能很快積累起來的過程。”

“燃料”的誕生:龐大參數(shù)支撐大模型

海量數(shù)據(jù)如何最終成功支撐起龐大參數(shù)的大模型運(yùn)行?需要首選了解一個(gè)概念——數(shù)據(jù)集。

賀琳介紹,數(shù)據(jù)集的產(chǎn)生是一個(gè)非常復(fù)雜的過程,其中包括設(shè)計(jì)階段、采集階段、處理階段以及最后的質(zhì)檢階段。

在設(shè)計(jì)環(huán)節(jié),需要先去了解數(shù)據(jù)集是為了解決哪個(gè)問題,這個(gè)問題需要什么樣的數(shù)據(jù),需要多大的量,需要什么樣的場(chǎng)景,以及采集的樣本、規(guī)模、內(nèi)容,包括采集的設(shè)備、標(biāo)注的規(guī)范等等;采集環(huán)節(jié)則是按照設(shè)計(jì)的方案,到大千世界采集,有可能是聲音,有可能是圖像、圖片,又或是手寫的字、道路的場(chǎng)景。采集完成后則需要進(jìn)入清洗、標(biāo)注環(huán)節(jié)。最后生產(chǎn)出的數(shù)據(jù)集需要通過雙層的質(zhì)檢流程,最終才能生產(chǎn)出一個(gè)合格的數(shù)據(jù)集。

這其中,清洗規(guī)則的好壞、標(biāo)注的準(zhǔn)確性都會(huì)極大地影響數(shù)據(jù)集的質(zhì)量,進(jìn)而影響模型的效果。

海天瑞聲人工智能基礎(chǔ)數(shù)據(jù)創(chuàng)新服務(wù)基地 圖片來源:公司供圖

賀琳舉例說,海天瑞聲的大模型數(shù)據(jù)清洗率是5%,即清洗出來正確的數(shù)據(jù)僅僅占原數(shù)據(jù)的5%,這也印證了數(shù)據(jù)清洗環(huán)節(jié)的重要性。而標(biāo)注的流程則主要是解決準(zhǔn)確性和一致性問題,“我們通常說95%、98%或者是99%,不同的準(zhǔn)確率對(duì)模型訓(xùn)練的結(jié)果有非常大的影響”。

“數(shù)據(jù)的清洗和標(biāo)注流程對(duì)于模型的質(zhì)量至關(guān)重要,它們可以提高數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,幫助模型更好地去學(xué)習(xí),也為模型的評(píng)估奠定了一個(gè)很好的基礎(chǔ)。”賀琳表示。

賀琳認(rèn)為,高質(zhì)量的數(shù)據(jù)包括了數(shù)據(jù)的豐富度,場(chǎng)景的豐富度,數(shù)據(jù)的準(zhǔn)確性、一致性等,這都是衡量高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)。她也認(rèn)同,高質(zhì)量數(shù)據(jù)的提供,需要高質(zhì)量人工的支持。

“有一些高質(zhì)量的數(shù)據(jù),尤其是行業(yè)數(shù)據(jù),確實(shí)需要更高層次的人去處理。因?yàn)槲覀円擦私獾?,像OpenAI這樣的公司,它背后也有一個(gè)很強(qiáng)大的數(shù)據(jù)處理團(tuán)隊(duì),他們要把對(duì)行業(yè)的‘know-how’或者是更高層的一些知識(shí)灌輸?shù)綌?shù)據(jù)里。”她表示。

浪潮的下一步:離開人工,實(shí)現(xiàn)智能

“有多少智能,就有多少人工。”這句話依舊得到大部分人的認(rèn)同。

在海天瑞聲這家“燃料”制造商,優(yōu)質(zhì)“燃料”的誕生,同樣需要最了解“火箭”的人來把控。

賀琳介紹,海天瑞聲的管理層除擁有比較好的學(xué)術(shù)背景外,也都有在外企或大廠等機(jī)構(gòu)的工作、管理經(jīng)驗(yàn)。“他們以前是數(shù)據(jù)的使用者,加入公司以后,他們非常知道數(shù)據(jù)的使用者需要什么樣的數(shù)據(jù),這可以讓他們更快速地對(duì)市場(chǎng)有預(yù)判,也會(huì)更好地跟業(yè)界交流。”

她同時(shí)坦言,為不同行業(yè)提供的數(shù)據(jù),需要具備不同行業(yè)專業(yè)知識(shí)的人來處理。“至少在初期包括規(guī)則探討、打磨標(biāo)簽、尺度和標(biāo)準(zhǔn)的把握階段需要有專業(yè)的人,但把規(guī)則定下后,可能通過一些訓(xùn)練,讓基礎(chǔ)的人員能具備這樣的訓(xùn)練能力。”

但是,在賀琳看來,“有多少智能就有多少人工”是一個(gè)誤解。“確實(shí),這個(gè)行業(yè)有很多的人力,但人力是在技術(shù)的支撐下做這些事,沒有技術(shù)支撐,可能人力需要現(xiàn)在的10倍都不止。所以,我們這種綜合性的數(shù)據(jù)服務(wù)商一直都在追求用更自動(dòng)、更智能的方式來完成數(shù)據(jù)的任務(wù),不斷解放人力。”

圖片來源:公司供圖

賀琳希望,能一步步減少人工對(duì)人工智能的參與,大模型的浪潮,正在加速實(shí)現(xiàn)這個(gè)目標(biāo)。“讓計(jì)算機(jī)自動(dòng)處理數(shù)據(jù),永遠(yuǎn)都是我們的追求。”

據(jù)她介紹,公司也在探討未來的兩大工作方向,一個(gè)是打造一批針對(duì)通用領(lǐng)域、垂直領(lǐng)域,且具備單模態(tài)和多模態(tài)屬性的、供給大模型使用的數(shù)據(jù)集產(chǎn)品。另外,海天瑞聲也在計(jì)劃啟動(dòng)數(shù)據(jù)生產(chǎn)垂直大模型的研發(fā)項(xiàng)目,希望用大模型技術(shù)來支撐數(shù)據(jù)的生產(chǎn)。“大家都說大模型將給眾多垂直行業(yè)帶來重大積極影響,其實(shí)數(shù)據(jù)處理本身也是一個(gè)垂直行業(yè),我們希望用大模型的能力來更自動(dòng)化地把數(shù)據(jù)處理這件事情做好。”

“人工智能的背后是人工”也是有可能發(fā)生改變的。“現(xiàn)在背后依然確實(shí)需要很多的人工,但是我們一直在盡量想辦法減少人工。包括加入很多算法,提高對(duì)數(shù)據(jù)做預(yù)標(biāo)注的準(zhǔn)確率,準(zhǔn)確率越高,人工參與的程度越低。”

但賀琳也坦言,這件事并不容易。“其實(shí),如果真的把這個(gè)事都做成了,人工智能就完成了。因?yàn)椴恍枰说慕槿?,相?dāng)于它處理的東西都跟人想的是一樣的。”但另一方面,當(dāng)技術(shù)達(dá)到一定突破后,倫理、法規(guī)、安全等問題就會(huì)出現(xiàn),如何解決這些問題,也是今后整個(gè)人工智能行業(yè)面臨的難題。

新的變革契機(jī):多模態(tài)需求將推高行業(yè)門檻

每一次的火箭升空,都需要大量的燃料助推。

賀琳認(rèn)為,當(dāng)人工智能技術(shù)迎來新的變革時(shí),對(duì)數(shù)據(jù)提供商來說就是一次契機(jī)。“我覺得可能也是根據(jù)一些需求,比如像蘋果手機(jī)的siri出來以后,大家就會(huì)認(rèn)為在語(yǔ)音上有一些突破,這些數(shù)據(jù)的需求就會(huì)暴增。”

賀琳覺得,在整個(gè)人工智能行業(yè),數(shù)據(jù)就像人類學(xué)習(xí)知識(shí)時(shí)使用的教科書,“你的教科書越全面,信息越準(zhǔn)確,學(xué)習(xí)的結(jié)果就會(huì)越好,其實(shí)機(jī)器也是一樣的”。她認(rèn)為,數(shù)據(jù)集本質(zhì)上就是人類把自己對(duì)大千世界、萬(wàn)事萬(wàn)物的一些認(rèn)知和判斷方法加載到數(shù)據(jù)上,然后讓機(jī)器去學(xué)習(xí),使機(jī)器得出來的對(duì)事物的判斷結(jié)果更加趨近于人類。在她看來,這就是數(shù)據(jù)公司的價(jià)值。

而在大模型的熱潮之下,多模態(tài)的能力成為一個(gè)關(guān)鍵詞。賀琳表示,多模態(tài)數(shù)據(jù)是未來的一個(gè)方向。“多模態(tài)的數(shù)據(jù)里蘊(yùn)含了更多更豐富的信息,對(duì)機(jī)器做判斷也會(huì)提供更多的信息來源,但多模態(tài)的數(shù)據(jù)(獲取)的難度也非常大。”

她進(jìn)一步介紹,首先,多模態(tài)數(shù)據(jù)要求的量很大,合規(guī)取得這些數(shù)據(jù)的難度就會(huì)更大;其次,多模態(tài)數(shù)據(jù)采集的設(shè)備也非常昂貴,對(duì)數(shù)據(jù)公司的財(cái)務(wù)能力是一種考量。此外,多模態(tài)數(shù)據(jù)對(duì)齊的問題、對(duì)齊的標(biāo)準(zhǔn)等,都是多模態(tài)數(shù)據(jù)的難點(diǎn)。

圖片來源:公司官網(wǎng)

賀琳認(rèn)同一點(diǎn),多模態(tài)能力會(huì)導(dǎo)致數(shù)據(jù)公司的入門門檻提高。“包括我們可能還要去做一些數(shù)據(jù)生成技術(shù),用我們的一些單一形態(tài)的數(shù)據(jù)來合成多模態(tài)的數(shù)據(jù),這都要求公司有更高維度的研發(fā)能力。”

目前,賀琳依舊認(rèn)為,數(shù)據(jù)這個(gè)方向是海天瑞聲未來的定位,因?yàn)檫@個(gè)領(lǐng)域要做的事情太多了。“隨著技術(shù)的發(fā)展進(jìn)入千行百業(yè),每一個(gè)行業(yè)都需要認(rèn)真地去了解這個(gè)行業(yè)的‘know-how’是什么、如何解決這個(gè)行業(yè)的一些關(guān)鍵痛點(diǎn)。那么多行業(yè)呢,我們有足夠大的空間去拓展。”

而深入行業(yè),則需要公司本身有一定的研發(fā)能力,同時(shí),在進(jìn)入行業(yè)時(shí),需要有行業(yè)專家的參與,通過真實(shí)的項(xiàng)目打磨,進(jìn)而逐漸積累。“這不是個(gè)一蹴而就的事情,需要一個(gè)長(zhǎng)期持續(xù)的過程。”她表示。

賀琳相信,通用人工智能終將有一天會(huì)實(shí)現(xiàn),但這也需要一個(gè)過程,即便技術(shù)達(dá)到了,還有倫理的問題、安全的問題、合規(guī)的問題。這些都解決了之后,如何解決行業(yè)的問題,也有很長(zhǎng)的一段路要走。

而在這條路上,她認(rèn)為,數(shù)據(jù)公司將會(huì)扮演越來越重要的角色。在這個(gè)過程中,算法可能會(huì)相對(duì)趨于穩(wěn)定,但仍需大量的、類型迥異的數(shù)據(jù)對(duì)算法進(jìn)行訓(xùn)練,才能解決行業(yè)的問題。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

數(shù)據(jù) 海天瑞聲 IT服務(wù) 人臉識(shí)別 數(shù)據(jù)要素 人工智能 ChatGPT

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0