每日經(jīng)濟(jì)新聞 2017-09-19 00:05:43
在AI機(jī)器翻譯這條賽道上,國內(nèi)外的科技巨頭都在虎視眈眈,不遺余力地推進(jìn)深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的研發(fā)和應(yīng)用。而在這場以語音翻譯為突破口的人工智能技術(shù)的較量中,中國的互聯(lián)網(wǎng)公司已經(jīng)占據(jù)了領(lǐng)先地位。
近期獲悉,搜狗語音交互技術(shù)中心代表搜狗參加了含金量極高的WMT2017國際評測比賽,該中心研發(fā)的搜狗神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Sogou Neural Machine Translation)系統(tǒng)獲得中英/英中翻譯的雙向冠軍。
能夠識別語音的機(jī)器翻譯正在逐漸從實驗室走向普羅大眾,搜狗語音交互中心技術(shù)總監(jiān)陳偉表示,機(jī)器翻譯在搜狗輸入法上的語音翻譯、中譯英功能和搜狗同傳已經(jīng)應(yīng)用,流量已超過200多萬??蓾M足多種移動場景下的實時翻譯需求,為用戶提供“口袋里的翻譯專家”。而作為搜狗人工智能重要布局,未來圍繞著語音交互入口,搜狗在更多領(lǐng)域都會有進(jìn)一步的進(jìn)展。
搜狗語音翻譯技術(shù)邁入世界頂尖
每年的第三季度都是機(jī)器學(xué)習(xí)相關(guān)的高端學(xué)術(shù)會議密集召開的時期,今年也不例外。其中,作為自然語言處理領(lǐng)域高端國際會議之一的EMNLP 2017將于今年9月在丹麥?zhǔn)锥几绫竟e行。其中,同期召開的第二屆機(jī)器翻譯大會(WMT 2017)是機(jī)器翻譯領(lǐng)域的國際高端評測比賽之一。
近年來,幾乎所有的研究機(jī)構(gòu)在發(fā)表關(guān)于機(jī)器翻譯新方法的論文時,都會以WMT數(shù)據(jù)集作為實驗數(shù)據(jù),并以BLEU評分來衡量方法的有效性,給出一個量化的、可比的翻譯質(zhì)量評估,當(dāng)前WMT數(shù)據(jù)集已經(jīng)成為機(jī)器翻譯領(lǐng)域公認(rèn)的主流數(shù)據(jù)集。
從2006年開始到2017年,WMT一共舉辦了12屆機(jī)器翻譯比賽,每一屆的角逐,都代表著全球翻譯尖端水準(zhǔn)的較量。今年的一大亮點是,WMT首次增設(shè)了中文和英文間的新聞數(shù)據(jù)翻譯任務(wù)。
因此,此次獲得雙向冠軍的搜狗機(jī)器翻譯,在比賽中表現(xiàn)出的準(zhǔn)確率和速度震動了整個業(yè)界。這也意味著中國的語音翻譯技術(shù),已經(jīng)邁入世界最前端的頂尖領(lǐng)域。
在深耕技術(shù)的同時,搜狗也在積極推進(jìn)產(chǎn)品落地,目前機(jī)器翻譯技術(shù)已經(jīng)成功應(yīng)用于搜狗同傳和搜狗輸入法中語音和文本翻譯產(chǎn)品中。其中,搜狗同傳技術(shù)于2016 年11月17日在第三屆世界互聯(lián)網(wǎng)大會上完成首次演示,目前已經(jīng)在多場重要會議場中使用,支持了數(shù)十場機(jī)器同傳演示,輸入法中的語音翻譯和文本翻譯上線以來日均流量已達(dá)200萬次。
對于AI技術(shù)能夠快速在搜狗生態(tài)體系中被落地應(yīng)用,在陳偉看來,有兩個方面的原因。陳偉表示,目前AI技術(shù)逐漸越來越相通,很多方向可以跟翻譯形成很好的交叉,翻譯將會被快速地推起來。而另一方的源于搜狗,搜狗在輸入法的場景下面,積累了有大量的用戶數(shù)據(jù),可以快速把數(shù)據(jù)壁壘做起來,而算法是很難形成壁壘的。
不難看出,搜狗的機(jī)器翻譯團(tuán)隊在自然語言處理和深度學(xué)習(xí)方面有非常深厚的積累。系統(tǒng)中用到的許多技巧,追本溯源,都有相應(yīng)的自然語言處理領(lǐng)域的經(jīng)典方法,同時也緊跟機(jī)器翻譯領(lǐng)域的前沿趨勢。
因此,搜狗機(jī)器翻譯團(tuán)隊的獲獎代表著搜狗在人工智能方面的最新進(jìn)展,同樣,今年也是搜狗人工智能技術(shù)從前沿科技到走向?qū)嵱玫闹匾荒辍?/p>
可滿足多種移動場景下的實時翻譯需求
與谷歌用人工智能做翻譯“秀肌肉”的方式不同。搜狗是實實在在希望通過翻譯技術(shù)把搜索做得更好,將翻譯和搜索做出聯(lián)動,應(yīng)用到各類場景中,形成差異化競爭優(yōu)勢。
而此前搜狗CEO王小川談及搜狗AI的未來時也指出,語言上是搜狗最需要做的,因為搜狗主業(yè)做輸入法和搜索都是和文字信息打交道,而人工智能真正重要的方向是讓機(jī)器做準(zhǔn)確決策。
場景中的語音識別最考驗技術(shù)的扎實度,用戶最關(guān)心的也是語音轉(zhuǎn)寫準(zhǔn)確率。據(jù)了解,目前搜狗的語音識別率已達(dá)97%,而且在業(yè)務(wù)層面,搜狗已經(jīng)接入UTH國際的多語言大數(shù)據(jù)中心,后者擁有近百億垂直領(lǐng)域高質(zhì)量語料句對的大數(shù)據(jù)積累。
而你可能不知道的是,搜狗正在通過翻譯技術(shù),讓華語世界與全世界連接。搜狗輸入法中“語音翻譯”和“文本翻譯”兩個非常強(qiáng)大的翻譯功能,可以幫助你在微信聊天、出國游玩等各種需要英語的場景下,隨時隨地張口就來,瞬間變身英語達(dá)人。
該功能采用了搜狗自研的機(jī)器同聲傳譯技術(shù),實現(xiàn)了輸入法與機(jī)器翻譯的完美結(jié)合,你只需對著手機(jī)說中文就可以實時翻譯成英文。而為了保證在各種復(fù)雜場景下都能精準(zhǔn)翻譯轉(zhuǎn)寫,搜狗采用了大量的前沿技術(shù),與業(yè)內(nèi)領(lǐng)先的端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)深度整合。
業(yè)內(nèi)認(rèn)為,機(jī)器翻譯是搜狗重點布局的一個方向,也是一個差異化的優(yōu)勢所在。但搜狗的人工智能并未止步于此,圍繞著語音交互入口,搜狗在更多領(lǐng)域都會有進(jìn)一步的進(jìn)展。目前搜狗技術(shù)落地的產(chǎn)品主要包括搜狗輸入法、搜狗同傳、搜狗聽寫等產(chǎn)品。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP