四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟(jì)新聞

今日報紙

每經(jīng)網(wǎng)首頁 > 今日報紙 > 正文

對人工智能多點(diǎn)耐心百度漢語語音識別獲重大突破

每日經(jīng)濟(jì)新聞 2015-11-05 00:54:59

近日舉行的中國人機(jī)語音交互領(lǐng)域權(quán)威的學(xué)術(shù)會議——全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC2015）上，百度透露其在漢語語音識別方面獲得重大突破。據(jù)悉，百度研發(fā)出了基于多層單向LSTM（長短時記憶模型）的漢語聲韻母整體建模技術(shù)，并成功把連接時序分類（CTC）訓(xùn)練技術(shù)嵌入到語音識別傳統(tǒng)技術(shù)建模框架中。該技術(shù)能夠使機(jī)器的語音識別相對錯誤率降低15%，使?jié)h語安靜環(huán)境普通話語音識別的準(zhǔn)確率接近97%，未來將大規(guī)模應(yīng)用在百度語音搜索等產(chǎn)品上。

日前，百度語音技術(shù)部負(fù)責(zé)人賈磊媒體專訪時稱，語音識別和大數(shù)據(jù)、機(jī)器學(xué)習(xí)、云計算等技術(shù)相輔相成，共同推進(jìn)人工智能發(fā)展。

他表示，機(jī)器成本、高效計算等問題，是阻礙語音識別技術(shù)發(fā)展的幾個重要因素。而百度研究的CTC模型在解碼部分的速度，比傳統(tǒng)模型快5倍到10倍。配合專業(yè)的深度學(xué)習(xí)計算硬件，使后臺消耗大大降低，有助于實(shí)現(xiàn)語音識別技術(shù)的大規(guī)模普及。

一次框架性創(chuàng)新

百度方面透露，該技術(shù)創(chuàng)新是一項(xiàng)框架性的創(chuàng)新。這一突破也標(biāo)志著，百度在世界范圍內(nèi)率先攻克了在漢語領(lǐng)域使用CTC技術(shù)訓(xùn)練單向多層LSTM的高精度建模難題。

據(jù)了解，2011年深度學(xué)習(xí)技術(shù)引入語音識別領(lǐng)域，推進(jìn)整個工業(yè)界的人工智能技術(shù)應(yīng)用進(jìn)入深度學(xué)習(xí)時代。隨后的幾年里，CNN（卷積神經(jīng)網(wǎng)絡(luò)）、LSTM（長短時記憶模型）、CNN混合LSTM的建模技術(shù)在語音識別工業(yè)產(chǎn)品中不停涌現(xiàn)，并持續(xù)提升語音識別產(chǎn)品效果。

眼下，百度把語音識別的相對錯誤率降低15%，又會帶來何種變化？對用戶而言，是識別率更準(zhǔn)、識別速度更快。對語音服務(wù)提供者來說，成本會降低很多。

“語音識別正處于產(chǎn)業(yè)化爆發(fā)的邊緣，但機(jī)器計算成本是一個很大的瓶頸。如果線上50%的搜索都由語音完成，而計算成本還和過去一樣，那么沒有公司能承擔(dān)得起?！辟Z磊表示，語音服務(wù)要想大規(guī)模普及，必須降低后臺服務(wù)器開銷。

他隨即說，百度語音識別研究的CTC模型在解碼部分的速度比傳統(tǒng)模型快5倍到10倍。配合專業(yè)的深度學(xué)習(xí)計算硬件，當(dāng)未來語音服務(wù)大規(guī)模普及時，可以讓后臺計算成本大大降低。對新技術(shù)的追趕，需要大數(shù)據(jù)、大平臺、極致計算等結(jié)合做支撐，因此百度這樣的公司在未來有優(yōu)勢。

改善方言、口音和遠(yuǎn)場識別

媒體：既然將把此項(xiàng)技術(shù)用到百度語音搜索產(chǎn)品上，對應(yīng)用時間表、應(yīng)用前后的產(chǎn)品功能和用戶體驗(yàn)差別等，能否講講？

賈磊：我預(yù)計最早11月末、最遲12月末上線。因?yàn)槲覀冏龅臅r候都是比著工業(yè)產(chǎn)品的體量去做的，包括模型體積、計算量、訓(xùn)練速度，全部跟工業(yè)要求是一致的，所以可以很快應(yīng)用到產(chǎn)品中去。

用了之后，首先語音識別會更準(zhǔn)，其次由于它的計算量會很小，解碼速度更快，后臺成本就會很低。這個模型對方言和口音的識別效果都有一定的改善，而且對遠(yuǎn)場識別也有一定改善。因?yàn)樗窃谝粋€建模單元的十幾幀數(shù)據(jù)中提取出來一幀最本質(zhì)最有代表性的特征來描述這個建模單元，而這個本質(zhì)特征的描述不容易隨著時間、地點(diǎn)而改變，所以對語音識別的穩(wěn)定性有很大的提升。

媒體：就您研究觀察，未來語音識別技術(shù)的發(fā)展趨勢以及應(yīng)用場景如何？

賈磊：第一，想解決口音、噪音的問題，訓(xùn)練數(shù)據(jù)還會繼續(xù)加大，現(xiàn)在幾萬個小時訓(xùn)練數(shù)據(jù)是工業(yè)現(xiàn)狀，我相信在不久的未來一定是十萬小時。如果出現(xiàn)這么大的計算量，對計算能力的需求會更加強(qiáng)烈。所以大數(shù)據(jù)和高性能計算，是語音識別發(fā)展到目前最明顯和清晰的趨勢。

第二，是基于深度學(xué)習(xí)的個性化識別。人的口音千差萬別，不可能有一個語音識別器識別所有的聲音，一定要實(shí)現(xiàn)個性化。而這種基于深度學(xué)習(xí)的個性化識別，一定需要海量的存儲空間和很大的數(shù)據(jù)吞吐傳輸能力，這個也只有具有大數(shù)據(jù)和云計算這種服務(wù)能力的公司能夠提供。

第三個行業(yè)趨勢，語音識別技術(shù)會和語意理解、交互技術(shù)等形成一整套語音的解決方案。因?yàn)槿耸褂谜Z音的目的不是把語音轉(zhuǎn)成文字，而是使用語音去進(jìn)行交互，并獲得其所需的服務(wù)結(jié)果。這是未來的工業(yè)發(fā)展趨勢，單純的脫離了服務(wù)、脫離了平臺、脫離了計算能力去做語音技術(shù)的時代已經(jīng)過去了。百度有場景、有內(nèi)容、有需求，語音一定會做得越來越好。

媒體：語音識別技術(shù)要和其他技術(shù)，比如大數(shù)據(jù)、機(jī)器學(xué)習(xí)和云計算等一起應(yīng)用，結(jié)合技術(shù)層面來講，現(xiàn)在時機(jī)是否成熟？

賈磊：這些技術(shù)是相輔相成的。作為人工智能學(xué)科的同業(yè)者，我的感覺是，短期去看人們傾向于高估技術(shù)的價值，從長期去看人們傾向于低估技術(shù)的價值。

現(xiàn)在，人們可能傾向于覺得人工智能技術(shù)很牛，能夠解決一切問題。但是短期內(nèi)它沒有解決，因此人就會產(chǎn)生一個心理，這個技術(shù)沒用。但是，要對人工智能技術(shù)有信心，企業(yè)要敢于投入。當(dāng)然，初期商業(yè)上肯定會有一些損失，可能短時間里不會為公司帶來商業(yè)價值；但長遠(yuǎn)來看，有助于研發(fā)新技術(shù)，并獲得新的商業(yè)突破。(文/娜拉)

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

“雙十一”家電三國殺生變國美獨(dú)力戰(zhàn)對手

返回每經(jīng)網(wǎng)首頁

下一篇文章

9月末商業(yè)銀行不良率1.59% 銀監(jiān)會：統(tǒng)一調(diào)整撥貸比待考量

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2024 每日經(jīng)濟(jì)新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn