日本免费亚洲午夜,久久天天躁狠狠躁夜夜2

>新聞資訊

語(yǔ)音識(shí)別結(jié)合應(yīng)用場(chǎng)景暢想未來(lái)新篇章

近二十年來(lái)，語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步，開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì)，未來(lái)10年內(nèi)，語(yǔ)音識(shí)別技術(shù)走進(jìn)了工業(yè)、家電、通信、汽車電子、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。語(yǔ)音識(shí)別作為人工智能發(fā)展最早、且率先商業(yè)化的技術(shù)，近幾年來(lái)隨著深度學(xué)習(xí)技術(shù)的突破，識(shí)別準(zhǔn)確率大幅提升，帶動(dòng)了一波產(chǎn)業(yè)熱潮。對(duì)語(yǔ)音識(shí)別未來(lái)發(fā)展，各位大咖也有一些精彩論點(diǎn)。

科大訊飛研究院副院長(zhǎng)——王士進(jìn)

王士進(jìn)表示，語(yǔ)音識(shí)別是人機(jī)交互里很重要的模塊，從PC時(shí)代到現(xiàn)在的移動(dòng)互聯(lián)時(shí)代，人機(jī)交互由鼠標(biāo)鍵盤走向智能手機(jī)、Pad等的多點(diǎn)觸摸。到了智能硬件時(shí)代，交互則更加多元，不僅有觸摸，還有基于語(yǔ)音、視覺(jué)的交互。原本是以機(jī)器為中心的人機(jī)交互，逐漸走向以人為中心的自然交互。

他認(rèn)為，在將來(lái)萬(wàn)物互聯(lián)的浪潮下，以語(yǔ)音為主，鍵盤、觸摸、視覺(jué)、手勢(shì)為輔的交互時(shí)代很快會(huì)到來(lái)。

提到傳統(tǒng)的語(yǔ)音交互，王士進(jìn)列舉了幾個(gè)缺點(diǎn)：第一，交互距離要近;第二，發(fā)音必須標(biāo)準(zhǔn);第三，環(huán)境必須安靜;第四，人機(jī)不能持續(xù)對(duì)話。

科大訊飛在2015年提出AIUI，旨在解決上述問(wèn)題同時(shí)期望在人工智能時(shí)代提供一種智能的人機(jī)交互界面。AIUI提供遠(yuǎn)場(chǎng)喚醒和識(shí)別降噪方案，兼容全國(guó)近17種方言，可以進(jìn)行全雙工交互和基于業(yè)務(wù)場(chǎng)景的多輪對(duì)話，同時(shí)結(jié)合訊飛超腦的認(rèn)知智能使得機(jī)器進(jìn)行更智能的交互。

AIUI實(shí)現(xiàn)了軟硬一體化、云端一體化、技術(shù)服務(wù)一體化，通過(guò)三個(gè)一體化提供人機(jī)智能交互整體解決方案，使得用戶可以快速切換到新的業(yè)務(wù)場(chǎng)景。

在提到基于AIUI交互技術(shù)的一些商業(yè)化嘗試時(shí)，王士進(jìn)列舉了幾種：

在交流方面，科大訊飛在05年推出了聽(tīng)見(jiàn)智能會(huì)議這款產(chǎn)品。一般來(lái)說(shuō)，會(huì)議場(chǎng)景的同傳準(zhǔn)確率為80%左右，而智能會(huì)議轉(zhuǎn)寫準(zhǔn)確率則能達(dá)到90%以上，之后，其在醫(yī)療和司法系統(tǒng)進(jìn)行了應(yīng)用。另外，科大訊飛還推出了便攜翻譯機(jī)，易于隨身攜帶，方便遠(yuǎn)程實(shí)時(shí)交流。

在電視方面，最早的電視是用數(shù)字加上下左右按鍵控制僅有的十幾個(gè)臺(tái)，而現(xiàn)在的智能電視后臺(tái)對(duì)接海量資源，通過(guò)訊飛智能電視助手可以進(jìn)行方便的語(yǔ)音交互，節(jié)省時(shí)間。

在汽車方面，由于人在駕駛時(shí)候手不能離開(kāi)方向盤，故把語(yǔ)音引入代替手進(jìn)行交互會(huì)方便許多。實(shí)際上相比其他應(yīng)用場(chǎng)景，語(yǔ)音識(shí)別由于汽車場(chǎng)景的噪音更強(qiáng)，面臨更大挑戰(zhàn)，而科大訊飛也在基于車載的語(yǔ)音識(shí)別做了許多優(yōu)化，更在寶馬、奔馳、通用舉行的全球車載語(yǔ)音識(shí)別比賽取得第一名，有效的支撐了車載場(chǎng)景的交互。

在機(jī)器人方面，機(jī)器人與人的語(yǔ)音交互滿足自然交互、個(gè)性化服務(wù)以及基于業(yè)務(wù)場(chǎng)景的整合服務(wù)，可以方便的任意打斷，在理解用戶的需求下進(jìn)行精準(zhǔn)的內(nèi)容推薦和服務(wù)。

語(yǔ)音識(shí)別和自然語(yǔ)言理解都是基于統(tǒng)計(jì)和概率體系，所以商業(yè)化過(guò)程建議選擇人受到一定限制(如車載)或者很難做百分之百正確(如會(huì)議同傳)的場(chǎng)景，然后隨著技術(shù)的進(jìn)一步成熟，可以進(jìn)入到更多的場(chǎng)景。

最后，王士進(jìn)總結(jié)道，“語(yǔ)音識(shí)別和人機(jī)交互技術(shù)在進(jìn)行技術(shù)優(yōu)化的同時(shí)更要結(jié)合應(yīng)用場(chǎng)景，最終可使得技術(shù)完善，產(chǎn)業(yè)更好的發(fā)展。”

百度語(yǔ)音技術(shù)部聲學(xué)技術(shù)負(fù)責(zé)人——李先剛

提到這些年對(duì)手機(jī)百度語(yǔ)音搜索的不斷優(yōu)化過(guò)程，李先剛認(rèn)為要做好這樣一個(gè)產(chǎn)品，先要收集相關(guān)數(shù)據(jù)，然后將語(yǔ)音識(shí)別應(yīng)用推廣到相關(guān)產(chǎn)品線上供用戶使用，用戶使用后反饋回來(lái)數(shù)據(jù)形成完整鏈條，最終達(dá)到非常完美的狀態(tài)。

他把輸入法在語(yǔ)音識(shí)別中的作用表述為：輸入法這一場(chǎng)景對(duì)語(yǔ)音識(shí)別性能提升有非常大的幫助。

而今年，百度在語(yǔ)音技術(shù)方面的進(jìn)展包括基于GramCTC的端對(duì)端語(yǔ)音識(shí)別系統(tǒng)以及端對(duì)端說(shuō)話人識(shí)別技術(shù)。

基于CTC的端對(duì)端語(yǔ)音識(shí)別系統(tǒng)是目前主流的工業(yè)系統(tǒng)，在2015年底，百度實(shí)現(xiàn)了CTC端對(duì)端語(yǔ)音識(shí)別系統(tǒng)的上線。而今年，百度進(jìn)一步提出了GramCTC算法。

主流的說(shuō)話人識(shí)別技術(shù)使用經(jīng)典的DNN-IVECTOR技術(shù)，其框架基于統(tǒng)計(jì)模型，并將DNN引入此框架去學(xué)習(xí)。

可以看到的是，語(yǔ)音識(shí)別已走向大數(shù)據(jù)和端對(duì)端的道路，百度也將把說(shuō)話人識(shí)別技術(shù)向此發(fā)展，進(jìn)一步提升相關(guān)性能。

李先剛表示，人臉識(shí)別與說(shuō)話人識(shí)別有技術(shù)共性，二者之間的差異僅僅只是人臉識(shí)別對(duì)象可以是固定尺寸的圖片，而語(yǔ)音的時(shí)長(zhǎng)會(huì)有很多變化。因此，百度說(shuō)話人識(shí)別技術(shù)借鑒了目前人臉識(shí)別最好的方法——度量學(xué)習(xí)，搭建了端對(duì)端度量學(xué)習(xí)的說(shuō)話人識(shí)別系統(tǒng)。百度內(nèi)部的實(shí)驗(yàn)顯示，基于端對(duì)端的說(shuō)話人技術(shù)顯著提升了說(shuō)話人識(shí)別的性能。

從商業(yè)化的角度分析語(yǔ)音識(shí)別，可將其應(yīng)用分為兩個(gè)維度，第一個(gè)是近場(chǎng)和遠(yuǎn)場(chǎng)，第二個(gè)是人配合機(jī)器說(shuō)話和人對(duì)人說(shuō)話的不同說(shuō)話風(fēng)格。經(jīng)過(guò)這樣劃分會(huì)發(fā)現(xiàn)很多語(yǔ)音場(chǎng)景其實(shí)是處在不同的語(yǔ)音象限里面，目前業(yè)界所做的近場(chǎng)人對(duì)機(jī)器說(shuō)話的識(shí)別準(zhǔn)確率可達(dá)90%以上，但另外幾個(gè)場(chǎng)景所做不盡人意。

在李先剛看來(lái)，隨著語(yǔ)音技術(shù)的推進(jìn)，輔之商業(yè)化情景必將推動(dòng)產(chǎn)品和技術(shù)的發(fā)展。

搜狗語(yǔ)音交互技術(shù)中心研發(fā)總監(jiān)——陳偉

從2012年到現(xiàn)在，隨著數(shù)據(jù)和算法的提升，搜狗的語(yǔ)音識(shí)別的識(shí)別錯(cuò)誤率是逐年下降的。陳偉分享了一組數(shù)據(jù)：到目前為止，搜狗輸入法每天的語(yǔ)音識(shí)別請(qǐng)求量高達(dá)2億次，每天產(chǎn)生語(yǔ)料達(dá)到18萬(wàn)小時(shí)。

陳偉表示，搜狗在2016年發(fā)布知音引擎，對(duì)外輸出完整的語(yǔ)音交互解決方案，也一直在探索語(yǔ)音識(shí)別和交互的不同場(chǎng)景和經(jīng)驗(yàn)。語(yǔ)音識(shí)別可以更好提升輸入、記錄、交流的效率，其可分為聽(tīng)寫和轉(zhuǎn)寫，聽(tīng)寫更多要求實(shí)時(shí)性，轉(zhuǎn)寫則面向客服數(shù)據(jù)，不要求實(shí)時(shí)。另外，語(yǔ)音識(shí)別技術(shù)面向不同客戶，除了直接提供給消費(fèi)者，還有一些公司、企業(yè)如法院、醫(yī)院等，語(yǔ)音識(shí)別的應(yīng)用場(chǎng)合則更多是在演講、直播、語(yǔ)音分析中。

語(yǔ)音識(shí)別不是一個(gè)單獨(dú)的技術(shù)，其需要同其他技術(shù)進(jìn)行融合，比如機(jī)器同傳、語(yǔ)音交互，未來(lái)的產(chǎn)品將會(huì)是技術(shù)與技術(shù)的組合，產(chǎn)品與產(chǎn)品的組合。

對(duì)如何做出一款好的語(yǔ)音交互產(chǎn)品，陳偉認(rèn)為首先是要重視場(chǎng)景和知識(shí)。只有技術(shù)(ASR、NLU等)與具體應(yīng)用場(chǎng)景比如車載、智能家具、可穿設(shè)備結(jié)合在一起，才能得到穩(wěn)定的產(chǎn)品。另外，僅僅有技術(shù)是不夠的，還需要技術(shù)創(chuàng)新。在得到良好的使用體驗(yàn)之后用戶基數(shù)會(huì)擴(kuò)大，帶來(lái)更多數(shù)據(jù)，這些累積的數(shù)據(jù)也是推動(dòng)技術(shù)提升的關(guān)鍵。只有有了產(chǎn)品的迭代、有了真實(shí)的數(shù)據(jù)才能更好的分析出用戶需求，更好的推動(dòng)產(chǎn)品發(fā)展。

他表示，技術(shù)與產(chǎn)品缺一不可。

“語(yǔ)音交互以技術(shù)為驅(qū)動(dòng)，加之好的運(yùn)算力帶來(lái)大量數(shù)據(jù)，以此進(jìn)行迭代，不斷通過(guò)技術(shù)和產(chǎn)品的耦合得到更好的產(chǎn)品。”

文章來(lái)源于：中國(guó)安防行業(yè)網(wǎng)

2017-04-25

上一條：熱播IP劇《擇天記》也用可視門禁了嗎？

下一條：人工智能首次進(jìn)入政府工作報(bào)告推動(dòng)更多產(chǎn)業(yè)升級(jí)換代

久热青青青在线视频精品_国產精品國產三級在线專區_亚洲精品国产成人片_一级无码奶水在线播放