通過(guò)利用深度學(xué)習(xí)技術(shù)進(jìn)行自然語(yǔ)言的深度理解,一直是人們關(guān)注的焦點(diǎn)。聽音樂(lè)不需要自己查找,開燈不需要?jiǎng)邮?,空調(diào)能聽懂你的心聲……這些場(chǎng)景在很多影視作品中有所表現(xiàn),也代表了很多人腦海中“智慧生活”的概念?;诖?,在AI發(fā)展的熱潮中,自然語(yǔ)言處理成為了各大企業(yè)和科研機(jī)構(gòu)角逐的戰(zhàn)場(chǎng)。
目前,語(yǔ)音交互賽道已匯集了互聯(lián)網(wǎng)巨頭、知名硬件企業(yè)、電商平臺(tái)、傳統(tǒng)家電廠商以及各類AI初創(chuàng)公司,特別是近幾年以智能音箱為代表的語(yǔ)音交互產(chǎn)品在國(guó)內(nèi)外的火爆,極大地激發(fā)了語(yǔ)音交互技術(shù)的應(yīng)用和發(fā)展。
多個(gè)領(lǐng)域均有應(yīng)用落地
近段時(shí)間,智能家居硬件中風(fēng)頭最盛的無(wú)疑是小米AI音箱。此品一經(jīng)推出,便在市場(chǎng)上引起了極大反響,被眾多媒體稱為“交互體驗(yàn)最好的音箱”、“智能音箱界的擔(dān)當(dāng)”、“目前‘最熱門’的智能硬件”……而在小編看來(lái),小米AI音箱優(yōu)秀,沒(méi)錯(cuò),但也沒(méi)到他們夸的這種程度。以小編周圍人的具體使用體驗(yàn)來(lái)看,其語(yǔ)音識(shí)別能力并沒(méi)有特別突出,與目前市場(chǎng)上主流同類產(chǎn)品區(qū)別不大。它最大的優(yōu)勢(shì)是在生態(tài)鏈方面,通過(guò)小米AI音箱,可以控制小米臺(tái)燈、小米掃地機(jī)器人、小米落地扇等配套家具設(shè)備。毫無(wú)疑問(wèn),這將使得人們距離智能生活更進(jìn)一步。
在汽車及智能移動(dòng)設(shè)備領(lǐng)域,語(yǔ)音交互功能已經(jīng)很普及。在開車的時(shí)候,人們往往騰不出手,也不應(yīng)該騰出手去操作手機(jī),這時(shí)候,車載語(yǔ)音就成了必需品,也成了車聯(lián)網(wǎng)標(biāo)配。在當(dāng)下這個(gè)智能互聯(lián)、無(wú)人駕駛被炒得火熱的時(shí)代,新車不帶點(diǎn)語(yǔ)音識(shí)別的黑科技,似乎都不好意思拿出手。福特的SYNC系統(tǒng)專為手機(jī)和數(shù)字媒體播放器配備的福特車載多媒體通信娛樂(lè)系統(tǒng),是目前車載系統(tǒng)中采用語(yǔ)音交互技術(shù)的成功的案例,已經(jīng)廣泛應(yīng)用在福特多個(gè)系列汽車中。互聯(lián)網(wǎng)巨頭蘋果在其iPhone4S中推出智能語(yǔ)音助理應(yīng)用Siri后,Google公司也在其安卓智能手機(jī)操作系統(tǒng)中推出了GoogleNow智能語(yǔ)音搜索及問(wèn)答服務(wù),微軟公司也將語(yǔ)音技術(shù)應(yīng)用于WindowsPhone,三星也適時(shí)推出了Bixby。
在金融領(lǐng)域。語(yǔ)音識(shí)別技術(shù)也有了用武之地。近日,中國(guó)建設(shè)銀行在上海黃浦區(qū)開設(shè)了一家自動(dòng)化服務(wù)支行,由機(jī)器人為顧客服務(wù)。機(jī)器人裝配面部掃描識(shí)別軟件,可以解答顧客的大部分問(wèn)題,解決普通高街銀行絕大部分的業(yè)務(wù)需求,同時(shí)還配備人工輔助服務(wù)以及其他專業(yè)服務(wù),以滿足個(gè)性化需求。顧客由機(jī)器人接待,這些機(jī)器人通過(guò)語(yǔ)音識(shí)別功能,與人交流,解答顧客的問(wèn)題。人工服務(wù)能做到的事,它們也能完成絕大部分,包括開戶、轉(zhuǎn)賬以及投資。
此外,在新零售領(lǐng)域,智能語(yǔ)音技術(shù)的應(yīng)用也在不斷擴(kuò)展。比如2017年12月18日,科大訊飛和紅星美凱龍發(fā)布戰(zhàn)略合作計(jì)劃,未來(lái)由科大訊飛研發(fā)的智能導(dǎo)購(gòu)機(jī)器人“美美”將在全國(guó)紅星美凱龍門店上市。
除了語(yǔ)音交互之外,語(yǔ)音轉(zhuǎn)文字也是當(dāng)前語(yǔ)音識(shí)別技術(shù)中的一大熱點(diǎn)。早先,這個(gè)功能是新聞工作者的最愛(ài),用此功能整理采訪稿件、演講稿件能極大的提高工作效率,如今,這個(gè)功能正在被普通人接受,老人、懶癌發(fā)作的年輕人都可以使用此功能來(lái)替代打字。
時(shí)至今日,資本的涌入、政策的扶持、市場(chǎng)的一再擴(kuò)容,使得語(yǔ)音技術(shù)日益成熟,全球語(yǔ)音市場(chǎng)也迎來(lái)了一個(gè)應(yīng)用落地的黃金發(fā)展期。根據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,2016年智能語(yǔ)音產(chǎn)業(yè)規(guī)模直逼60億元大關(guān),2017年將破百億,同比增長(zhǎng)69%左右。
技術(shù)現(xiàn)狀并不能讓人滿意
與語(yǔ)音識(shí)別在多個(gè)領(lǐng)域開枝散葉形成對(duì)比的是,語(yǔ)音識(shí)別技術(shù)的發(fā)展頗為緩慢,在這種形勢(shì)下,語(yǔ)音識(shí)別技術(shù)在實(shí)際應(yīng)用中碰到了許多問(wèn)題。
現(xiàn)在有很多企業(yè)說(shuō)自己的語(yǔ)音識(shí)別率已經(jīng)達(dá)到了97%甚至是98%,但在實(shí)際應(yīng)用中,效果并不能讓人滿意。舉一個(gè)比較有信服力的例子,IBMT.JWatson研究院開發(fā)的中文語(yǔ)音識(shí)別系統(tǒng)連續(xù)三年在美國(guó)DARPA主辦的競(jìng)賽中名列第一,該系統(tǒng)在識(shí)別央視《新聞聯(lián)播》節(jié)目時(shí),其錯(cuò)誤率小于5%,但在識(shí)別其它內(nèi)容時(shí),差距非常大。在實(shí)際應(yīng)用中,識(shí)別率主要受到以下幾個(gè)因素的影響:
對(duì)于漢語(yǔ)語(yǔ)音識(shí)別,方言或口音會(huì)降低識(shí)別率。
公共場(chǎng)所的強(qiáng)噪聲對(duì)識(shí)別效果影響甚大,即使是在實(shí)驗(yàn)室環(huán)境下,敲擊鍵盤、移動(dòng)麥克風(fēng)都會(huì)成為背景噪聲。
打斷問(wèn)題,如果人在說(shuō)話時(shí)有停頓,機(jī)器就不能很好的聯(lián)系上下文使語(yǔ)意通順。
此處,還有“口語(yǔ)”問(wèn)題。它既涉及到自然語(yǔ)言理解,又與聲學(xué)有關(guān)。語(yǔ)音識(shí)別技術(shù)的最終目的是要讓用戶在“人機(jī)對(duì)話”時(shí),能夠像進(jìn)行“人與人對(duì)話”一樣自然,而一旦用戶以跟人交談的方式進(jìn)行語(yǔ)音輸入時(shí),口語(yǔ)的語(yǔ)法不規(guī)范和語(yǔ)序不正常的特點(diǎn)會(huì)給語(yǔ)義的分析和理解帶來(lái)困難。
語(yǔ)音識(shí)別的技術(shù)迭代
此前,就有人指出口音、新詞匯等問(wèn)題可以通過(guò)語(yǔ)音識(shí)別技術(shù)在實(shí)際應(yīng)用中的數(shù)據(jù)采集來(lái)實(shí)現(xiàn)。隨著數(shù)據(jù)量的增加,這種問(wèn)題都能得到解決。
而另外諸如“打斷”等問(wèn)題,便需要各種深度學(xué)習(xí)模型,如DNN、CNN、BLSTM(雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò))等,以及新的算法,來(lái)逐步解決。
技術(shù)使用起來(lái)往往需要一個(gè)迭代的過(guò)程的,需要先上線,然后在場(chǎng)景里收集數(shù)據(jù)去評(píng)估,優(yōu)化模型,改善用戶體驗(yàn)。經(jīng)過(guò)幾輪迭代,才可以發(fā)揮最佳效果。其他AI技術(shù)也是相似的。今天很多AI技術(shù)的用戶很容易把技術(shù)的能力理想化,感覺(jué)一引入,就應(yīng)該立竿見影的看到效果??吹綄?shí)際效果不盡人意時(shí),就會(huì)感覺(jué)有很大的落差,失望和放棄。誠(chéng)然,智能語(yǔ)音技術(shù)已經(jīng)達(dá)到廣發(fā)應(yīng)用的水平,但在真正落地的時(shí)候,要充分認(rèn)識(shí)到可能遇到的困難,有持久戰(zhàn)的思想準(zhǔn)備。
總結(jié)
可以預(yù)測(cè)在近五到十年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上。人們也將調(diào)整自己的說(shuō)話方式以適應(yīng)各種各樣的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語(yǔ)音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍然是人類面臨的一個(gè)大的挑戰(zhàn),我們只能一步步朝著改進(jìn)語(yǔ)音識(shí)別系統(tǒng)的方向一步步地前進(jìn)。至于什么時(shí)候可以建立一個(gè)像人一樣完善的語(yǔ)音識(shí)別系統(tǒng)則是很難預(yù)測(cè)的。就像在60年代,誰(shuí)又能預(yù)測(cè)今天超大規(guī)模集成電路技術(shù)會(huì)對(duì)我們的社會(huì)產(chǎn)生這么大的影響。