国产熟女一区二区五月婷-又爽又黄又无遮挡网站-亚洲国产精品视频在线播放-国内偷拍国内精品网999

當前位置:首頁 > 最新資訊 > 行業(yè)資訊

人工智能:語音識別技術

?  今天給大家介紹一下關于語音識別相關的知識,希望對大家有所幫助!

?  1、什么是語音

?  語音指的是人類通過發(fā)聲器官發(fā)出來具有一定意義、用來溝通交流的聲音。

?  計算機中語音存儲:以波形文件的方式存儲,通過波形反映語音的變化,從而可以獲取音強、音長等參數(shù)信息。

?  音域參數(shù):傅利葉譜、梅爾頻率到譜系數(shù),主要用來提取語音內容以及音色的差別,用來更進一步辨別語音信息。

?  2、什么是語音識別

?  語音識別簡單來說就是把語音內容自動轉換為文字的過程,是人與機器交互的一種技術。

?  涉及領域:聲學、人工智能、數(shù)字信號處理、心理學等方面。

?  語音識別的輸入:對一段聲音文件進行播放的序列。

?  語音識別的輸出:輸出的結果是一段文本序列。

?  3、語音識別的原理

?  語音識別需要經過特征提取、聲學模型、語音模型、語音解碼和搜索算法四個部分。

?  特征提?。喊岩治龅男盘枏淖钤夹盘柼崛〕鰜恚@個階段主要是對語音的幅度標準化、頻響校正、分幀、加窗、始末端點檢測等預處理操作,為聲學模型提供需要特征向量。

?  聲學模型:依靠聲學模型進行語音參數(shù)分析(語音共振峰頻率、幅度等)和對語音的線性預測參數(shù)進行分析。

?  語言模型:根據(jù)相關語言學理論,計算出聲音片段可能詞組序列的概率。

?  語音解碼和搜索算法:根據(jù)聲學模型+發(fā)音詞典+語音模型構建的搜索空間,找到最合適的路徑。解碼完成后最終輸出文本。

?  4、語音識別系統(tǒng)的組成

?  一個完整的語音識別系統(tǒng)包括:預處理、特征提取、聲學模型訓練、語言模型訓練、語音解碼器。

?  4.1 預處理

?  對輸入的原始聲音信號進行處理,過濾掉其中的背景噪音、非重要信息,還要對找到語音信號的開始和結束、語音分幀、提升高頻部分的信號等操作。

?  4.2 特征提取

?  最常用的特征提取方法為梅爾頓到譜系數(shù)(MFCC),因為它擁有良好的抗噪性和健壯性。

?  4.3 聲學模型訓練

?  根據(jù)懸戀語音庫的特征參數(shù)訓練出聲學模型參數(shù),從而可以在識別時與聲學模型進行匹配得到相應結果。目前主流語音識別系統(tǒng)一般都會采用HMM進行聲學模型建模。

?  4.4 語言模型訓練

?  用來預測哪個詞序列正確的可能性更大。

?  4.5 語音解碼器

?  解碼器也就是語音識別技術中的識別過程,根據(jù)輸入的語音信號,然后和訓練好的HMM聲學模型、語言模型、發(fā)音字典建立一個搜索空間,根據(jù)搜索算法找到最合適的路徑。從而找到最合適的詞串。

?  5、語音識別的使用場景

?  語音識別在日常生活中使用非常廣泛主要分為封閉式和開放式應用。

?  封閉式應用:主要指針對特定控制指令的應用。

?  比如常見的有智能家居比如通過語音指令控制燈開關、熱水器開關溫度調節(jié)、打開空調等,大大豐富了我們日常的生活;

?  開放式應用:開放式主要是廠商提供語音識別服務,一般會公有云或者私有云的方式部署提供對應的SDK,讓使用服務的客戶進行語音識別服務的調用。

?  常見的場景有輸入法、會議字幕實時輸出、視頻剪輯字幕配置等場景。

猜你喜歡