語音識別技術簡介
2019/11/17 16:52:33 查看:1445
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。
語音識別的工作模式
音識別一般來說具有兩種工作模式:識別模式和命令模式。語音識別程序的實現也會根據兩種模式的不同而采用不同類型的程序。識別模式的工作原理是:引擎系統在后臺直接給出一個詞庫和識別模板庫,任何系統都不需要再進一 步對識別語法進行改動,只需要根據識別引擎提供的主程序源代碼進行改寫就可以了。命令模式相對來說實現起來比較困難,詞典必須要由程序員自己編寫,然后再進行編程,后還要根據語音詞典進行處理和更正。識別模式與命令模式大的不同就是,程序員要根據詞典內容進行代碼的核對與修改。
語音識別環境設置
一般語音識別程序的環境設置步驟包括CTI服務器硬件默認參數采集與設定,識別硬件采集卡初始化,引擎端口設置等幾個部分。
1、CTI 服務器設置。
應用程序的所有工作都是根據CTI技術(Computer Telephone Integration)來工作的, 語音硬件平臺默認設定 CTI 服務器。
2、語音采集系統的初始化。
語音識別的平臺會通過判斷是否已經輸入語音來進行工作,那么獲得語音就需要語音采集系統了。為了采集和輸出,我們一般采用語音卡作為工具。工作時,打開語音卡內自帶的板卡,然后在程序中加入參數就可以運行了。
3、引擎端口設置。語音開發平臺已對硬件API接口函數進行提供, 因此只需對函數進行調用和賦值即可。
語音字典的編譯
語音字典的設置包括語法、識別語音的規則、語音模板制作等內容,根據語音平臺的規則來進行。在語音字典設置時,首先要設置語音識別核心包,再根據自己編譯的語音的規則來完成字典的全部設置。
編制識別主程序
在編譯語音識別程序的后階段,程序員需要為主程序編寫GUI(Graphical User Interface) 界面,以便于用戶與計算機進行交互操作。