語(yǔ)言是人與人之間最重要的交流方式、能與機(jī)器進(jìn)行自然的人機(jī)交流,是人類一直期待的事情 。隨著人工智能快速發(fā)展 。語(yǔ)音識(shí)別技術(shù)作為人機(jī)交流接口的關(guān)鍵技術(shù)、發(fā)展迅速 。在AI領(lǐng)域也是經(jīng)常被提及 。作為人工智能領(lǐng)域的從業(yè)者認(rèn)識(shí)語(yǔ)音識(shí)別也是必須的 。接下來(lái)就讓我們科普科普 。話不多說(shuō),直接上菜!語(yǔ)音識(shí)別概述語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù) 。語(yǔ)音識(shí)別涉及的領(lǐng)域包括:數(shù)字信號(hào)處理、聲學(xué)、語(yǔ)音學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、人工智能等,是一門涵蓋多個(gè)學(xué)科領(lǐng)域的交叉科學(xué)技術(shù) 。語(yǔ)音識(shí)別的技術(shù)原理是模式識(shí)別,其一般過(guò)程可以總結(jié)為:預(yù)處理---特征提取---基于語(yǔ)音模型庫(kù)下的模式匹配---基于語(yǔ)言模型庫(kù)下的語(yǔ)言處理---完成識(shí)別

文章插圖
預(yù)處理聲音的實(shí)質(zhì)是波 。語(yǔ)音識(shí)別所使用的音頻文件格式必須是未經(jīng)壓縮處理的文件,如人類正常的語(yǔ)音輸入等語(yǔ)音輸入所面對(duì)的環(huán)境是復(fù)雜的主要存在以下問(wèn)題
- 對(duì)自然語(yǔ)言的識(shí)別和理解 。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個(gè)理解語(yǔ)義的規(guī)則 。
- 語(yǔ)音信息量大,語(yǔ)音模式不僅對(duì)不同的說(shuō)話人不同,對(duì)同一說(shuō)話人也是不同的,例如,一個(gè)說(shuō)話人在隨意說(shuō)話和認(rèn)真說(shuō)話時(shí)的語(yǔ)音信息是不同的 。一個(gè)人的說(shuō)話方式隨著時(shí)間變化 。
- 語(yǔ)音的模糊性 。說(shuō)話者在講話時(shí),不同的詞可能聽(tīng)起來(lái)是相似的 。這在英語(yǔ)和漢語(yǔ)中常見(jiàn) 。
- 單個(gè)字母或詞、字的語(yǔ)音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等 。
- 環(huán)境噪聲和干擾對(duì)語(yǔ)音識(shí)別有嚴(yán)重影響,致使識(shí)別率低 。
所以預(yù)處理環(huán)節(jié)需要做到兩個(gè)方面 靜音切除、噪音處理和語(yǔ)音增強(qiáng)01靜音切除又稱語(yǔ)音邊界檢測(cè)或者說(shuō)是端點(diǎn)檢測(cè)是指在語(yǔ)音信號(hào)中將語(yǔ)音和非語(yǔ)音信號(hào)時(shí)段區(qū)分開(kāi)來(lái),準(zhǔn)確地確定出語(yǔ)音信號(hào)的起始點(diǎn)然后從連續(xù)的語(yǔ)音流中檢測(cè)出有效的語(yǔ)音段 。它包括兩個(gè)方面,檢測(cè)出有效語(yǔ)音的起始點(diǎn)即前端點(diǎn),檢測(cè)出有效語(yǔ)音的結(jié)束點(diǎn)即后端點(diǎn) 。經(jīng)過(guò)端點(diǎn)檢測(cè)后,后續(xù)處理就可以只對(duì)語(yǔ)音信號(hào)進(jìn)行,這對(duì)提高模型的精確度和識(shí)別正確率有重要作用 。在語(yǔ)音應(yīng)用中進(jìn)行語(yǔ)音的端點(diǎn)檢測(cè)是很必要的,首先很簡(jiǎn)單的一點(diǎn),就是在存儲(chǔ)或傳輸語(yǔ)音的場(chǎng)景下,從連續(xù)的語(yǔ)音流中分離出有效語(yǔ)音,可以降低存儲(chǔ)或傳輸?shù)臄?shù)據(jù)量 。其次是在有些應(yīng)用場(chǎng)景中,使用端點(diǎn)檢測(cè)可以簡(jiǎn)化人機(jī)交互,比如在錄音的場(chǎng)景中,語(yǔ)音后端點(diǎn)檢測(cè)可以省略結(jié)束錄音的操作 。有些產(chǎn)品已經(jīng)使用循環(huán)神經(jīng)網(wǎng)絡(luò)( RNN)技術(shù)來(lái)進(jìn)行語(yǔ)音的端點(diǎn)檢測(cè) 。02噪音處理:實(shí)際采集到的音頻通常會(huì)有一定強(qiáng)度的背景音,這些背景音一般是背景噪音,當(dāng)背景噪音強(qiáng)度較大時(shí),會(huì)對(duì)語(yǔ)音應(yīng)用的效果產(chǎn)生明顯的影響,比如語(yǔ)音識(shí)別率降低,端點(diǎn)檢測(cè)靈敏度下降等,因此在語(yǔ)音的前端處理中,進(jìn)行噪聲抑制是很有必要的 。噪聲抑制的一般流程:穩(wěn)定背景噪音頻譜特征,在某一或幾個(gè)頻譜處幅度非常穩(wěn)定,假設(shè)開(kāi)始一小段背景是背景噪音,從起始背景噪音開(kāi)始進(jìn)行分組、Fourier變換,對(duì)這些分組求平均得到噪聲的頻譜 。降噪過(guò)程是將含噪語(yǔ)音反向補(bǔ)償之后得到降噪后的語(yǔ)音 。03語(yǔ)音增強(qiáng)主要任務(wù)就是消除環(huán)境噪聲對(duì)語(yǔ)音的影響 。目前,比較常見(jiàn)的語(yǔ)音增強(qiáng)方法分類很多 。其中基于短時(shí)譜估計(jì)增強(qiáng)算法中的譜減法及其改進(jìn)形式是最為常用的,這是因?yàn)樗倪\(yùn)算量較小,容易實(shí)時(shí)實(shí)現(xiàn),而且增強(qiáng)效果也較好 。此外,人們也在嘗試將人工智能、隱馬爾科夫模型、神經(jīng)網(wǎng)絡(luò)和粒子濾波器等理論用于語(yǔ)音增強(qiáng),但目前尚未取得實(shí)質(zhì)性進(jìn)展 。聲學(xué)特征提取人通過(guò)聲道產(chǎn)生聲音,聲道的形狀決定了發(fā)出怎樣的聲音 。聲道的形狀包括舌頭,牙齒等 。如果我們可以準(zhǔn)確的知道這個(gè)形狀,那么我們就可以對(duì)產(chǎn)生的音素進(jìn)行準(zhǔn)確的描述 。聲道的形狀在語(yǔ)音短時(shí)可以由功率譜的包絡(luò)中顯示出來(lái) 。因此,準(zhǔn)確描述這一包絡(luò)的特征就是聲學(xué)特征識(shí)別步驟的主要功能 。接收端接收到的語(yǔ)音信號(hào)經(jīng)過(guò)上文的預(yù)處理以后便得到有效的語(yǔ)音信號(hào),對(duì)每一幀波形進(jìn)行聲學(xué)特征提取便可以得到一個(gè)多維向量 。這個(gè)向量便包含了一幀波形的內(nèi)容信息,為后續(xù)的進(jìn)一步識(shí)別做準(zhǔn)備本文主要介紹使用最多的MFCC聲學(xué)特征 。01MFCC簡(jiǎn)介MFCC是Mel-Frequency Cepstral Coefficients的縮寫,顧名思義MFCC特征提取包含兩個(gè)關(guān)鍵步驟:轉(zhuǎn)化到梅爾頻率,然后進(jìn)行倒譜分析Mel頻率倒譜系數(shù)的縮寫 。Mel頻率是基于人耳聽(tīng)覺(jué)特性提出來(lái)的,它與Hz頻率成非線性對(duì)應(yīng)關(guān)系 。Mel頻率倒譜系數(shù)(MFCC)則是利用它們之間的這種關(guān)系,計(jì)算得到的Hz頻譜特征02MFCC提取流程MFCC參數(shù)的提取包括以下幾個(gè)步驟:預(yù)濾波:CODEC前端帶寬為300-3400Hz的抗混疊濾波器 。A/D變換:8kHz的采樣頻率,12bit的線性量化精度 。預(yù)加重:通過(guò)一個(gè)一階有限激勵(lì)響應(yīng)高通濾波器,使信號(hào)的頻譜變得平坦,不易受到有限字長(zhǎng)效應(yīng)的影響 。分幀:根據(jù)語(yǔ)音的短時(shí)平穩(wěn)特性,語(yǔ)音可以以幀為單位進(jìn)行處理,實(shí)驗(yàn)中選取的語(yǔ)音幀長(zhǎng)為32ms,幀疊為16ms 。加窗:采用哈明窗對(duì)一幀語(yǔ)音加窗,以減小吉布斯效應(yīng)的影響 ??焖俑盗⑷~變換(Fast Fourier Transformation, FFT):將時(shí)域信號(hào)變換成為信號(hào)的功率譜 。三角窗濾波:用一組Mel頻標(biāo)上線性分布的三角窗濾波器(共24個(gè)三角窗濾波器),對(duì)信號(hào)的功率譜濾波,每一個(gè)三角窗濾波器覆蓋的范圍都近似于人耳的一個(gè)臨界帶寬,以此來(lái)模擬人耳的掩蔽效應(yīng) 。求對(duì)數(shù):三角窗濾波器組的輸出求取對(duì)數(shù),可以得到近似于同態(tài)變換的結(jié)果 。離散余弦變換(Discrete Cosine Transformation, DCT):去除各維信號(hào)之間的相關(guān)性,將信號(hào)映射到低維空間 。譜加權(quán):由于倒譜的低階參數(shù)易受說(shuō)話人特性、信道特性等的影響,而高階參數(shù)的分辨能力比較低,所以需要進(jìn)行譜加權(quán),抑制其低階和高階參數(shù) 。倒譜均值減(Cepstrum Mean Subtraction, CMS):CMS可以有效地減小語(yǔ)音輸入信道對(duì)特征參數(shù)的影響 。差分參數(shù):大量實(shí)驗(yàn)表明,在語(yǔ)音特征中加入表征語(yǔ)音動(dòng)態(tài)特性的差分參數(shù),能夠提高系統(tǒng)的識(shí)別性能 。在本系統(tǒng)中,我們也用到了MFCC參數(shù)的一階差分參數(shù)和二階差分參數(shù) 。短時(shí)能量:語(yǔ)音的短時(shí)能量也是重要的特征參數(shù),本系統(tǒng)中我們采用了語(yǔ)音的短時(shí)歸一化對(duì)數(shù)能量及其一階差分、二階差分參數(shù) 。MFCC提取一般流程
以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問(wèn)題,請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專業(yè)人士給予相關(guān)指導(dǎo)!
「愛(ài)刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對(duì)您有所幫助: