亚洲精品一区二区三区四区手机版 ,99精品国产福利在线观看免费

語(yǔ)言是人與人之間最重要的交流方式、能與機(jī)器進(jìn)行自然的人機(jī)交流，是人類一直期待的事情。隨著人工智能快速發(fā)展。語(yǔ)音識(shí)別技術(shù)作為人機(jī)交流接口的關(guān)鍵技術(shù)、發(fā)展迅速。在AI領(lǐng)域也是經(jīng)常被提及。作為人工智能領(lǐng)域的從業(yè)者認(rèn)識(shí)語(yǔ)音識(shí)別也是必須的。接下來(lái)就讓我們科普科普。話不多說(shuō)，直接上菜！語(yǔ)音識(shí)別概述語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程，把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù) 。語(yǔ)音識(shí)別涉及的領(lǐng)域包括:數(shù)字信號(hào)處理、聲學(xué)、語(yǔ)音學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、人工智能等，是一門涵蓋多個(gè)學(xué)科領(lǐng)域的交叉科學(xué)技術(shù) 。語(yǔ)音識(shí)別的技術(shù)原理是模式識(shí)別，其一般過(guò)程可以總結(jié)為：預(yù)處理---特征提取---基于語(yǔ)音模型庫(kù)下的模式匹配---基于語(yǔ)言模型庫(kù)下的語(yǔ)言處理---完成識(shí)別

文章插圖

預(yù)處理聲音的實(shí)質(zhì)是波。語(yǔ)音識(shí)別所使用的音頻文件格式必須是未經(jīng)壓縮處理的文件，如人類正常的語(yǔ)音輸入等語(yǔ)音輸入所面對(duì)的環(huán)境是復(fù)雜的主要存在以下問(wèn)題

對(duì)自然語(yǔ)言的識(shí)別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位，其次要建立一個(gè)理解語(yǔ)義的規(guī)則。
語(yǔ)音信息量大，語(yǔ)音模式不僅對(duì)不同的說(shuō)話人不同，對(duì)同一說(shuō)話人也是不同的，例如，一個(gè)說(shuō)話人在隨意說(shuō)話和認(rèn)真說(shuō)話時(shí)的語(yǔ)音信息是不同的。一個(gè)人的說(shuō)話方式隨著時(shí)間變化。
語(yǔ)音的模糊性。說(shuō)話者在講話時(shí)，不同的詞可能聽(tīng)起來(lái)是相似的。這在英語(yǔ)和漢語(yǔ)中常見(jiàn) 。
單個(gè)字母或詞、字的語(yǔ)音特性受上下文的影響，以致改變了重音、音調(diào)、音量和發(fā)音速度等。
環(huán)境噪聲和干擾對(duì)語(yǔ)音識(shí)別有嚴(yán)重影響，致使識(shí)別率低。

所以預(yù)處理環(huán)節(jié)需要做到兩個(gè)方面靜音切除、噪音處理和語(yǔ)音增強(qiáng)01靜音切除又稱語(yǔ)音邊界檢測(cè)或者說(shuō)是端點(diǎn)檢測(cè)是指在語(yǔ)音信號(hào)中將語(yǔ)音和非語(yǔ)音信號(hào)時(shí)段區(qū)分開(kāi)來(lái)，準(zhǔn)確地確定出語(yǔ)音信號(hào)的起始點(diǎn)然后從連續(xù)的語(yǔ)音流中檢測(cè)出有效的語(yǔ)音段。它包括兩個(gè)方面，檢測(cè)出有效語(yǔ)音的起始點(diǎn)即前端點(diǎn)，檢測(cè)出有效語(yǔ)音的結(jié)束點(diǎn)即后端點(diǎn) 。經(jīng)過(guò)端點(diǎn)檢測(cè)后，后續(xù)處理就可以只對(duì)語(yǔ)音信號(hào)進(jìn)行，這對(duì)提高模型的精確度和識(shí)別正確率有重要作用。在語(yǔ)音應(yīng)用中進(jìn)行語(yǔ)音的端點(diǎn)檢測(cè)是很必要的，首先很簡(jiǎn)單的一點(diǎn)，就是在存儲(chǔ)或傳輸語(yǔ)音的場(chǎng)景下，從連續(xù)的語(yǔ)音流中分離出有效語(yǔ)音，可以降低存儲(chǔ)或傳輸?shù)臄?shù)據(jù)量。其次是在有些應(yīng)用場(chǎng)景中，使用端點(diǎn)檢測(cè)可以簡(jiǎn)化人機(jī)交互，比如在錄音的場(chǎng)景中，語(yǔ)音后端點(diǎn)檢測(cè)可以省略結(jié)束錄音的操作。有些產(chǎn)品已經(jīng)使用循環(huán)神經(jīng)網(wǎng)絡(luò)（ RNN）技術(shù)來(lái)進(jìn)行語(yǔ)音的端點(diǎn)檢測(cè) 。02噪音處理：實(shí)際采集到的音頻通常會(huì)有一定強(qiáng)度的背景音，這些背景音一般是背景噪音，當(dāng)背景噪音強(qiáng)度較大時(shí)，會(huì)對(duì)語(yǔ)音應(yīng)用的效果產(chǎn)生明顯的影響，比如語(yǔ)音識(shí)別率降低，端點(diǎn)檢測(cè)靈敏度下降等，因此在語(yǔ)音的前端處理中，進(jìn)行噪聲抑制是很有必要的。噪聲抑制的一般流程：穩(wěn)定背景噪音頻譜特征，在某一或幾個(gè)頻譜處幅度非常穩(wěn)定，假設(shè)開(kāi)始一小段背景是背景噪音，從起始背景噪音開(kāi)始進(jìn)行分組、Fourier變換，對(duì)這些分組求平均得到噪聲的頻譜。降噪過(guò)程是將含噪語(yǔ)音反向補(bǔ)償之后得到降噪后的語(yǔ)音。03語(yǔ)音增強(qiáng)主要任務(wù)就是消除環(huán)境噪聲對(duì)語(yǔ)音的影響。目前，比較常見(jiàn)的語(yǔ)音增強(qiáng)方法分類很多。其中基于短時(shí)譜估計(jì)增強(qiáng)算法中的譜減法及其改進(jìn)形式是最為常用的，這是因?yàn)樗倪\(yùn)算量較小，容易實(shí)時(shí)實(shí)現(xiàn)，而且增強(qiáng)效果也較好。此外，人們也在嘗試將人工智能、隱馬爾科夫模型、神經(jīng)網(wǎng)絡(luò)和粒子濾波器等理論用于語(yǔ)音增強(qiáng)，但目前尚未取得實(shí)質(zhì)性進(jìn)展。聲學(xué)特征提取人通過(guò)聲道產(chǎn)生聲音，聲道的形狀決定了發(fā)出怎樣的聲音。聲道的形狀包括舌頭，牙齒等。如果我們可以準(zhǔn)確的知道這個(gè)形狀，那么我們就可以對(duì)產(chǎn)生的音素進(jìn)行準(zhǔn)確的描述。聲道的形狀在語(yǔ)音短時(shí)可以由功率譜的包絡(luò)中顯示出來(lái) 。因此，準(zhǔn)確描述這一包絡(luò)的特征就是聲學(xué)特征識(shí)別步驟的主要功能。接收端接收到的語(yǔ)音信號(hào)經(jīng)過(guò)上文的預(yù)處理以后便得到有效的語(yǔ)音信號(hào)，對(duì)每一幀波形進(jìn)行聲學(xué)特征提取便可以得到一個(gè)多維向量。這個(gè)向量便包含了一幀波形的內(nèi)容信息，為后續(xù)的進(jìn)一步識(shí)別做準(zhǔn)備本文主要介紹使用最多的MFCC聲學(xué)特征。01MFCC簡(jiǎn)介MFCC是Mel-Frequency Cepstral Coefficients的縮寫，顧名思義MFCC特征提取包含兩個(gè)關(guān)鍵步驟：轉(zhuǎn)化到梅爾頻率，然后進(jìn)行倒譜分析Mel頻率倒譜系數(shù)的縮寫。Mel頻率是基于人耳聽(tīng)覺(jué)特性提出來(lái)的，它與Hz頻率成非線性對(duì)應(yīng)關(guān)系。Mel頻率倒譜系數(shù)(MFCC)則是利用它們之間的這種關(guān)系，計(jì)算得到的Hz頻譜特征02MFCC提取流程MFCC參數(shù)的提取包括以下幾個(gè)步驟：預(yù)濾波：CODEC前端帶寬為300-3400Hz的抗混疊濾波器。A/D變換：8kHz的采樣頻率，12bit的線性量化精度。預(yù)加重：通過(guò)一個(gè)一階有限激勵(lì)響應(yīng)高通濾波器，使信號(hào)的頻譜變得平坦，不易受到有限字長(zhǎng)效應(yīng)的影響。分幀：根據(jù)語(yǔ)音的短時(shí)平穩(wěn)特性，語(yǔ)音可以以幀為單位進(jìn)行處理，實(shí)驗(yàn)中選取的語(yǔ)音幀長(zhǎng)為32ms，幀疊為16ms 。加窗：采用哈明窗對(duì)一幀語(yǔ)音加窗，以減小吉布斯效應(yīng)的影響 ?？焖俑盗⑷~變換（Fast Fourier Transformation, FFT）：將時(shí)域信號(hào)變換成為信號(hào)的功率譜。三角窗濾波：用一組Mel頻標(biāo)上線性分布的三角窗濾波器（共24個(gè)三角窗濾波器），對(duì)信號(hào)的功率譜濾波，每一個(gè)三角窗濾波器覆蓋的范圍都近似于人耳的一個(gè)臨界帶寬，以此來(lái)模擬人耳的掩蔽效應(yīng) 。求對(duì)數(shù)：三角窗濾波器組的輸出求取對(duì)數(shù)，可以得到近似于同態(tài)變換的結(jié)果。離散余弦變換（Discrete Cosine Transformation, DCT）：去除各維信號(hào)之間的相關(guān)性，將信號(hào)映射到低維空間。譜加權(quán)：由于倒譜的低階參數(shù)易受說(shuō)話人特性、信道特性等的影響，而高階參數(shù)的分辨能力比較低，所以需要進(jìn)行譜加權(quán)，抑制其低階和高階參數(shù) 。倒譜均值減（Cepstrum Mean Subtraction, CMS）：CMS可以有效地減小語(yǔ)音輸入信道對(duì)特征參數(shù)的影響。差分參數(shù)：大量實(shí)驗(yàn)表明，在語(yǔ)音特征中加入表征語(yǔ)音動(dòng)態(tài)特性的差分參數(shù)，能夠提高系統(tǒng)的識(shí)別性能。在本系統(tǒng)中，我們也用到了MFCC參數(shù)的一階差分參數(shù)和二階差分參數(shù) 。短時(shí)能量：語(yǔ)音的短時(shí)能量也是重要的特征參數(shù)，本系統(tǒng)中我們采用了語(yǔ)音的短時(shí)歸一化對(duì)數(shù)能量及其一階差分、二階差分參數(shù) 。MFCC提取一般流程

以上關(guān)于本文的內(nèi)容，僅作參考！溫馨提示：如遇健康、疾病相關(guān)的問(wèn)題，請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專業(yè)人士給予相關(guān)指導(dǎo)!

「愛(ài)刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容，希望對(duì)您有所幫助：

人工智能之語(yǔ)音識(shí)別技術(shù) 今天語(yǔ)音搜索了嗎