資源引入評(píng)測(cè)主要是觀察引入資源的效果 。根據(jù)不同的資源,評(píng)測(cè)所關(guān)注的維度也是不一樣的,這里我就不再一一贅述了 。
評(píng)測(cè)體系的最后一部分是“說(shuō)得清,說(shuō)得美”,它用來(lái)評(píng)估小布助手在各個(gè)音色上存在的問(wèn)題點(diǎn)及與競(jìng)品存在的差異點(diǎn) 。除了行業(yè)通用的MOS評(píng)測(cè),根據(jù)評(píng)測(cè)需求和效率,也會(huì)采用推薦式評(píng)測(cè)和只關(guān)注對(duì)錯(cuò)的客觀評(píng)測(cè)方式 。
05
總結(jié)與展望
任何一個(gè)評(píng)測(cè)體系都不是一成不變的,它會(huì)隨著用戶需求、產(chǎn)品迭代進(jìn)行方案的升級(jí),用于發(fā)現(xiàn)新問(wèn)題、指導(dǎo)優(yōu)化思路 。
比如隨著語(yǔ)音助手從單設(shè)備到多終端、單指令到跨服務(wù)、單場(chǎng)景到跨場(chǎng)景的發(fā)展,小布助手評(píng)測(cè)體系一定也會(huì)持續(xù)升級(jí),進(jìn)一步覆蓋超級(jí)終端的設(shè)備接入和管理能力評(píng)測(cè),從語(yǔ)音識(shí)別到視覺(jué)識(shí)別、環(huán)境感知等效果能力評(píng)估、學(xué)習(xí)能力評(píng)估等 。
06
精彩問(wèn)答
Q:ASR和TTS的評(píng)測(cè)指標(biāo)的定義和標(biāo)準(zhǔn)是什么?
A:ASR的評(píng)測(cè)指標(biāo)主要是字錯(cuò)率和句錯(cuò)率 。語(yǔ)音轉(zhuǎn)成的文字和人工識(shí)別的文字進(jìn)行比較,來(lái)計(jì)算字錯(cuò)率和句錯(cuò)率 。針對(duì)接口類如多環(huán)境、多噪音、多性別、多年齡評(píng)測(cè),我們隨機(jī)抽取線上用戶數(shù)據(jù);而語(yǔ)音實(shí)驗(yàn)室評(píng)測(cè)的采集數(shù)據(jù)會(huì)針對(duì)性地采集一定噪音環(huán)境下的數(shù)據(jù),如車載環(huán)境、高速公路環(huán)境、辦公室環(huán)境等 。實(shí)驗(yàn)室會(huì)綜合人聲的采集數(shù)據(jù)和噪聲數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別測(cè)評(píng) 。TTS的評(píng)測(cè)指標(biāo)是MOS得分,需要考慮自然度、清晰度、準(zhǔn)確率等因素 。目前檔位分為五檔,業(yè)內(nèi)針對(duì)MOS打分的規(guī)則是通用的,有興趣的同學(xué)可以去網(wǎng)上搜索詳細(xì)的檔位劃分規(guī)則 。
Q:針對(duì)嚴(yán)重的長(zhǎng)尾問(wèn)題,采用哪種抽樣方法更能改善用戶體驗(yàn)?評(píng)測(cè)的邊界case怎么處理?例如誤喚醒,情緒識(shí)別有時(shí)很難區(qū)分 。
A:長(zhǎng)尾問(wèn)題可以使用分層抽樣的方法解決,因?yàn)殡S機(jī)抽樣抽取的樣本一定偏向PV較高的,無(wú)法覆蓋長(zhǎng)尾樣本 。抽樣時(shí)從某個(gè)頻次以下的樣本池中進(jìn)行抽樣,就可以得到長(zhǎng)尾類數(shù)據(jù) 。邊界case,如果有客觀數(shù)據(jù)支持最好,如果沒(méi)有盡量考慮結(jié)果的多樣性,使模糊的用戶query不要影響整體結(jié)論 。情緒識(shí)別有時(shí)會(huì)遇到難以區(qū)別的情況,比如傷心和失望,但是我們會(huì)定義具體的規(guī)則,盡量區(qū)分兩種情緒 。
Q:相關(guān)性和時(shí)效性評(píng)測(cè)都是由人工進(jìn)行測(cè)評(píng)的嗎?
A:是的 。分享中所涉及的都是人工評(píng)測(cè),所以我們一定要在制定評(píng)測(cè)規(guī)則的時(shí)候就把它闡述清楚,減少人為主觀因素的影響 。比如相關(guān)性,通過(guò)指定詳細(xì)的規(guī)則來(lái)定義強(qiáng)相關(guān)、弱相關(guān)和不相關(guān),同時(shí)會(huì)使用case進(jìn)行舉例說(shuō)明,幫助評(píng)測(cè)人員進(jìn)行理解 。時(shí)效性的評(píng)測(cè)可以使用“搜索一下”的方法,在搜索引擎中觀察query對(duì)應(yīng)的最新結(jié)果是什么,當(dāng)然我們也會(huì)去看競(jìng)品的結(jié)果,進(jìn)行綜合判斷 。
Q:搜索評(píng)測(cè)中,準(zhǔn)召指標(biāo)會(huì)做全鏈路的嗎?滿意度和PI是不是都是針對(duì)全鏈路的最終結(jié)果?PI評(píng)測(cè)時(shí)是對(duì)各維度設(shè)計(jì)評(píng)測(cè)規(guī)則還是使用其他方法進(jìn)行設(shè)計(jì)?
A:搜索評(píng)測(cè)中的準(zhǔn)召一般都是按照垂域來(lái)進(jìn)行的,全鏈路的做法比較少見(jiàn) 。滿意度是根據(jù)定義來(lái)進(jìn)行測(cè)評(píng)的,比如只關(guān)心Top 3的指標(biāo),那么滿意度就和前三條結(jié)果有關(guān),最后得出對(duì)應(yīng)的打分結(jié)果;如果關(guān)心Top10的指標(biāo),那么就要把前十條結(jié)果都考慮在內(nèi) 。PI也是遵循一樣的原則,目前業(yè)內(nèi)通常選取前三條或者前四條 。PI會(huì)將前三條或者前四條結(jié)果分別進(jìn)行打分,然后按照計(jì)算公式使用權(quán)重計(jì)算它們的綜合得分 。
Q:我們?nèi)绾螐倪@么多評(píng)測(cè)指標(biāo)中評(píng)價(jià)哪個(gè)模型是最優(yōu)的?所有維度都需要進(jìn)行評(píng)測(cè)嗎?如果不是,我們應(yīng)該如何選擇需要的評(píng)測(cè)維度?
以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問(wèn)題,請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專業(yè)人士給予相關(guān)指導(dǎo)!
「愛(ài)刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對(duì)您有所幫助:- 智能助手進(jìn)入黃金新十年
- OPPO小布助手豈止于AI 小布是OPPO家的智能助理
- 維持異地戀的技巧有哪些 如何保持異地戀
- 微信如何快速加人 微信快速加人的方法有哪些
- 回收家電怎么樣 回收家電如何處理
- 如何維持跨國(guó)戀 維持跨國(guó)戀的技巧
- 直播內(nèi)容策劃步驟 直播內(nèi)容策劃有哪些
- 電話客服的工作如何 電話客服的工作怎么樣
- 新手創(chuàng)業(yè)如何入手 年輕人如何創(chuàng)業(yè)
- 如何做好快遞客服 新手如何做快遞客服
