Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
AI產(chǎn)品經(jīng)理需要了解的語音交互評(píng)價(jià)指標(biāo) PDF 下載
匿名網(wǎng)友發(fā)布于:2025-05-06 10:19:00
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

AI產(chǎn)品經(jīng)理需要了解的語音交互評(píng)價(jià)指標(biāo) PDF 下載  圖1

 

 

資料內(nèi)容:

 

 

一、識(shí)別 ASR
語音識(shí)別(Automatic Speech Recognition),一般簡(jiǎn)稱 ASR,是將聲音轉(zhuǎn)化為文字的過
程,相當(dāng)于人類的耳朵。
 
1識(shí)別
看純引擎的識(shí)別率,以及不同信噪比狀態(tài)下的識(shí)別率(信噪比模擬不同車速、車窗、空調(diào)
狀態(tài)等),還有在線/離線識(shí)別的區(qū)別。
實(shí)際工作中,一般識(shí)別率的直接指標(biāo)是“WER(詞錯(cuò)誤率,Word Error Rate)”
定義:為了使識(shí)別出來的詞序列和標(biāo)準(zhǔn)的詞序列之間保持一致,需要進(jìn)行替換、刪除或者
插入某些詞,這些插入、替換或刪除的詞的總個(gè)數(shù),除以標(biāo)準(zhǔn)的詞序列中詞的總個(gè)數(shù)的百
分比,即為 WER。
公式為:
Substitution——替換
Deletion——刪除
Insertion——插入
N——單詞數(shù)目
3 點(diǎn)說明:
WER 可以分男女、快慢、口音、數(shù)字/英文/中文等情況,分別來看。
因?yàn)橛胁迦朐~,所以理論上 WER 有可能大于 100%,但實(shí)際中、特別是大樣本量的時(shí)候,是
不可能的,否則就太差了,不可能被商用。
站在純產(chǎn)品體驗(yàn)角度,很多人會(huì)以為識(shí)別率應(yīng)該等于“句子識(shí)別正確的個(gè)數(shù)/總的句子個(gè)
數(shù)”,即“識(shí)別(正確)率等于 96%”這種,實(shí)際工作中,這個(gè)應(yīng)該指向“SER(句錯(cuò)誤率,
Sentence Error Rate)”,即“句子識(shí)別錯(cuò)誤的個(gè)數(shù)/總的句子個(gè)數(shù)”。不過據(jù)說在實(shí)際
工作中,一般句錯(cuò)誤率是字錯(cuò)誤率的 2~3 倍,所以可能就不怎么看了。
 
2、醒相關(guān)的指標(biāo)
先需要介紹下語音喚醒(Voice Trigger,VT)的相關(guān)信息。
(1)語音喚醒的需求背景
近場(chǎng)識(shí)別時(shí),比如使用語音輸入法時(shí),用戶可以按住手機(jī)上 siri 的語音按鈕,直接說話
(結(jié)束之后松開);近場(chǎng)情況下信噪比(Signal to Noise Ratio, SNR)比較高,信號(hào)清
晰,簡(jiǎn)單算法也能做到有效可靠。
但是在遠(yuǎn)場(chǎng)識(shí)別時(shí),比如在智能音箱場(chǎng)景,用戶不能用手接觸設(shè)備,需要進(jìn)行語音喚醒,
相當(dāng)于叫這個(gè) AI(機(jī)器人)的名字,引起 ta 的注意,比如蘋果的“Hey Siri”,Google
的“OK Google”,亞馬遜 Echo 的“Alexa”等。
(2)語音喚醒的含義
簡(jiǎn)單來說是“喊名字,引起聽者(AI)的注意”。如果語音喚醒判斷結(jié)果是正確的喚醒
(激活)詞,那后續(xù)的語音就應(yīng)該被識(shí)別;否則,不進(jìn)行識(shí)別。
(3)語音喚醒的相關(guān)指標(biāo)
a. 喚醒率。叫 AI 的時(shí)候,ta 成功被喚醒的比率。b. 誤喚醒率。沒叫 AI 的時(shí)候,
ta 自己跳出來講話的比率。如果誤喚醒比較多,特別比
如半夜時(shí),智能音箱突然開始唱歌或講故事,會(huì)特別嚇人的……
c. 喚醒詞的音節(jié)長(zhǎng)度。一般技術(shù)上要求,最少 3 個(gè)音節(jié),比如“OK Google”和“Alexa”
有四個(gè)音節(jié),“Hey Siri”有三個(gè)音節(jié);國(guó)內(nèi)的智能音箱,比如小雅,喚醒詞是“小雅小
雅”,而不能用“小雅”——如果音節(jié)太短,一般誤喚醒率會(huì)比較高。
d. 喚醒響應(yīng)時(shí)間。之前看過傅盛的文章,說世界上所有的音箱,除了 Echo 和他們做的
小雅智能音箱能達(dá)到 1.5 秒,其他的都在 3 秒以上。
e. 功耗(要低)??催^報(bào)道,說 iPhone 4s 出現(xiàn) Siri,但直到 iPhone 6s 之后才允許不
接電源的情況下直接喊“Hey Siri”進(jìn)行語音喚醒;這是因?yàn)橛?6s 上有一顆專門進(jìn)行語
音激活的低功耗芯片,當(dāng)然算法和硬件要進(jìn)行配合,算法也要進(jìn)行優(yōu)化。