Python知識分享網 - 專業(yè)的Python學習網站 學Python,上Python222
AI產品經理需了解的技術知識:語音識別技術 PDF 下載
匿名網友發(fā)布于:2025-05-04 16:04:38
(侵權舉報)
(假如點擊沒反應,多刷新兩次就OK!)

AI產品經理需了解的技術知識:語音識別技術 PDF 下載 圖1

 

 

資料內容:

 

 

AI 理需了解的技識別
1
本文章主要介紹了語音識別技術語的發(fā)展、基本原理、語音特征,目的是幫助 PM 了解語
音技術方面的知識,有助于語音類相關產品的設計~
 
一、識別發(fā)
20 世紀 50 年代,語音識別的研究工作開始,這時主要探索和研究聲音和語音學的基本概
念和原理。
20 世紀 60 年代,可以解決不等長語音匹配問題。
20 世紀 70 年代,隨著 NLP 技術和微電子技術的深入發(fā)展,語音識別領域的線性預測分析
技術得到廣泛應用,HMM 等技術基本成熟。
20 世紀 80 年代,語音研究其顯著特征是 HMM 和人工神經網絡(ANN)。
從發(fā)展可以看出:語音識別技術最早依靠匹配,尋找單個音節(jié)、單個詞和標準語音模板的
最大相似度進行匹配。后來伴隨著統(tǒng)計學被引入到語音識別中,將該技術逐步從模板匹配
技術轉向基于統(tǒng)計模型技術。
 
二、識別的基本原理
對于不同的語音識別過程,人們采用的識別方法和技術不同,但所用的原理大致相同,即
將經過降噪處理后的語音送入特征提取模塊,然后對語音信號特征處理后輸出識別結果。
在這個過程中,特征提取是構建語音系統(tǒng)的關鍵,對識別結果起到了重要作用,原理見下
圖:
特征提?。禾崛≌Z音特征參數(shù),形成特征矢量序列。
 
三、音信號特征
實現(xiàn)語音識別,就需要語音參數(shù)來刻畫語音信息。語音原本具有短時特性,所以描述語音
的單位用幀(一般為 10-40ms),在音頻幀上提取的短時音頻特征,叫音頻幀特征。相對
音頻幀較長的時間間隔成為音頻段,在音頻段上提取的特征叫音頻段特征。
下面列舉一些常用的音頻特征和音頻段特征: