一個完整的基于統(tǒng)計的語音識別系統(tǒng)可大致分為三部分:。
(1)語音信號預(yù)處理與特征提取,
(2)聲學(xué)模型與模式匹配,
(3)語言模型與語言處理選擇識別單元是語音識別研究的第一步,語音識別單元有單詞(句),音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。
單詞(句)單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,語音識別ic訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實時性要求。
音節(jié)單元多見于漢語語音識別,主要因為漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約1300個音節(jié),但若不考慮聲調(diào),約有408個無調(diào)音節(jié),數(shù)量相對較少,因此,對于中,大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。
語言模型對中,大詞匯量的語音識別系統(tǒng)特別重要,當(dāng)分類發(fā)生錯誤語音ic時可以根據(jù)語言學(xué)模型,語法結(jié)構(gòu),語義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義,語言學(xué)理論包括語義結(jié)構(gòu),語法規(guī)則,語言的數(shù)學(xué)描述模型等有關(guān)方面,目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。
因為這樣的芯片必須要量大才便宜,因為量小了,分?jǐn)傁聛?,成本其實也不低,語音存儲的時間短,播放的音質(zhì)差語音ic,并且不可重復(fù)的更換語音,因為它內(nèi)部實現(xiàn)的方法是將語音文件壓縮成WAV的文件,直接存儲在芯片內(nèi)部,這樣就會導(dǎo)致語音被壓縮的非常的厲害。
語音識別芯片方案,雖然其語音播報靈活,但是語音識別的高額成本也限制了其的發(fā)展。
支持循環(huán)播放,隨機(jī)播放,一對一播放等等,十分靈活,出貨為封裝片,保證了良率,對數(shù)量無任何要求,硬件的外圍電路是極其簡單的,bom成本低廉。