<fieldset id="i2wio"></fieldset>

<ul id="i2wio"></ul>

外貿(mào)領航

首頁海外營銷 > 語音識別技術綜述「語音識別算法」

語音識別技術綜述「語音識別算法」

來源：互聯(lián)網(wǎng) 2024-07-15 15:04:04

摘要：語音識別技術作為人工智能技術中的重要組成部分，也作為影響人機交互的核心組件之一，從各種智能家用IoT設備的語音交互能力，到公共服務、智慧政務等場合的應用，語音識別技術正在影響著人們生活的方方面面。本文將挑選阿里云語音識別技術中的一些模型端技術進行簡要介紹。

鄢志杰，阿里云資深算法專家，人機交互首席科學家。研究領域主要包括語音識別、語音合成、說話人識別驗證、OCR/手寫識別、機器學習算法等。長期擔任語音領域頂級學術會議及期刊的專家評審，并擁有多項美國及PCT專利。

以下為內(nèi)容全文：

語音識別技術作為人工智能技術中的重要組成部分，也作為影響人機交互的核心組件之一，從各種智能家用IoT設備的語音交互能力，到公共服務、智慧政務等場合的應用，語音識別技術正在影響著人們生活的方方面面。本文將挑選阿里云語音識別技術中的一些模型端技術進行簡要介紹。

聲學模型、語言模型和解碼器可以看作是現(xiàn)代語音識別系統(tǒng)最核心的三個組成部分。雖然最近有一些研究者嘗試構(gòu)建End2end的語音識別系統(tǒng)，但包含聲學模型、語言模型和解碼器的現(xiàn)代語音識別系統(tǒng)依然是當前最主流和使用最廣泛的系統(tǒng)。在這其中，聲學模型主要用來構(gòu)建輸入語音和輸出聲學單元之間的概率映射關系；語言模型用來描述不同字詞之間的概率搭配關系，使得識別出的句子更像自然文本；解碼器負責結(jié)合聲學單元概率數(shù)值和語言模型在不同搭配上的打分進行篩選，最終得到最可能的識別結(jié)果。

隨著近幾年深度學習的火熱，語音識別領域也紛紛投入深度學習的大潮之中。將傳統(tǒng)HMM-GMM聲學模型替換成HMM-DNN聲學模型后，可以獲得超過20%的相對提升，在傳統(tǒng)N-Gram語言模型基礎上疊加NN-LM語言模型也可以獲得進一步的提高。在這過程中，聲學模型由于更適合采用深度神經(jīng)網(wǎng)絡模型，從而受到研究者更多的關注。本文主要介紹阿里云語音識別技術中采用的聲學模型技術和語言模型技術，包括LC-BLSTM聲學模型、LFR-DFSMN聲學模型和NN-LM語言模型，其中LC-BLSTM是對傳統(tǒng)BLSTM模型的一種改進，在保持了高準確率的同時，提供了低延時的特性；而LFR-DFSMN是對RNN聲學模型的一種改進，用精巧的模型設計獲得更穩(wěn)定的訓練效果和更好的識別準確率；NN-LM語言模型是近年來在傳統(tǒng)N-Gram語言模型基礎上獲得的進一步改進。

Latency-Controlled BLSTM模型

DNN（即fully connected DNN）模型的優(yōu)點在于通過增加神經(jīng)網(wǎng)絡的層數(shù)和節(jié)點數(shù)，擴展了網(wǎng)絡對于復雜數(shù)據(jù)的抽象和建模能力，但同時DNN模型也存在一些不足，例如DNN中一般采用拼幀來考慮上下文相關信息對于當前語音幀的影響，這并不是反映語音序列之間相關性的最佳方法。自回歸神經(jīng)網(wǎng)絡（RNN）在一定程度上解決了這個問題，它通過網(wǎng)絡節(jié)點的自連接達到利用序列數(shù)據(jù)間相關性的目的。進一步有研究人員提出一種長短時記憶網(wǎng)絡（LSTM-RNN），它可以有效減輕簡單RNN容易出現(xiàn)的梯度爆炸和梯度消散問題，而后研究人員又對LSTM進行了擴展，使用雙向長短時記憶網(wǎng)絡（BLSTM-RNN）進行聲學模型建模，以充分考慮上下文信息的影響。

BLSTM模型可以有效地提升語音識別的準確率，相比于DNN模型，相對性能提升可以達到15%-20%。但同時BLSTM模型也存在兩個非常重要的問題：

句子級進行更新，模型的收斂速度通常較慢，并且由于存在大量的逐幀計算，無法有效發(fā)揮GPU等并行計算工具的計算能力，訓練會非常耗時；由于需要用到整句遞歸計算每一幀的后驗概率，解碼延遲和實時率無法得到有效保證，很難應用于實際服務。

對于這兩個問題，學術界首先提出Context-Sensitive-Chunk BLSTM（CSC-BLSTM）的方法加以解決，而此后又提出了Latency Controlled BLSTM（LC-BLSTM）這一改進版本，更好、更高效的減輕了這兩個問題。我們在此基礎上采用LC-BLSTM-DNN混合結(jié)構(gòu)配合多機多卡、16bit量化等訓練和優(yōu)化方法進行聲學模型建模，取得了相比于DNN模型約17-24%的相對識別錯誤率下降。

典型的LSTM節(jié)點結(jié)構(gòu)由3個gate組成：input gate、forget gate、output gate和一個cell組成，輸入、輸出節(jié)點以及cell同各個門之間都存在連接；input gate、forget gate同cell之間也存在連接，cell內(nèi)部還有自連接。這樣通過控制不同門的狀態(tài)，可以實現(xiàn)更好的長短時信息保存和誤差傳播。

LSTM可以像DNN一樣逐層堆積成為Deep LSTM，為了更好的利用上下文信息，還可以使用BLSTM逐層堆積構(gòu)造Deep BLSTM，其結(jié)構(gòu)如下圖所示，網(wǎng)絡中沿時間軸存在正向和反向兩個信息傳遞過程，每一個時間幀的計算都依賴于前面所有時間幀和后面所有時間幀的計算結(jié)果，對于語音信號這種時序序列，該模型充分考慮了上下文對于當前語音幀的影響，能夠極大的提高音素狀態(tài)的分類準確率。

然而由于標準的BLSTM是對整句語音數(shù)據(jù)進行建模，訓練和解碼過程存在收斂慢、延遲高、實時率低等問題，針對這些弊端我們采用了Latency Controlled BLSTM進行解決，與標準的BLSTM使用整句語音進行訓練和解碼不同，Latency Control BLSTM使用類似truncated BPTT的更新方式，并在cell中間狀態(tài)處理和數(shù)據(jù)使用上有著自己的特點，如下圖所示，訓練時每次使用一小段數(shù)據(jù)進行更新，數(shù)據(jù)由中心chunk和右向附加chunk構(gòu)成，其中右向附加chunk只用于cell中間狀態(tài)的計算，誤差只在中心chunk上進行傳播。時間軸上正向移動的網(wǎng)絡，前一個數(shù)據(jù)段在中心chunk結(jié)束時的cell中間狀態(tài)被用于下一個數(shù)據(jù)段的初始狀態(tài)，時間軸上反向移動的網(wǎng)絡，每一個數(shù)據(jù)段開始時都將cell中間狀態(tài)置為0。該方法可以很大程度上加快網(wǎng)絡的收斂速度，并有助于得到更好的性能。解碼階段的數(shù)據(jù)處理與訓練時基本相同，不同之處在于中心chunk和右向附加chunk的維度可以根據(jù)需求進行調(diào)節(jié)，并不必須與訓練采用相同配置。

LFR-DFSMN模型

FSMN是近期被提出的一種網(wǎng)絡結(jié)構(gòu)，通過在前饋全連接神經(jīng)網(wǎng)絡（Feedforward Fully-connected Neural Networks，F(xiàn)NN）的隱層添加一些可學習的記憶模塊，從而可以有效的對信號的長時相關性進行建模。FSMN相比于LCBLSTM不僅可以更加方便的控制時延，而且往往也能獲得更好的性能，需要的計算資源也更少。但是標準的FSMN很難訓練非常深層的結(jié)構(gòu)，由于梯度消失問題導致訓練效果不好。而深層結(jié)構(gòu)的模型目前在很多領域被證明具有更強的建模能力。因而針對此我們提出了一種改進的FSMN模型，稱之為深層的FSMN（Deep FSMN, DFSMN）。進一步的我們結(jié)合低幀率（Low Frame Rate，LFR）技術構(gòu)建了一種高效的實時語音識別聲學模型，相比于去年我們上線的LFR-LCBLSTM聲學模型可以獲得超過20%的相對性能提升，同時可以獲得2-3倍的訓練以及解碼的加速，可以顯著的減少我們的系統(tǒng)實際應用時所需要的計算資源。

最早提出的FSMN的模型結(jié)構(gòu)如上圖（a）所示，其本質(zhì)上是一個前饋全連接神經(jīng)網(wǎng)絡，通過在隱層旁添加一些記憶模塊（memory block）來對周邊的上下文信息進行建模，從而使得模型可以對時序信號的長時相關性進行建模。記憶模塊采用如上圖（b）所示的抽頭延遲結(jié)構(gòu)將當前時刻以及之前 N 個時刻的隱層輸出通過?組系數(shù)編碼得到?個固定的表達。FSMN的提出是受到數(shù)字信號處理中濾波器設計理論的啟發(fā)：任何無限響應沖擊（Infinite Impulse Response, IIR）濾波器可以采用高階的有限沖擊響應（Finite Impulse Response, FIR）濾波器進行近似。從濾波器的角度出發(fā)，如上圖（c）所示的RNN模型的循環(huán)層就可以看作如上圖（d）的一階IIR濾波器。而FSMN采用的采用如上圖（b）所示的記憶模塊可以看作是一個高階的FIR濾波器。從而FSMN也可以像RNN一樣有效的對信號的長時相關性進行建模，同時由于FIR濾波器相比于IIR濾波器更加穩(wěn)定，因而FSMN相比于RNN訓練上會更加簡單和穩(wěn)定。

根據(jù)記憶模塊編碼系數(shù)的選擇，可以分為：1）標量FSMN（sFSMN）；2）矢量FSMN（vFSMN）。sFSMN 和 vFSMN 顧名思義就是分別使用標量和矢量作為記憶模塊的編碼系數(shù)。

以上的FSMN只考慮了歷史信息對當前時刻的影響，我們可以稱之為單向的FSMN。當我們同時考慮歷史信息以及未來信息對當前時刻的影響時，我們可以將單向的FSMN進行擴展得到雙向的FSMN。

FSMN相比于FNN，需要將記憶模塊的輸出作為下一個隱層的額外輸入，這樣就會引入額外的模型參數(shù)。隱層包含的節(jié)點越多，則引入的參數(shù)越多。研究結(jié)合矩陣低秩分解（Low-rank matrix factorization）的思路，提出了一種改進的FSMN結(jié)構(gòu)，稱之為簡潔的FSMN（Compact FSMN，cFSMN）。下圖是一個第l個隱層包含記憶模塊的cFSMN的結(jié)構(gòu)框圖。

對于cFSMN，通過在網(wǎng)絡的隱層后添加一個低維度的線性投影層，并且將記憶模塊添加在這些線性投影層上。進一步的，cFSMN對記憶模塊的編碼公式進行了一些改變，通過將當前時刻的輸出顯式的添加到記憶模塊的表達中，從而只需要將記憶模塊的表達作為下一層的輸入。這樣可以有效的減少模型的參數(shù)量，加快網(wǎng)絡的訓練。

上圖是我們進一步提出的Deep-FSMN（DFSMN）的網(wǎng)絡結(jié)構(gòu)框圖，其中左邊第一個方框代表輸入層，右邊最后一個方框代表輸出層。我們通過在cFSMN的記憶模塊（紅色框框表示）之間添加跳轉(zhuǎn)連接（skip connection），從而使得低層記憶模塊的輸出會被直接累加到高層記憶模塊里。這樣在訓練過程中，高層記憶模塊的梯度會直接賦值給低層的記憶模塊，從而可以克服由于網(wǎng)絡的深度造成的梯度消失問題，使得可以穩(wěn)定的訓練深層的網(wǎng)絡。

相比于之前的cFSMN，DFSMN優(yōu)勢在于，通過跳轉(zhuǎn)連接可以訓練很深的網(wǎng)絡。對于原來的cFSMN，由于每個隱層已經(jīng)通過矩陣的低秩分解拆分成了兩層的結(jié)構(gòu)，這樣對于一個包含4層cFSMN層以及兩個DNN層的網(wǎng)絡，總共包含的層數(shù)將達到13層，從而采用更多的cFSMN層，會使得層數(shù)更多而使得訓練出現(xiàn)梯度消失問題，導致訓練的不穩(wěn)定性。我們提出的DFSMN通過跳轉(zhuǎn)連接避免了深層網(wǎng)絡的梯度消失問題，使得訓練深層的網(wǎng)絡變得穩(wěn)定。需要說明的是，這里的跳轉(zhuǎn)連接不僅可以加到相鄰層之間，也可以加到不相鄰層之間。跳轉(zhuǎn)連接本身可以是線性變換，也可以是非線性變換。具體的實驗我們可以實現(xiàn)訓練包含數(shù)十層的DFSMN網(wǎng)絡，并且相比于cFSMN可以獲得顯著的性能提升。

從最初的FSMN到cFSMN不僅可以有效的減少模型的參數(shù)，而且可以獲得更好的性能。進一步的在cFSMN的基礎上，我們提出的DFSMN，可以更加顯著的提升模型的性能。如下表是在一個2000小時的英文任務上基于BLSTM，cFSMN，DFSMN的聲學模型性能對比。

從上表中可以看到，在2000小時這樣的任務上，DFSMN模型可以獲得比BLSTM聲學模型相對14%的錯誤率降低，顯著提高了聲學模型的性能。

傳統(tǒng)的聲學模型，輸入的是每幀語音信號提取的聲學特征，每幀語音的時長通常為10ms，對于每個輸入的語音幀信號會有相對應的一個輸出目標。最近有研究提出一種低幀率（Low Frame Rate，LFR）建模方案：通過將相鄰時刻的語音幀進行綁定作為輸入，去預測這些語音幀的目標輸出得到的一個平均輸出目標。具體實驗中可以實現(xiàn)三幀（或更多幀）拼接而不損失模型的性能。從而可以將輸入和輸出減少到原來的三分之一甚至更多，可以極大的提升語音識別系統(tǒng)服務時聲學得分的計算以及解碼的效率。我們結(jié)合LFR和以上提出的DFSMN，構(gòu)建了基于LFR-DFSMN的語音識別聲學模型，經(jīng)過多組實驗我們最終確定了采用一個包含10層cFSMN層 2層DNN的DFSMN作為聲學模型，輸入輸出則采用LFR，將幀率降低到原來的三分之一。識別結(jié)果和去年我們上線的最好的LCBLSTM基線比較如下表所示。

通過結(jié)合LFR技術，我們可以獲得三倍的識別加速。從上表中可以看到，在實際工業(yè)規(guī)模應用上，LFR-DFSMN模型比LFR-LCBLSTM模型可以獲得20%的錯誤率下降，展示了對大規(guī)模數(shù)據(jù)更好的建模特性。

NN-LM語言模型

語言模型，顧名思義，對語言進行建模的模型。語言表達可以看作一串字符序列，不同的字符序列組合代表不同的含義，字符的單位可以是字或者詞。語言模型的任務，可以看作是給定字符序列，如何估計該序列的概率，或者說，如何估計該序列的合理性。

P(上海的工人師傅有力量)>P(上海的工人食腐有力量)

拿這句話做個例子。比如到底應該是“工人師傅有力量”，還是“工人食腐有力量”，哪句話更“合適”。我們?nèi)菀着袛嘧筮呥@句的概率大一點。于是我們希望通過語言模型的建模，可以給出符合人類預期的概率分配。就像這句，“工人師傅”的概率，大于“工人食腐”的概率。

基于統(tǒng)計詞頻的傳統(tǒng)N元文法模型，通過馬爾可夫假設簡化了模型結(jié)構(gòu)和計算，通過計數(shù)的方式計算，通過查找的方式使用。擁有估計簡單、性能穩(wěn)定、計算快捷的優(yōu)勢，有超過三十年的使用歷史。然而其馬爾科夫假設強制截斷建模長度，使得模型無法對較長的歷史建模；基于詞頻的估計方式也使得模型不夠平滑，對于低詞頻詞匯估計不足。隨著神經(jīng)網(wǎng)絡（Neural Networks，NNs）的第三次崛起，人們開始嘗試通過NN來進行語言模型建模。

一個典型的建模結(jié)構(gòu)是遞歸神經(jīng)網(wǎng)絡（recurrent neural networks，RNNs），其遞歸的結(jié)構(gòu)理論上可以對無窮長序列進行建模，彌補了N元文法對于序列長度建模的不足；同時其各層間的全向連接也保證了建模的平滑。此外為了提升模型的性能，研究者們還嘗試了通過長短時記憶（Long Short-Term Memory，LSTM）結(jié)構(gòu)來提升基本RNN本身建模能力的不足，進一步提升模型性能。

NN用于大規(guī)模語言建模的系統(tǒng)中，需要面對一些問題，例如大詞表帶來的存儲和計算增加。實際線上系統(tǒng)的詞表往往比較大，而隨著詞表的增加，基本RNN結(jié)構(gòu)的存儲和計算量都會幾何級數(shù)爆炸式增長。為此，研究者們進行了一些嘗試，壓縮詞典尺寸成了一個最直接的解決方案，一個經(jīng)典的方法是詞表聚類。該方法可以大幅壓縮詞表尺寸，但往往也會帶來一定的性能衰減。更直接的一個想法是直接過濾掉低頻詞匯，這樣依然會帶來一定的性能衰減，據(jù)此有一個改進策略，我們發(fā)現(xiàn)真正制約速度性能的主要是輸出層節(jié)點，輸入層節(jié)點大，借助projection層可以很好解決，于是輸入層采用大辭典，而僅對輸出層詞表進行抑制，這樣不僅盡可能地降低了損失，同時過濾掉過低的詞頻，也有利于模型節(jié)點的充分訓練，性能往往還會略有提升。

詞表的壓縮可以提升建模性能，降低計算量和存儲量，但僅限于一定的量級，不可以無限制壓縮，如何繼續(xù)降低計算量依然是一個問題。一些方法被提了出來。例如LightRNN，通過類似聚類的方式，利用embedding的思想，把詞表映射到一個實值矩陣上，實際輸出只需要矩陣的行加矩陣的列，計算量大概也能開個方。和節(jié)點數(shù)多一起造成計算量大的一個原因就是softmax輸出，需要計算所有的節(jié)點求個和，然后得到分母。若是這個分母能保持一個常數(shù)，實際計算的時候就只算需要的節(jié)點，在測試環(huán)節(jié)就快的多了。于是就有了正則項相關的方法，Variance Regularization，如果訓練速度可以接受的話，這種方法在基本不損失模型正確性的情況下可以大幅提升前向計算速度；如果訓練的時候也想提速，還可以考慮基于采樣，sampling的方法，比如NCE、Importance Sampling、Black Sampling等，本質(zhì)上就是說，在訓練的時候不計算全部節(jié)點，只計算正樣本（也就是標簽為1的節(jié)點），以及部分通過某種分布采樣的到的負樣本，避免高輸出造成的計算緩慢。速度上提升還是很明顯的。

從阿里云獲得開發(fā)者模型定制能力

想象一個做智能電話客服或是智能會議系統(tǒng)的開發(fā)者，需要為他的系統(tǒng)接入語音識別（將語音轉(zhuǎn)寫為文字）的能力。擺在他面前的會是這樣一個尷尬的局面：一個選擇是自己從零開始學做語音識別，這可能要花費大量的時間和金錢。畢竟人工智能這種事情，各大互聯(lián)網(wǎng)巨頭投入大量的人力、物力、財力，也要花較長的時間才能積累下技術；第二個選擇是用上述巨頭們在互聯(lián)網(wǎng)上提供的開箱即用的、one size fits all的語音識別接口，時間是省下了，但語音轉(zhuǎn)文字的準確率嘛，只能碰碰運氣，畢竟巨頭們也很忙，沒有精力為你關注的場景進行優(yōu)化。那么問題來了：有沒有一種手段能夠以最小的投入獲得業(yè)務上最佳的語音識別效果呢？答案是肯定的。阿里云依托達摩院業(yè)界領先的語音交互智能，打破傳統(tǒng)語音技術提供商的供給模式，在云計算時代讓普通開發(fā)者也能夠通過阿里云提供的語音識別云端自學習技術，獲得定制優(yōu)化自己所關心的業(yè)務場景的成套手段。阿里云讓廣大的開發(fā)者站在巨頭的肩膀上，通過自主可控的自學習，在短時間內(nèi)實現(xiàn)對語音識別系統(tǒng)應用從入門到精通，并在開發(fā)者關心的場景下輕松擁有業(yè)界頂尖的語音識別準確率。這就是云計算時代的語音識別技術全新的供給模式。

與其它人工智能技術一樣，語音識別技術的關鍵在于算法、算力和數(shù)據(jù)三個方面。阿里云依托達摩院語音交互智能，近年來持續(xù)在世界前沿進行“算法”演進，近期還將最新的研究成果DFSMN聲學模型開源，供全世界的研究者復現(xiàn)目前最佳的結(jié)果并進行持續(xù)提升。在“算力”方面自不用說，這本身就是云計算的天然強項。基于阿里云ODPS-PAI平臺，我們構(gòu)建了專為語音識別應用優(yōu)化的CPU/GPU/FPGA/NPU訓練和服務混布平臺，每天服務于阿里云上巨量的語音識別請求。在“數(shù)據(jù)”方面，我們提供通過海量數(shù)據(jù)訓練的、開箱即用的場景模型，包括電商、客服、政務、手機輸入等等。

同時應該看到，要獲得開發(fā)者關心的具體場景下最佳的準確率，開箱即用的模型一般還需要一定的定制優(yōu)化工作才可以達到。傳統(tǒng)上，這樣的定制是通過語音技術服務提供商來完成的，在成本、周期、可控性等方面都存在明顯不足。阿里云提供的語音定制“自學習”平臺服務，可以提供多種手段，在很短的時間內(nèi)、以較低的成本，讓開發(fā)者完全掌控模型定制優(yōu)化及上線的工作。阿里云創(chuàng)新工具平臺及服務技術，依托強大的基礎設施，使得在云計算的大背景下進行大規(guī)模定制化語音服務成為可能。而開發(fā)者完全無需關心后臺的技術和服務，只需要使用阿里云提供的簡單易用的“自學習”工具，利用場景知識和數(shù)據(jù)，就可以獲得該特定場景下最優(yōu)的效果，并按需要持續(xù)迭代提升。

阿里云的智能語音自學習平臺具備以下優(yōu)勢：

a) 易。智能語音自學習平臺顛覆性地提供一鍵式自助語音優(yōu)化方案，極大地降低進行語音智能優(yōu)化所需要的門檻，讓不懂技術的業(yè)務人員也可以來顯著提高自身業(yè)務識別準確率。

b) 快。自學習平臺能夠在數(shù)分鐘之內(nèi)完成業(yè)務專屬定制模型的優(yōu)化測試上線，更能支持業(yè)務相關熱詞的實時優(yōu)化，一改傳統(tǒng)定制優(yōu)化長達數(shù)周甚至數(shù)月的漫長交付弊端。

c) 準。自學習平臺優(yōu)化效果在很多內(nèi)外部合作伙伴和項目上得到了充分驗證，很多項目最終通過自學習平臺不光解決了效果可用性問題，還在項目中超過了競爭對手使用傳統(tǒng)優(yōu)化方式所取得的優(yōu)化效果。

舉例來說，開發(fā)者可以使用下述多種“自學習”手段來定制自己關心領域的模型：

a) 業(yè)務熱詞定制

在許多特定場所，要求快速對特定詞的識別能力進行加強（注：包括兩種模式，模式一為其他詞易被識別成特定詞；模式二為特定詞易被識別成其他詞），采用實時熱詞加載技術，可以在實時場景下，通過設置不同的檔位，能夠?qū)崿F(xiàn)熱詞識別能力的加強。

b) 類熱詞定制

很多時候，相同的發(fā)音相同的屬性在不同上下文上會需要不同的識別效果。聯(lián)系人和地名就是典型的案例，對于不同人的好友，“張陽”和“章?lián)P”我們就必須能準確地識別出相應的名字。同樣，相隔千里的安溪跟安西如果識別錯誤會給導航帶來大麻煩。智能語音自學習平臺相信“每個人都值得被尊重”，提供聯(lián)系人類和地名類的定制能力，“讓天下沒有難識的路”。

c) 業(yè)務專屬模型定制

用戶通過輸入對應領域的相關文本，如行業(yè)或公司的基本介紹、客服聊天記錄、領域常用詞匯和專有名詞等，即可快速自行生成該行業(yè)下的定制模型，整個定制過程無需用戶人工干預。

通過這些手段，阿里云使得開發(fā)者不必關心語音技術的算法和工程服務細節(jié)，專注于他們擅長的垂直領域的知識和數(shù)據(jù)收集，實現(xiàn)全新的語音技術云端供給模式，造福于廣大的開發(fā)者及其業(yè)務結(jié)果。

阿里云總監(jiān)系列課重磅上線！聚焦人工智能、彈性計算、數(shù)據(jù)庫等熱門領域，首次集齊12位阿里云技術高管，耗時半年精心打磨，從理論到實踐傾囊相授，從零開始繪制技術大牛成長路徑，限時直播課程免費報名中！

作者：云攻略小攻

鄭重聲明：本文版權歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如有侵權行為，請第一時間聯(lián)系我們修改或刪除，多謝。

<abbr id="eauoq"></abbr>

<strike id="eauoq"></strike>

語音識別技術綜述「語音識別算法」

相關文章