近日,微電子所感知中心低功耗智能技術(shù)與微系統(tǒng)團(tuán)隊(duì)在低功耗人工智能領(lǐng)域研究取得新進(jìn)展。
語音喚醒技術(shù) (KWS, Keyword Spotting)是人工智能領(lǐng)域的重要技術(shù),語音喚醒是人聲與低功耗設(shè)備或終端之間的典型且廣泛使用的“觸發(fā)器”,可廣泛應(yīng)用于各種低功耗的智能芯片與微系統(tǒng)。通常高性能的深度卷積神經(jīng)網(wǎng)絡(luò)模型的語音喚醒模型復(fù)雜度高、計(jì)算量大、需占用大量內(nèi)存,難以將其部署到上述資源有限的硬件設(shè)備上。
針對上述問題,感知中心科研團(tuán)隊(duì)提出了一種用于語音喚醒的極輕量化、高準(zhǔn)確率的改進(jìn)二值殘差神經(jīng)網(wǎng)絡(luò)B-ResNet(Binary Residual Neural Network,圖1),利用二值量化方法,將神經(jīng)網(wǎng)絡(luò)中的全精度權(quán)重、激活參數(shù)量化為1bit(+1,-1),顯著降低內(nèi)存占用,亦可將網(wǎng)絡(luò)中存在的大量浮點(diǎn)卷積乘加運(yùn)算簡化為XNOR同或邏輯與popcount運(yùn)算,大幅降低計(jì)算復(fù)雜度。為解決二值網(wǎng)絡(luò)帶來的精度下降問題,團(tuán)隊(duì)在B-ResNet網(wǎng)絡(luò)前向傳播中提出了一種具有移位初始化且可學(xué)習(xí)的激活函數(shù)來優(yōu)化網(wǎng)絡(luò)各層激活值分布,降低信息損失(圖2),并在反向傳播過程中,提出了一種具有可變周期性窗口的梯度修正近似方法,有效解決了梯度失配與消失問題(圖3)。在GSCD(Google Speech Commands Dataset)標(biāo)準(zhǔn)語音數(shù)據(jù)集的12分類任務(wù)下,與基線網(wǎng)絡(luò)Res8-narrow相比,該技術(shù)可降低33%參數(shù)量與72%計(jì)算量,實(shí)現(xiàn)更高的語音喚醒精度,為后續(xù)該功能的低功耗硬件實(shí)現(xiàn)奠定了良好基礎(chǔ)。
該成果的論文“ Low-complex and Highly-performed Binary Residual Neural Network for Small-footprint Keyword Spotting” (DOI:10.21437/Interspeech.2022-573)被國際語音通信協(xié)會(ISCA)組織的語音領(lǐng)域重要會議Interspeech2022接收,團(tuán)隊(duì)被邀請作口頭報告。微電子學(xué)院碩士研究生王嘯為該文章的第一作者,微電子所正高級工程師詹毅為該文章的通訊作者。
論文信息鏈接:
1:https://www.isca-speech.org/archive/interspeech_2022/wang22g_interspeech.html
2:https://www.isca-speech.org/archive/interspeech_2022/



| 相關(guān)新聞: |
| 微電子所垂直溝道納米晶體管研發(fā)工作再獲重要突破 |
| 微電子所在無外場單級電壓控制SOT-MTJ自旋邏輯器件的研究中取得新進(jìn)展 |
學(xué)習(xí)園地