中國科學院自動化研究所腦網絡組研究中心與模式識別國家重點實驗室團隊提出正交權重修改算法,與情境信息處理模塊相結合,使人工神經網絡具備了強大的連續(xù)學習和情境依賴學習能力,有效解決災難性遺忘等難題。相關成果已在線發(fā)表于Nature Machine Intelligence。
人工智能已成為21世紀最具挑戰(zhàn)性的前沿科學領域之一,但究竟什么是“智能”?可以確定的是,個體對復雜、動態(tài)環(huán)境的高適應性是智能的重要標志。
人類大腦顯然是高環(huán)境適應性的典范。人不僅可以在新的環(huán)境中不斷吸收新的知識,而且可以根據不同的環(huán)境靈活調整自己的行為。在此方面,深度神經網絡(deep neural networks,DNN)與大腦相比存在著很大的差距。傳統(tǒng)DNN一方面會受到“災難性遺忘”問題的困擾,難以在學習新知識的同時保留舊知識,即缺少連續(xù)學習(continual learning)的能力;另一方面,DNN往往只能實現(xiàn)預先訓練好的固定操作,不能對實際環(huán)境中存在情境信息(比如自身狀態(tài)、環(huán)境變化、任務變化等)做出靈活的響應,難以滿足復雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。這兩方面能力的缺失是制約當前DNN發(fā)展出高水平智能的重要瓶頸。
近日,自動化所腦網絡組研究中心與模式識別國家重點實驗室余山課題組在克服上述兩個核心問題方面取得新進展,為提高人工智能系統(tǒng)對于復雜多變環(huán)境的適應性提出了新的思路和方案。在Continual Learning of Context-dependent Processing in Neural Networks 一文中,碩士生曾冠雄、博士后陳陽等提出了正交權重修改(orthogonal weights modification,OWM)算法和情境依賴處理(context-dependent processing,CDP)模塊。OWM算法可以有效克服神經網絡中的災難性遺忘,實現(xiàn)連續(xù)學習;受大腦前額葉皮層啟發(fā)的CDP模塊可以有效整合情境信息,調制神經網絡的信息處理過程。二者的有效結合,使人工神經網絡具備了強大的連續(xù)學習和情境依賴學習的能力,大大增加了其靈活性和適應性。
OWM算法的核心思想為:在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發(fā)生作用,從而保證網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。OWM通過正交投影算子P與誤差反傳算法得到的權重增量△WBP作用實現(xiàn)其目的,即最終的權重增量為△W=κP△WBP。
OWM算法實現(xiàn)了對網絡中已有知識的有效保護,并可以與現(xiàn)有梯度反傳算法完全兼容,在連續(xù)學習測試任務中表現(xiàn)出了良好的性能。在連續(xù)學習的標準任務disjoint MNIST與shuffled MNIST任務中,OWM算法的表現(xiàn)超過了同類的其他算法。并且,隨著學習的任務數(shù)目增加,OWM算法的性能優(yōu)勢會進一步加大。利用OWM算法,神經網絡可以連續(xù)學習識別ImageNet的1000類圖片和3755個中文手寫體漢字(每個任務僅訓練一類圖片或一個漢字)。值得一提的是,算法具有優(yōu)良的小樣本學習能力,以手寫體漢字識別為例,基于預訓練的特征提取器,系統(tǒng)可以從僅僅數(shù)個正樣本中就能連續(xù)地學習新的漢字。
CDP模塊則是受前額葉皮層啟發(fā)提出的。前額葉是大腦中負責認知控制的核心皮層。其同時接收感官輸入和情境信號,并選擇與當前任務最相關的感官信號指導輸出響應。受此啟發(fā),作者引入了類似的處理架構——CDP模塊,它包括兩個子模塊:1.編碼子模塊,其負責將情境信息編碼為適當?shù)目刂菩盘枺?span>2.“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由于其功能上相當于將特征向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。
若將CDP模塊與OWM算法聯(lián)合使用,神經網絡只需要一個分類器,就可以連續(xù)學習40種不同的臉部特征的識別任務。并且,當不同的提示信號出現(xiàn)時,其對相應的特征做出判斷,效果與引入40個分類器的情況相當。
通過OWM算法有效克服災難性遺忘,并通過CDP模塊實現(xiàn)單個網絡基于情境信號的多任務學習,二者結合有望讓智能體通過連續(xù)不斷的學習去適應復雜多變的環(huán)境,從而逐步逼近更高水平的智能。
OWM算法原理示意圖。(a): 在權重更新時,OWM算法只保留傳統(tǒng)BP算法計算的權重增量中與歷史任務輸入空間正交的部分。(b): 在新任務中,OWM算法將神經網絡對解的搜索范圍約束在舊任務的解空間中。
在連續(xù)學習MNIST手寫體數(shù)字0-9的任務中,隨著任務數(shù)目的增加,OWM算法的優(yōu)勢也愈加明顯。同時,任務的學習順序會對個別任務產生影響。如先學數(shù)字4和7,會顯著提升數(shù)字9的識別正確率。
OWM算法在ImageNet和中文手寫體漢字識別的連續(xù)學習任務上體現(xiàn)出優(yōu)良的性能
OWM實現(xiàn)漢字識別的小樣本連續(xù)學習
類前額葉的CDP模塊的結構設計。左上角是其工作原理示意圖。
同一個分類器對于同樣的輸入,連續(xù)學習40種不同人臉屬性的分類任務(藍色數(shù)據點),正確率與用40個分類器的系統(tǒng)(橙色線)幾乎一致。
| 相關新聞: |
| 神經流蘇研究實現(xiàn)對大腦信息的穩(wěn)定讀取 |
| 諾獎得主:機器人和AI的運用改變了人類的工作結構 |
| 我國科學家開發(fā)出新型類腦芯片 |
學習園地