霍金失語(yǔ)之后,人們?cè)Y(jié)全世界最頂尖的技術(shù)幫他“說(shuō)話”,讓這顆世界上最高速運(yùn)行的大腦,每分鐘能“說(shuō)”出15個(gè)單詞。
如今一項(xiàng)嶄新的技術(shù)有望幫助更多失語(yǔ)者,讓他們只須“動(dòng)動(dòng)腦子”,就能發(fā)出接近正常語(yǔ)速的聲音。
近日,加州大學(xué)舊金山分校華裔教授Edward Chang及其團(tuán)隊(duì),設(shè)計(jì)出一種革命性的腦機(jī)接口設(shè)備,將大腦信號(hào)直接轉(zhuǎn)化為可聽(tīng)到的語(yǔ)音,相關(guān)成果發(fā)表在《自然》上。
第一次,從腦電波到語(yǔ)音
當(dāng)人講話時(shí),嘴唇、舌頭、下頜、喉部的上百塊肌肉都在配合運(yùn)動(dòng),已知的大腦語(yǔ)言中樞——顳上回神經(jīng)細(xì)胞的電活動(dòng)支配了這些精細(xì)運(yùn)動(dòng)。假設(shè)一個(gè)人說(shuō)“蘋果”時(shí),迅速記錄他的腦電活動(dòng),就可能建立起特定詞匯和腦電活動(dòng)之間相互對(duì)應(yīng)的“字典”。接下來(lái),科研人員就可以通過(guò)人工智能學(xué)習(xí)的方式,根據(jù)這種腦電活動(dòng)直接合成出“蘋果”的發(fā)音。
理想的話,當(dāng)研究者積累的“字典”足夠龐大和準(zhǔn)確時(shí),即便一個(gè)人無(wú)法發(fā)出自己的聲音,只要他產(chǎn)生說(shuō)話的想法,就能在“字典”里找到對(duì)應(yīng)的電活動(dòng),并且靠機(jī)器“翻譯”出大家都能聽(tīng)懂的語(yǔ)音。
“這樣我們就能通過(guò)失語(yǔ)病人的面部表情和肌肉動(dòng)作,解碼他們大腦產(chǎn)生的信息,從而幫助那些患有喉癌、聲帶破損等疾病的人與外界‘對(duì)話’。”論文第一作者Gopala Anumanchipalli告訴《中國(guó)科學(xué)報(bào)》。
這和霍金使用的那套著名系統(tǒng)有什么本質(zhì)區(qū)別呢?在霍金的眼鏡上,安裝著一個(gè)紅外傳感器,能檢測(cè)到他右臉頰上一塊肌肉的活動(dòng)。當(dāng)他輕微抽動(dòng)這塊肌肉時(shí),就相當(dāng)于按下了一個(gè)按鍵。霍金就是通過(guò)這種方式先打字,然后通過(guò)文字轉(zhuǎn)化語(yǔ)音技術(shù),把他的想法“說(shuō)”出來(lái)。
可以看出,盡管匹配了一系列高科技,霍金使用的語(yǔ)音轉(zhuǎn)化系統(tǒng),還是傳統(tǒng)的“從文字到語(yǔ)音”模式。
而在這項(xiàng)研究中,科學(xué)家則是在挑戰(zhàn)“從腦電波到語(yǔ)音”的轉(zhuǎn)換方式。“這是第一次,我們可以根據(jù)人的大腦活動(dòng)生成完整的句子。”Chang說(shuō)。
深入大腦語(yǔ)言中樞
“這是一個(gè)很大的進(jìn)步。”中科院昆明動(dòng)物研究所研究員徐林第一時(shí)間關(guān)注了這篇論文。他告訴《中國(guó)科學(xué)報(bào)》,傳統(tǒng)的腦機(jī)接口技術(shù)大概1分鐘能輸出8個(gè)單詞,而通過(guò)這種方法模擬合成口語(yǔ)句子,一分鐘能達(dá)到150個(gè)單詞,已經(jīng)比較接近正常人的水平了。
“這項(xiàng)技術(shù)的巧妙之處在于直接記錄了已知語(yǔ)言中樞——顳上回的電活動(dòng),所以更容易檢測(cè)到與語(yǔ)言發(fā)聲相關(guān)的信號(hào)。”徐林說(shuō),“這個(gè)系統(tǒng)的順利運(yùn)行,表明人類未來(lái)能實(shí)現(xiàn)人腦和機(jī)器之間更加順暢的交流。”
但這種方法不是沒(méi)有代價(jià)的。傳統(tǒng)腦機(jī)接口通常是無(wú)創(chuàng)的,新技術(shù)則需要在開(kāi)顱的前提下,把電極直接插進(jìn)大腦皮質(zhì)的語(yǔ)言中樞中。在這項(xiàng)研究中,科學(xué)家招募了5名準(zhǔn)備接受癲癇病開(kāi)顱手術(shù)的志愿者,同時(shí)與醫(yī)院合作,在手術(shù)治療過(guò)程中“順便”做了腦機(jī)接口實(shí)驗(yàn)。
“這就決定了這批數(shù)據(jù)的獲得非常艱難,基于5個(gè)志愿者的數(shù)據(jù)能得到這么好的結(jié)果,的確令人驚嘆。”徐林對(duì)《中國(guó)科學(xué)報(bào)》說(shuō),“但開(kāi)顱操作也給臨床應(yīng)用制造了障礙。”
打造語(yǔ)言的“公用圖書館”
在此之前,基于腦機(jī)接口技術(shù)的人工智能學(xué)習(xí),通常只是針對(duì)某一個(gè)體的。因?yàn)槿嗽谒伎己驼f(shuō)話時(shí)的腦電活動(dòng)存在顯著的個(gè)體差異。這就意味著,即便兩個(gè)人都在想著“蘋果”、說(shuō)著“蘋果”,記錄下來(lái)的腦電活動(dòng)也可能很不相同。在一個(gè)人身上做實(shí)驗(yàn)得到的“字典”,在另一個(gè)人身上或許就不適用。
而這一次,研究者別出心裁地測(cè)量了說(shuō)話時(shí)肌肉運(yùn)動(dòng)所對(duì)應(yīng)的大腦活動(dòng)模式。由于不同人在說(shuō)同一句話時(shí)的肌肉運(yùn)動(dòng)存在共性,這就為未來(lái)發(fā)展人際間通用的腦電解碼和語(yǔ)音合成設(shè)備提供了可能。
“大腦模式的確是非常個(gè)性化的,但語(yǔ)言詞匯則是通用的——這可以作為一個(gè)出發(fā)點(diǎn),讓我們?nèi)ソ⒁粋€(gè)公用的‘圖書館’。基于這一原理,我們的技術(shù)有希望向英語(yǔ)之外的其他語(yǔ)言推廣。”Anumanchipalli向《中國(guó)科學(xué)報(bào)》解釋。
但語(yǔ)言畢竟是微妙的東西,每個(gè)人說(shuō)話時(shí)都包含著很多個(gè)性化的小細(xì)節(jié)。當(dāng)句子變得比較復(fù)雜時(shí),合成語(yǔ)音導(dǎo)致聽(tīng)者的誤判率達(dá)到了70%以上,說(shuō)明合成出的聲音與自然發(fā)聲仍然有較大區(qū)別。對(duì)此,Anumanchipalli 說(shuō):“使用者有必要接受一定的訓(xùn)練并多加實(shí)踐。”
徐林提出,下一步可以探索給這套系統(tǒng)加上一個(gè)反饋裝置。“目前參與實(shí)驗(yàn)的受試者其實(shí)都是能正常說(shuō)話的人。但真正的語(yǔ)言障礙者,很多同時(shí)也有聽(tīng)覺(jué)障礙,怎么能讓機(jī)器合成的聲音再反饋到‘說(shuō)話者’的大腦里,是一個(gè)很有意義的方向。
| 相關(guān)新聞: |
| 曾毅:構(gòu)建新一代人工智能準(zhǔn)則 |
| 賽迪研究院:人工智能芯片技術(shù)和產(chǎn)品發(fā)展勢(shì)頭迅猛 |
學(xué)習(xí)園地