除了打字,失去說(shuō)話能力的人還可以依靠什么方式與他人交流?人工智能或許帶來(lái)了新的解決方案。
4 月 24 日,《自然》雜志刊登了加州大學(xué)舊金山分校的一項(xiàng)研究成果:科學(xué)家研發(fā)了一種實(shí)驗(yàn)性的“大腦解碼器”,將研究對(duì)象的大腦信號(hào)與人工智能、語(yǔ)音合成相結(jié)合,從而幫助語(yǔ)言能力受損的人“說(shuō)出”他們的想法。
許多疾病會(huì)導(dǎo)致人失去說(shuō)話能力,比如中風(fēng)、癌癥,以及肌萎縮性脊髓側(cè)索硬化癥(俗稱“漸凍癥”)。著名科學(xué)家霍金就患有漸凍癥,在很長(zhǎng)的時(shí)間里,他只能借助輪椅上的電腦和幾根手指與外界交流,每分鐘拼出15-20個(gè)單詞。2008 年病情惡化后,霍金連手指都無(wú)法再活動(dòng),唯一能控制打字的只剩下右臉頰的一塊肌肉,打字速度下降到每分鐘5-6個(gè)單詞。
人的正常說(shuō)話速度約為每分鐘 150 個(gè)單詞。研究人員希望借助“大腦解碼器”,讓苦于相關(guān)疾病的患者用正常速度與他人對(duì)話。
不過(guò),“大腦解碼器”并不能像科幻電影里那樣直接“讀心”。研究負(fù)責(zé)人、加州大學(xué)舊金山分校的神經(jīng)外科學(xué)家Edward Chang介紹,解碼的關(guān)鍵是聲音系統(tǒng)的數(shù)據(jù)建模。
換言之,“大腦解碼器”是通過(guò)比照說(shuō)話時(shí)的大腦信號(hào)與發(fā)聲部位的運(yùn)動(dòng)情況,推斷出患者想說(shuō)什么。
在實(shí)驗(yàn)中,研究人員找到了五名能正常說(shuō)話的癲癇患者作為志愿者。為了治療癲癇,這些患者的大腦表面被植入了能夠監(jiān)測(cè)電信號(hào)的電極,因此有條件開展額外的實(shí)驗(yàn)。
實(shí)驗(yàn)中使用的電極。圖片源自加州大學(xué)舊金山分校。
一方面,研究人員要求患者大聲朗誦數(shù)百個(gè)句子,并記錄下大腦皮層信號(hào)。另一方面,研究人員記錄了患者說(shuō)話時(shí)的肌肉運(yùn)動(dòng)數(shù)據(jù),涉及到舌頭、嘴唇、下頜和喉部等地方的大約 100 塊肌肉。打個(gè)比方,研究人員就像記錄了一套“發(fā)聲樂譜”,但樂譜上寫的不是音符,而是一塊塊肌肉的運(yùn)動(dòng)情況。
接下來(lái),研究人員用這些數(shù)據(jù)建模,訓(xùn)練出一套深度學(xué)習(xí)的算法,然后將其輸入到解碼器中。解碼器對(duì)大腦信號(hào)進(jìn)行轉(zhuǎn)換,推算出相應(yīng)的聲道運(yùn)動(dòng),再將這些運(yùn)動(dòng)轉(zhuǎn)換為合成語(yǔ)音。
算法的轉(zhuǎn)換過(guò)程。圖片源自《自然》雜志。
圣地亞哥州立大學(xué)神經(jīng)科學(xué)家Stephanie Riès對(duì)《自然》表示,通過(guò)聲道運(yùn)動(dòng)的映射來(lái)合成語(yǔ)音,比直接將大腦信號(hào)轉(zhuǎn)換為語(yǔ)音要容易理解得多。
不過(guò),這套系統(tǒng)目前還停留在實(shí)驗(yàn)階段,沒有精確到足夠應(yīng)用的程度。芝加哥西北大學(xué)神經(jīng)學(xué)家Marc Slutzky說(shuō),研究邁出了重要一步,但要使得合成語(yǔ)音易于理解,科學(xué)家們還有很長(zhǎng)的路要走。
這個(gè)視頻里展示了合成語(yǔ)音和原聲的效果。跟原聲相比,合成語(yǔ)音在某些發(fā)音上會(huì)顯得不夠清楚。視頻來(lái)源:加州大學(xué)舊金山分校。
采寫:南都實(shí)習(xí)生陳志芳 記者馮群星
關(guān)鍵詞:
責(zé)任編輯:Rex_01