omniture

西浦學者讓助聽器也能“看得見”

聽覺作為人類感知手段之一,幾十年來一直是不少研究人員的重點領域。西交利物浦大學計算機科學和軟件工程系的 Andrew Abel 博士和他的團隊設計了一個新系統(tǒng),他們在助聽器中加入了捕捉人說話時唇形特征的視覺信號,以提高助聽器的使用效果。

蘇州2018年12月12日電 /美通社/ -- 聽覺作為人類感知手段之一,幾十年來一直是不少研究人員的重點領域。西交利物浦大學計算機科學和軟件工程系的 Andrew Abel 博士和他的團隊設計了一個新系統(tǒng),他們在助聽器中加入了捕捉人說話時唇形特征的視覺信號,以提高助聽器的使用效果。他們的最新研究成果也在2018年IEEE計算智能研討會(IEEE-SSCI 2018)上進行發(fā)表。

Abel博士介紹說,很多傳統(tǒng)的助聽器都是通過放大患者接收不到的聲音頻率來達到助聽效果;有些助聽器內安置了除噪音的算法,能夠降低對話之外的聲音音量;還有一些帶有定向麥克風,能夠探測到來自某些特定方向的聲音。

“但是人們聊天的時候不僅僅是靠聲音來交流的?!盇bel博士說,“人們還會相互觀察面部表情、肢體語言,而且或多或少都會觀察對方的唇部動作?!?/p>

比如,當人們聽到“ba”這個音節(jié),但是看到的是“fa”這個音節(jié)的唇部動作,人們就會誤以為自己聽到的是“fa”甚至是“va”。

“這被稱為‘麥格克效應’?!?Abel博士解釋說,“大腦在同時接收到一個視覺信息和一個聽覺信息的時候,有可能視覺信息會覆蓋掉聽覺信息并造成視聽幻覺。”

這種現象充分展示了視覺信息在談話中的重要性。因此Abel博士和他的團隊一直在思考:如何才能開發(fā)出接收聲音以外信息的機器?如何讓這些機器像人類一樣去“聽”?

Abel博士在就職于蘇格蘭斯特靈大學時和Amir Hussain教授一起研究過助聽科技,他們嘗試把一個可穿戴的小型照相機連接到助聽器上,讓系統(tǒng)同時處理接收到的聽覺和視覺信息。在這些視覺信息中,會影響系統(tǒng)處理結果的是唇部動作、嘴巴張開或閉合、寬度及深度等唇形特征。

受到之前研究的啟發(fā),Abel博士、西浦計算機系畢業(yè)生高成翔以及斯特靈大學研究人員聯合開發(fā)了一個新系統(tǒng),專門記錄唇形特征信息并建立唇部的3D模型。

西交利物浦大學研究人員開發(fā)的嘴部動作捕捉方法
西交利物浦大學研究人員開發(fā)的嘴部動作捕捉方法

“這個3D模型可以用來確定說話時的音量和音調特征,這些特征有利于提高助聽器的降噪功能,也能運用于我們在研究的唇語讀取?!?nbsp;Abel博士補充說。

他正在指導一項將唇讀科技運用于對外漢語教學的畢業(yè)設計,只要系統(tǒng)接收到正確的視覺和聽覺信號就可以區(qū)分不同的中文發(fā)音,這些信息會自動反饋給學習漢語的人。

“中文是一種聲調語言,發(fā)音和其他語言不太一樣,學好正確發(fā)音是有一定難度的?!?/p>

Abel博士研究的另一個領域是利用圖像識別技術來改善助聽器過濾噪音的效果。例如,攝像機可以識別出用戶所處的環(huán)境是安靜的辦公室還是喧鬧的酒吧,根據環(huán)境的不同可以采取不同的噪音過濾方法。

“在大腦處理聲音的時候,感知效應是非常重要的一部分?!盇bel博士說。

比如人們會根據環(huán)境聲音的大小來調整自己的說話聲音,這被稱為“倫巴效應”。此外,聽力正常的人在嘈雜的環(huán)境中也可以進行高效溝通,這是因為大腦自動忽略掉了其他人的說話聲音以及無關的環(huán)境音,這被稱為“雞尾酒會效應”。

“目前我們無法將所有視覺信息整合到助聽器中,但是我們正在朝著‘感知型助聽器’這個方向努力?!?/p>

Abel博士和他的同事希望能夠將詞語識別和預判對話結合,同時整合環(huán)境識別及其他視覺信息處理手段,有一天能創(chuàng)造出能夠像人一樣“思考”的改進型助聽器。

 “在我們理解并復制人耳處理聲音的過程時,我們不僅能改良助聽器科技,還學到了很多關于人類自身及人腦思維運作方式的知識。”他說。

閱讀原文請訪問:https://www.xjtlu.edu.cn/zh/news/2018/12/xipuxuezheyanjiuxinxingzhutingqi 

消息來源:西交利物浦大學
China-PRNewsire-300-300.png
美通說傳播
美通社專注企業(yè)傳播,為您分享全球范圍內市場公關、品牌營銷、企業(yè)傳播領域的最新趨勢、動態(tài),介紹相關知識、經驗、技巧、案例和工具。
關鍵詞: 教育 高端教育
collection