用AI讓數(shù)億失明者重新“看見世界” 論文登ACM頂會

浪潮信息

2023-01-13 14:36 4545

北京2023年1月13日 /美通社/ -- 導(dǎo)讀：科技的偉大之處不僅僅在于改變世界，更重要的是如何造福人類，科技向善，才是最美科技。

以前，讓失明者重見光明往往被視為一種醫(yī)學(xué)"奇跡"。而隨著以"機(jī)器視覺+自然語言理解"為代表的多模態(tài)智能技術(shù)的爆發(fā)式突破，給AI助盲帶來新的可能，更多的失明者將借助AI提供的感知、理解與交互能力，以另一種方式重新"看見世界"。

AI助盲，讓更多人重新"看見世界"

一般來說，目不能視的視障患者認(rèn)知外界世界的渠道是除了視覺之外的其它感官感覺，比如聽覺、嗅覺和觸覺，這些其他模態(tài)的信息一定程度上幫助視障人士緩解了視力缺陷帶來的問題。但科學(xué)研究表明，在人類獲取的外界信息中，來自視覺的占比高達(dá)70%~80%。因此基于AI構(gòu)建機(jī)器視覺系統(tǒng)，幫助視障患者擁有對外界環(huán)境的視覺感知與視覺理解能力，無疑是最直接有效的解決方案。

在視覺感知領(lǐng)域，當(dāng)下的單模態(tài)AI模型已經(jīng)在圖像識別任務(wù)上超越了人類水平，但這類技術(shù)目前只能實(shí)現(xiàn)視覺模態(tài)內(nèi)的識別及理解，難以完成與其他感覺信息交叉的跨模態(tài)學(xué)習(xí)、理解與推理，簡單來說，就是只能感知無法理解。為此，計(jì)算視覺奠基人之一的 David Marr 在《視覺》一書中提出了視覺理解研究的核心問題，認(rèn)為視覺系統(tǒng)應(yīng)以構(gòu)建環(huán)境的二維或三維表達(dá)，并可以與之交互。這里的交互意味著學(xué)習(xí)、理解和推理。可見，優(yōu)秀的AI助盲技術(shù)，其實(shí)是一個(gè)包含了智能傳感、智能用戶意圖推理和智能信息呈現(xiàn)的系統(tǒng)化工程，只有如此才能構(gòu)建信息無障礙的交互界面。

為了提升AI模型的泛化能力，使機(jī)器具備跨模態(tài)的圖像解析與理解能力，以"機(jī)器視覺+自然語言理解"為代表的多模態(tài)算法開始興起并飛速發(fā)展。這種多個(gè)信息模態(tài)交互的算法模型，可以顯著提升AI的感知、理解與交互能力，一旦成熟并應(yīng)用于AI助盲領(lǐng)域，將能夠造福數(shù)以億計(jì)的失明者，重新"看見世界"。據(jù)世衛(wèi)組織統(tǒng)計(jì)，全球至少22億人視力受損或失明，而我國是世界上盲人最多的國家，占世界盲人總數(shù)的18%-20%，每年新增的盲人數(shù)量高達(dá)45萬。

從盲人視覺問答任務(wù)引發(fā)的"多米諾效應(yīng)"

第一人稱視角感知技術(shù)，對于AI助盲來說意義重大。它無需盲人跳出參與者身份去操作智能設(shè)備，而是可以從盲人的真實(shí)視角出發(fā)，幫助科學(xué)家們構(gòu)建更符合盲人認(rèn)知的算法模型，這促使了盲人視覺問答這一基礎(chǔ)研究任務(wù)的出現(xiàn)。

盲人視覺問答任務(wù)是學(xué)術(shù)界研究AI助盲的起點(diǎn)和核心研究方向之一。但在現(xiàn)有技術(shù)條件下，盲人視覺問答任務(wù)作為一類特殊的視覺問答任務(wù)，相比普通視覺問答任務(wù)，精度提升面臨著更大的困難。一方面，盲人視覺問答的問題類型更復(fù)雜，包括目標(biāo)檢測、文字識別、顏色、屬性識別等各類問題，比如說分辨冰箱里的肉類、咨詢藥品的服用說明、挑選獨(dú)特顏色的襯衣、介紹書籍內(nèi)容等等。另一方面，由于盲人這一感知交互主體的特殊性，盲人在拍照時(shí)，很難把握手機(jī)和物體間的距離，經(jīng)常會產(chǎn)生虛焦的情況，或者雖然拍攝到了物體，但沒有拍全，亦或是沒有拍到關(guān)鍵信息，這就大大增加了有效特征提取難度。同時(shí)，現(xiàn)存的大部分視覺問答模型是基于封閉環(huán)境下的問答數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)的，受樣本分布限制嚴(yán)重，難以泛化到開放世界下的問答場景中，需要融合外部知識進(jìn)行多段推理。

盲人視覺問答數(shù)據(jù)

其次，隨著盲人視覺問答研究的開展，科學(xué)家們在研究過程中發(fā)現(xiàn)，視覺問答會遭遇到噪聲干擾的衍生問題。因此如何準(zhǔn)確定位噪聲并完成智能推理，也面臨重大挑戰(zhàn)。盲人由于不具備對外界的視覺感知，因此在圖文配對的視覺問答任務(wù)中，往往會產(chǎn)生大量的錯(cuò)誤。比如說，盲人去超市購物的時(shí)候，由于商品外觀觸感相似，很容易提出錯(cuò)誤的問題，如拿起一瓶醋，卻詢問醬油的生產(chǎn)廠商是哪一家。這種語言噪聲往往會導(dǎo)致現(xiàn)有AI模型失效，需要AI能夠具有從龐雜的環(huán)境中分析噪聲與可用信息的能力。

最后， AI助盲系統(tǒng)不應(yīng)僅僅解答盲人當(dāng)下的疑惑，還應(yīng)該具備智能意圖推理與智能信息呈現(xiàn)能力，而智能交互技術(shù)作為其中重要的研究方向，算法研究依然處于起始階段。智能意圖推理技術(shù)的研究重點(diǎn)在于，通過讓機(jī)器不斷學(xué)習(xí)視障用戶的語言和行為習(xí)慣，來推斷其想要表達(dá)交互意圖。比如說，通過盲人端水杯坐下的動(dòng)作，預(yù)測到可能會將水杯放置在桌子上的下一步動(dòng)作，通過盲人詢問衣服顏色或樣式的問題，預(yù)測到可能會出行等等。這項(xiàng)技術(shù)的難點(diǎn)在于，由于使用者的表達(dá)方式和表達(dá)動(dòng)作在時(shí)間和空間上都存在隨機(jī)性，由此引發(fā)了交互決策的心理模型同樣帶有隨機(jī)性，因此如何從連續(xù)隨機(jī)的行為數(shù)據(jù)中提取用戶輸入的有效信息，設(shè)計(jì)出動(dòng)態(tài)非確定的多模態(tài)模型，從而實(shí)現(xiàn)對不同任務(wù)的最佳呈現(xiàn)，非常關(guān)鍵。

專注AI助盲基礎(chǔ)研究 浪潮信息多項(xiàng)研究獲國際認(rèn)可

毋庸置疑的是，在上述基礎(chǔ)研究領(lǐng)域的重大突破，才是AI助盲技術(shù)早日落地的關(guān)鍵所在。目前來自浪潮信息的前沿研究團(tuán)隊(duì)通過多項(xiàng)算法創(chuàng)新、預(yù)訓(xùn)練模型和基礎(chǔ)數(shù)據(jù)集構(gòu)建等工作，正在全力推動(dòng)AI助盲研究的進(jìn)一步發(fā)展。

在盲人視覺問答任務(wù)研究領(lǐng)域，VizWiz-VQA是卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的學(xué)者們共同發(fā)起的全球多模態(tài)頂級盲人視覺問答挑戰(zhàn)賽，采用"VizWiz"盲人視覺數(shù)據(jù)集訓(xùn)練AI模型，然后由AI對盲人提供的隨機(jī)圖片文本對給出答案。在盲人視覺問答任務(wù)中，浪潮信息前沿研究團(tuán)隊(duì)解決了盲人視覺問答任務(wù)常見的多個(gè)難題。

首先，由于盲人所拍攝圖片模糊、有效信息少，問題通常也會更主觀、模糊，理解盲人的訴求并給出答案面臨挑性。團(tuán)隊(duì)提出了雙流多模態(tài)錨點(diǎn)對齊模型，將視覺目標(biāo)檢測的關(guān)鍵實(shí)體及屬性作為連結(jié)圖片及問題的錨點(diǎn)，實(shí)現(xiàn)多模態(tài)語義增強(qiáng)。其次，針對盲人拍攝圖片難以保證正確方向的問題，通過自動(dòng)修正圖像角度及字符語義增強(qiáng)，結(jié)合光學(xué)字符檢測識別技術(shù)解決"是什么"的理解問題。最后，盲人拍攝的畫面通常是模糊、不完整的，這導(dǎo)致一般算法難以判斷目標(biāo)物體的種類及用途，需要模型需具備更充分的常識能力，推理用戶真實(shí)意圖。為此，團(tuán)隊(duì)提出了答案驅(qū)動(dòng)視覺定位與大模型圖文匹配結(jié)合的算法，并提出多階段交叉訓(xùn)練策略。推理時(shí)，將交叉訓(xùn)練后的視覺定位和圖文匹配模型用于推理定位答案區(qū)域；同時(shí)基于光學(xué)字符識別算法確定區(qū)域字符，并將輸出文本傳送到文本編碼器，最終通過圖文匹配模型的文本解碼器得到盲人求助的答案，最終多模態(tài)算法精度領(lǐng)先人類表現(xiàn)9.5個(gè)百分點(diǎn)。

多模態(tài)視覺問答模型解決方案

當(dāng)前視覺定位研究應(yīng)用落地的最大障礙之一是對于噪聲的智能化處理，真實(shí)場景中，文本描述往往是有噪聲的，例如人類的口誤、歧義、修辭等。實(shí)驗(yàn)發(fā)現(xiàn)，文本噪聲會導(dǎo)致現(xiàn)有AI模型失效。為此，浪潮信息前沿研究團(tuán)隊(duì)探索了真實(shí)世界中，由于人類語言錯(cuò)誤導(dǎo)致的多模態(tài)失配問題，首次提出視覺定位文本去噪推理任務(wù)FREC，要求模型正確定位噪聲描述對應(yīng)的視覺內(nèi)容，并進(jìn)一步推理出文本含噪的證據(jù)。FREC提供3萬圖片和超過25萬的文本標(biāo)注，囊括了口誤、歧義、主觀偏差等多種噪聲，還提供噪聲糾錯(cuò)、含噪證據(jù)等可解釋標(biāo)簽。同時(shí)，團(tuán)隊(duì)還構(gòu)建了首個(gè)可解釋去噪視覺定位模型FCTR，噪聲文本描述條件下精度較傳統(tǒng)模型提升11個(gè)百分點(diǎn)。這一研究成果已發(fā)表于ACM Multimedia 2022會議，該會議為國際多媒體領(lǐng)域最頂級會議、也是該領(lǐng)域唯一CCF推薦A類國際會議。

FCTR結(jié)構(gòu)圖

為探索AI在圖像和文本的基礎(chǔ)上進(jìn)行思維交互的能力，浪潮信息前沿研究團(tuán)隊(duì)給業(yè)界提出了一個(gè)全新的研究方向，提出可解釋智能體視覺交互問答任務(wù)AI-VQA，通過建立邏輯鏈在龐大的知識庫中進(jìn)行檢索，對圖像和文本的已有內(nèi)容實(shí)現(xiàn)擴(kuò)展。目前，團(tuán)隊(duì)構(gòu)建了AI-VQA的開源數(shù)據(jù)集，包含超過14.4萬條大型事件知識庫、全人工標(biāo)注1.9萬條交互行為認(rèn)知推理問題，以及關(guān)鍵對象、支撐事實(shí)和推理路徑等可解釋性標(biāo)注。

ARE結(jié)構(gòu)圖

同時(shí)，團(tuán)隊(duì)提出的首個(gè)智能體交互行為理解算法模型ARE（encoder- decoder model for alternative reason and explanation）首次端到端實(shí)現(xiàn)交互行為定位和交互行為影響推理，基于多模態(tài)圖像文本融合技術(shù)與知識圖譜檢索算法，實(shí)現(xiàn)了具備長因果鏈推理能力的視覺問答模型。

科技的偉大之處不僅僅在于改變世界，更重要的是如何造福人類，讓更多的不可能變成可能。而對于失明者而言，能夠通過AI助盲技術(shù)像其他人一樣獨(dú)立的生活，而不是被特殊對待，恰恰體現(xiàn)了科技最大的善意。

在AI照入現(xiàn)實(shí)的當(dāng)下，科技已經(jīng)不再是高山仰止的冰冷，而是充滿了人文關(guān)懷的溫度。站在AI技術(shù)的前沿，浪潮信息希望，針對人工智能技術(shù)的研究，能夠吸引更多人一起持續(xù)推動(dòng)人工智能技術(shù)的落地，讓多模態(tài)AI助盲的浪潮延伸到AI反詐、AI診療、AI災(zāi)情預(yù)警等更多場景中去，為社會創(chuàng)造更多價(jià)值。

以下是浪潮信息發(fā)表的相關(guān)成果，歡迎更多關(guān)注多模態(tài)算法的朋友共同探討AI助盲技術(shù)

2022 VizWiz Grand Challenge Workshop

2022 VizWiz Grand Challenge Workshop – VizWiz

Towards Further Comprehension on Referring Expression with Rationale

https://dl.acm.org/doi/10.1145/3503161.3548417

AI-VQA: Visual Question Answering based on Agent Interaction with Interpretability

https://dl.acm.org/doi/abs/10.1145/3503161.3548387

消息來源：浪潮信息