北京2023年1月13日 /美通社/ -- 導(dǎo)讀:科技的偉大之處不僅僅在于改變世界,更重要的是如何造福人類,科技向善,才是最美科技。
以前,讓失明者重見光明往往被視為一種醫(yī)學(xué)"奇跡"。而隨著以"機(jī)器視覺+自然語言理解"為代表的多模態(tài)智能技術(shù)的爆發(fā)式突破,給AI助盲帶來新的可能,更多的失明者將借助AI提供的感知、理解與交互能力,以另一種方式重新"看見世界"。
AI助盲,讓更多人重新"看見世界"
一般來說,目不能視的視障患者認(rèn)知外界世界的渠道是除了視覺之外的其它感官感覺,比如聽覺、嗅覺和觸覺,這些其他模態(tài)的信息一定程度上幫助視障人士緩解了視力缺陷帶來的問題。但科學(xué)研究表明,在人類獲取的外界信息中,來自視覺的占比高達(dá)70%~80%。因此基于AI構(gòu)建機(jī)器視覺系統(tǒng),幫助視障患者擁有對外界環(huán)境的視覺感知與視覺理解能力,無疑是最直接有效的解決方案。
在視覺感知領(lǐng)域,當(dāng)下的單模態(tài)AI模型已經(jīng)在圖像識別任務(wù)上超越了人類水平,但這類技術(shù)目前只能實(shí)現(xiàn)視覺模態(tài)內(nèi)的識別及理解,難以完成與其他感覺信息交叉的跨模態(tài)學(xué)習(xí)、理解與推理,簡單來說,就是只能感知無法理解。為此,計(jì)算視覺奠基人之一的 David Marr 在《視覺》一書中提出了視覺理解研究的核心問題,認(rèn)為視覺系統(tǒng)應(yīng)以構(gòu)建環(huán)境的二維或三維表達(dá),并可以與之交互。這里的交互意味著學(xué)習(xí)、理解和推理。可見,優(yōu)秀的AI助盲技術(shù),其實(shí)是一個(gè)包含了智能傳感、智能用戶意圖推理和智能信息呈現(xiàn)的系統(tǒng)化工程,只有如此才能構(gòu)建信息無障礙的交互界面。
為了提升AI模型的泛化能力,使機(jī)器具備跨模態(tài)的圖像解析與理解能力,以"機(jī)器視覺+自然語言理解"為代表的多模態(tài)算法開始興起并飛速發(fā)展。這種多個(gè)信息模態(tài)交互的算法模型,可以顯著提升AI的感知、理解與交互能力,一旦成熟并應(yīng)用于AI助盲領(lǐng)域,將能夠造福數(shù)以億計(jì)的失明者,重新"看見世界"。據(jù)世衛(wèi)組織統(tǒng)計(jì),全球至少22億人視力受損或失明,而我國是世界上盲人最多的國家,占世界盲人總數(shù)的18%-20%,每年新增的盲人數(shù)量高達(dá)45萬。
從盲人視覺問答任務(wù)引發(fā)的"多米諾效應(yīng)"
第一人稱視角感知技術(shù),對于AI助盲來說意義重大。它無需盲人跳出參與者身份去操作智能設(shè)備,而是可以從盲人的真實(shí)視角出發(fā),幫助科學(xué)家們構(gòu)建更符合盲人認(rèn)知的算法模型,這促使了盲人視覺問答這一基礎(chǔ)研究任務(wù)的出現(xiàn)。
盲人視覺問答任務(wù)是學(xué)術(shù)界研究AI助盲的起點(diǎn)和核心研究方向之一。但在現(xiàn)有技術(shù)條件下,盲人視覺問答任務(wù)作為一類特殊的視覺問答任務(wù),相比普通視覺問答任務(wù),精度提升面臨著更大的困難。一方面,盲人視覺問答的問題類型更復(fù)雜,包括目標(biāo)檢測、文字識別、顏色、屬性識別等各類問題,比如說分辨冰箱里的肉類、咨詢藥品的服用說明、挑選獨(dú)特顏色的襯衣、介紹書籍內(nèi)容等等。另一方面,由于盲人這一感知交互主體的特殊性,盲人在拍照時(shí),很難把握手機(jī)和物體間的距離,經(jīng)常會產(chǎn)生虛焦的情況,或者雖然拍攝到了物體,但沒有拍全,亦或是沒有拍到關(guān)鍵信息,這就大大增加了有效特征提取難度。同時(shí),現(xiàn)存的大部分視覺問答模型是基于封閉環(huán)境下的問答數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)的,受樣本分布限制嚴(yán)重,難以泛化到開放世界下的問答場景中,需要融合外部知識進(jìn)行多段推理。
盲人視覺問答數(shù)據(jù)
其次,隨著盲人視覺問答研究的開展,科學(xué)家們在研究過程中發(fā)現(xiàn),視覺問答會遭遇到噪聲干擾的衍生問題。因此如何準(zhǔn)確定位噪聲并完成智能推理,也面臨重大挑戰(zhàn)。盲人由于不具備對外界的視覺感知,因此在圖文配對的視覺問答任務(wù)中,往往會產(chǎn)生大量的錯(cuò)誤。比如說,盲人去超市購物的時(shí)候,由于商品外觀觸感相似,很容易提出錯(cuò)誤的問題,如拿起一瓶醋,卻詢問醬油的生產(chǎn)廠商是哪一家。這種語言噪聲往往會導(dǎo)致現(xiàn)有AI模型失效,需要AI能夠具有從龐雜的環(huán)境中分析噪聲與可用信息的能力。
最后, AI助盲系統(tǒng)不應(yīng)僅僅解答盲人當(dāng)下的疑惑,還應(yīng)該具備智能意圖推理與智能信息呈現(xiàn)能力,而智能交互技術(shù)作為其中重要的研究方向,算法研究依然處于起始階段。智能意圖推理技術(shù)的研究重點(diǎn)在于,通過讓機(jī)器不斷學(xué)習(xí)視障用戶的語言和行為習(xí)慣,來推斷其想要表達(dá)交互意圖。比如說,通過盲人端水杯坐下的動(dòng)作,預(yù)測到可能會將水杯放置在桌子上的下一步動(dòng)作,通過盲人詢問衣服顏色或樣式的問題,預(yù)測到可能會出行等等。這項(xiàng)技術(shù)的難點(diǎn)在于,由于使用者的表達(dá)方式和表達(dá)動(dòng)作在時(shí)間和空間上都存在隨機(jī)性,由此引發(fā)了交互決策的心理模型同樣帶有隨機(jī)性,因此如何從連續(xù)隨機(jī)的行為數(shù)據(jù)中提取用戶輸入的有效信息,設(shè)計(jì)出動(dòng)態(tài)非確定的多模態(tài)模型,從而實(shí)現(xiàn)對不同任務(wù)的最佳呈現(xiàn),非常關(guān)鍵。
專注AI助盲基礎(chǔ)研究 浪潮信息多項(xiàng)研究獲國際認(rèn)可
毋庸置疑的是,在上述基礎(chǔ)研究領(lǐng)域的重大突破,才是AI助盲技術(shù)早日落地的關(guān)鍵所在。目前來自浪潮信息的前沿研究團(tuán)隊(duì)通過多項(xiàng)算法創(chuàng)新、預(yù)訓(xùn)練模型和基礎(chǔ)數(shù)據(jù)集構(gòu)建等工作,正在全力推動(dòng)AI助盲研究的進(jìn)一步發(fā)展。
在盲人視覺問答任務(wù)研究領(lǐng)域,VizWiz-VQA是卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的學(xué)者們共同發(fā)起的全球多模態(tài)頂級盲人視覺問答挑戰(zhàn)賽,采用"VizWiz"盲人視覺數(shù)據(jù)集訓(xùn)練AI模型,然后由AI對盲人提供的隨機(jī)圖片文本對給出答案。在盲人視覺問答任務(wù)中,浪潮信息前沿研究團(tuán)隊(duì)解決了盲人視覺問答任務(wù)常見的多個(gè)難題。
首先,由于盲人所拍攝圖片模糊、有效信息少,問題通常也會更主觀、模糊,理解盲人的訴求并給出答案面臨挑性。團(tuán)隊(duì)提出了雙流多模態(tài)錨點(diǎn)對齊模型,將視覺目標(biāo)檢測的關(guān)鍵實(shí)體及屬性作為連結(jié)圖片及問題的錨點(diǎn),實(shí)現(xiàn)多模態(tài)語義增強(qiáng)。其次,針對盲人拍攝圖片難以保證正確方向的問題,通過自動(dòng)修正圖像角度及字符語義增強(qiáng),結(jié)合光學(xué)字符檢測識別技術(shù)解決"是什么"的理解問題。最后,盲人拍攝的畫面通常是模糊、不完整的,這導(dǎo)致一般算法難以判斷目標(biāo)物體的種類及用途,需要模型需具備更充分的常識能力,推理用戶真實(shí)意圖。為此,團(tuán)隊(duì)提出了答案驅(qū)動(dòng)視覺定位與大模型圖文匹配結(jié)合的算法,并提出多階段交叉訓(xùn)練策略。推理時(shí),將交叉訓(xùn)練后的視覺定位和圖文匹配模型用于推理定位答案區(qū)域;同時(shí)基于光學(xué)字符識別算法確定區(qū)域字符,并將輸出文本傳送到文本編碼器,最終通過圖文匹配模型的文本解碼器得到盲人求助的答案,最終多模態(tài)算法精度領(lǐng)先人類表現(xiàn)9.5個(gè)百分點(diǎn)。
多模態(tài)視覺問答模型解決方案
當(dāng)前視覺定位研究應(yīng)用落地的最大障礙之一是對于噪聲的智能化處理,真實(shí)場景中,文本描述往往是有噪聲的,例如人類的口誤、歧義、修辭等。實(shí)驗(yàn)發(fā)現(xiàn),文本噪聲會導(dǎo)致現(xiàn)有AI模型失效。為此,浪潮信息前沿研究團(tuán)隊(duì)探索了真實(shí)世界中,由于人類語言錯(cuò)誤導(dǎo)致的多模態(tài)失配問題,首次提出視覺定位文本去噪推理任務(wù)FREC,要求模型正確定位噪聲描述對應(yīng)的視覺內(nèi)容,并進(jìn)一步推理出文本含噪的證據(jù)。FREC提供3萬圖片和超過25萬的文本標(biāo)注,囊括了口誤、歧義、主觀偏差等多種噪聲,還提供噪聲糾錯(cuò)、含噪證據(jù)等可解釋標(biāo)簽。同時(shí),團(tuán)隊(duì)還構(gòu)建了首個(gè)可解釋去噪視覺定位模型FCTR,噪聲文本描述條件下精度較傳統(tǒng)模型提升11個(gè)百分點(diǎn)。這一研究成果已發(fā)表于ACM Multimedia 2022會議,該會議為國際多媒體領(lǐng)域最頂級會議、也是該領(lǐng)域唯一CCF推薦A類國際會議。
為探索AI在圖像和文本的基礎(chǔ)上進(jìn)行思維交互的能力,浪潮信息前沿研究團(tuán)隊(duì)給業(yè)界提出了一個(gè)全新的研究方向,提出可解釋智能體視覺交互問答任務(wù)AI-VQA,通過建立邏輯鏈在龐大的知識庫中進(jìn)行檢索,對圖像和文本的已有內(nèi)容實(shí)現(xiàn)擴(kuò)展。目前,團(tuán)隊(duì)構(gòu)建了AI-VQA的開源數(shù)據(jù)集,包含超過14.4萬條大型事件知識庫、全人工標(biāo)注1.9萬條交互行為認(rèn)知推理問題,以及關(guān)鍵對象、支撐事實(shí)和推理路徑等可解釋性標(biāo)注。
同時(shí),團(tuán)隊(duì)提出的首個(gè)智能體交互行為理解算法模型ARE(encoder- decoder model for alternative reason and explanation)首次端到端實(shí)現(xiàn)交互行為定位和交互行為影響推理,基于多模態(tài)圖像文本融合技術(shù)與知識圖譜檢索算法,實(shí)現(xiàn)了具備長因果鏈推理能力的視覺問答模型。
科技的偉大之處不僅僅在于改變世界,更重要的是如何造福人類,讓更多的不可能變成可能。而對于失明者而言,能夠通過AI助盲技術(shù)像其他人一樣獨(dú)立的生活,而不是被特殊對待,恰恰體現(xiàn)了科技最大的善意。
在AI照入現(xiàn)實(shí)的當(dāng)下,科技已經(jīng)不再是高山仰止的冰冷,而是充滿了人文關(guān)懷的溫度。站在AI技術(shù)的前沿,浪潮信息希望,針對人工智能技術(shù)的研究,能夠吸引更多人一起持續(xù)推動(dòng)人工智能技術(shù)的落地,讓多模態(tài)AI助盲的浪潮延伸到AI反詐、AI診療、AI災(zāi)情預(yù)警等更多場景中去,為社會創(chuàng)造更多價(jià)值。
以下是浪潮信息發(fā)表的相關(guān)成果,歡迎更多關(guān)注多模態(tài)算法的朋友共同探討AI助盲技術(shù)
2022 VizWiz Grand Challenge Workshop
2022 VizWiz Grand Challenge Workshop – VizWiz
Towards Further Comprehension on Referring Expression with Rationale
https://dl.acm.org/doi/10.1145/3503161.3548417
AI-VQA: Visual Question Answering based on Agent Interaction with Interpretability
https://dl.acm.org/doi/abs/10.1145/3503161.3548387