向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
一题而三命意的《伶官传序》******
作者:詹丹
欧阳修的史论名篇《五代史伶官传序》分别在中开头、中间和结尾,出现了三处观点句,即:
盛衰之理,虽曰天命,岂非人事哉
忧劳可以兴国,逸豫可以亡身
夫忧患常积于忽微,而智勇多困于所溺
对此,虽然有人曾提出哪一处是中心句的疑问,但也有不少学者把三处观点作了归并处理。如流行甚广的朱东润主编的《中国历代文学作品选》有关这篇作品的题解,就把三处观点整合在一起加以论述道:
这篇文章是把“庄宗之所以得天下与其所以失之者”作为教训,说明“忧劳可以兴国,逸豫可以亡身”,“祸患常积于忽微,而智勇多困于所溺”,指出一个王朝的兴亡主要决定于人事,在当时历史条件下,有其进步意义。
而陈必祥在《欧阳修散文选集》题解中论及此文时,把第一处观点句称为“全文的主旨”,把第二处称为“结论”,又把第三处称为揭示“带有更普遍意义的教训”,是“扩大和深化了主题”。只不过用换一种说法,依然对三处观点句作了归并处理。
不过,吴小如在1980年代论及该文的主题时,一方面归并处理了三处观点,但更重要的,他还有着深入一步的看法:
这篇文章的主题归纳起来不外这三层意思:首先是盛衰治乱兴亡之理,由于人事而未必由于“天命”,这是一篇的主干。其次,所谓“人事”,主要表现在两个方面:即“忧劳可以兴国,逸豫可以亡身”和“祸患常积于忽微,而智勇多困于所溺”。
虽然吴小如在提出主题的三层意思的同时,对内部关系做出了逻辑分析,认为第一处观点句“人事”是主干,后两处是“人事”的具体表现,大致体现出“总-分-分”这样的逻辑关系。但我的看法稍有不同。
从逻辑分类看,后两处的观点,确实都属于“人事”的范畴。但从观点的抽象到具体的递进程度或者说从“人事”的普遍性到特殊性看,其间的关系又是步步深入的。
由于第一处提出的观点“盛衰之理,虽曰天命,岂非人事”中的“人事”毕竟没有具体内涵,所以这是在一个宏观角度,提出了与“天命”相对的观点,来构成盛衰之理的具体内涵。也就是说,相对于纷繁复杂的“人事”来说,这个概念本身是抽象而又空洞的,只是当作为与“天命”对等的一个概念,把传统的认同“天命”的观念也向“人事”有所转向,才有其具体的针对性。
也正因为“人事”概念本身的抽象和空洞,所以它反倒像虚位以待的框架,可以容纳丰富的内容。其实,庄宗之所以失天下的原因本来就复杂,《旧五代史》在庄宗本纪最后评价说:
然得之孔劳,失之何速?岂不以骄于骤胜,逸于居安,忘栉沫之艰难,狥色禽之荒乐。外则伶人乱政,内则牝鸡司晨。靳吝货财,激六师之愤怨;征搜舆赋,竭万姓之脂膏。大臣无罪以获诛,众口吞声而避祸。夫有一于此,未或不亡,矧咸有之,不亡何待!
其罗列出的林林总总,所谓“咸有之”,正说明了这一点。当然“伶官传序”似乎更突出其重点,所以在林林总总的“人事”中,强调了人的行为上的“忧劳”和“逸豫”这一组概念对比。这样就把抽象的宏观的“人事”递进到相对具体的中观层面。这当然是有庄宗的具体行为可以呼应的,这里且举一事为例。
《新五代史》有记录说:
同光三年夏,霖雨不止,大水害民田,民多流死。庄宗患宫中暑湿不可居,思得高楼避暑。宦官进曰:“臣见长安全盛时,大明、兴庆宫楼阁百数。今大内不及故时卿相家。”庄宗曰:“吾富有天下,岂不能作一楼?”乃遣宫苑使王允平营之。宦者曰“郭崇韬眉头不伸,常为租庸惜财用,陛下虽欲有作,其可得乎?”庄宗乃使人问崇韬曰:“昔吾与梁对垒于河上,虽祁寒盛暑,被甲跨马,不以为劳。今居深宫,荫广厦,不胜其热,何也?”崇韬对曰:“陛下昔以天下为心,今以一身为意,艰难逸豫,为虑不同,其势自然也。愿陛下无忘创业之难,常如河上,则可使繁暑坐变清凉。”庄宗默然。终遣允平起楼,崇韬果切谏。宦官曰:“崇韬之第,无异皇居,安知陛下之热!”由是谗间愈入。
在这里,身为一国之主不顾民间疾苦而只想着自己安乐,庄宗过往忧劳与当下逸豫的鲜明对比,成为一种身体的真切感受,而不听忠臣进谏、尽受小人蛊惑,常常又是关联在一起的。《资治通鉴》也记录了这一史事,胡三省加注感叹说:“郭崇韬之言,其指明居养之移人,可谓婉切,其如帝不听何!”
此外,观点句中,“兴国”和“亡身”对举,“国”和“身”还有互文足义的意思,所以文章最后提出庄宗“身死国灭”,就有了词语肌理上前后呼应的连贯性。
值得注意的是,虽然庄宗后来的“逸豫”事例斑斑可举,但文章从《尚书》中的“满招损谦受益”引出该文的观点句“忧劳可以兴国,逸豫可以亡身”,还是说明这种现象具有相当普遍性。这样,把这种虽然具体但依然普遍的观点,推进到庄宗个人境遇的特殊性,也就是作为“序”而指向“伶官传”的特殊性,所谓“忧患常积于忽微,而智勇多困于所溺”,这是呈现第三处观点句的意义所在。相对第一处的宏观和第二处的中观来说,这第三处的观点句,就是微观了(尽管结尾的“岂独伶人也哉”一句,显示了作者也努力要把这种特殊的微观回扣到普遍性中)。
在以“宏观”“中观”和“微观”理解三处观点句的递进关系时,我们都是以“人事”为立论前提的。在这过程中,作者所谓的“虽曰天命”一句,似乎被抛到了一边。我们固然可以说,作者强调了人事的重要性的同时,并没有完全否认“天命”的存在,但其向下文延伸的肌理性关系,似乎已经被我们无视。我们没有意识到,在其论述的递进过程中,那种似乎已经隐身的“天命”意识,其实际内涵已悄然发生了改变。
许多人在强调第二处观点句时,无意中遗漏了“忧劳可以兴国,逸豫可以亡身”的后一句“自然之理也。”而这似乎从“人事”中逸出的,这不能被主观世界完全掌控的普遍性、规律性之理,以颇为“自然”的方式出现,使得我们忽视了其存在。而这,恰恰是能够跟同样不受人的主观控制的“天命”互为相通,形成一种肌理性联系。
日本学者沟口雄三在谈到唐代向宋代有关天的观念变化时,认为是从“天谴的天向天理的天的变化”,也就是“主宰者的天向理法的天的变化”。唐以前的人们习惯认为,作为主宰者的天似乎有着人格意志,可以借助自然灾害,对君王犯下的错事做出谴责,以提醒君王纠正过错,所谓“天谴事应”。此类观念到宋代已经受到了不少学者的挑战。欧阳修和宋祁主持编撰的《新唐书》,就讨论了“天谴事应”的问题,并对此有所质疑。在“五行志”中,认为后世之人是在“曲说而妄意天”,所以他们编写的体例就“著其灾异,而削其事应。”而《五代史伶官传序》中提出不受人意控制的自然之理,正是从“天命”向“天理”过渡的桥梁。当天理内在于人事中(这被沟口雄三称为“欧阳修的天地人之理”)得到理解,成为一种规律时,认识到这种规律、这种天理的存在其实只是一件稀松平常的事。不过,当人们总是通过自己的言行来反复证明这个规律的存在,不断重蹈覆辙时,才是一件使人不胜感叹的事,也难怪欧阳修会在他的史论中,常常劈头就感叹一声:“呜呼!”
(作者单位:上海师范大学光启语文研究院)
(文图:赵筱尘 巫邓炎)