1. 首页 > 手游资讯

马里兰大学构建幻觉自动生成框架 马里兰大学院市分校

这篇文章小编将目录导读:

  1. 视觉大模型的认知失调现象
  2. 实验结局和启示

在科技日新月异的今天,人工智能(AI)技术正以前所未有的速度改变着大家的生活,视觉大模型作为AI领域的重要分支,在图像识别、视觉问答等方面展现出了强大的能力,随着研究的深入,科学家们发现,这些视觉大模型在某些情况下会出现认知失调的现象,即它们生成的响应中包含视觉内容中不存在的信息,这种现象被称为“幻觉”,为了应对这一挑战,马里兰大学的研究团队取得了一项重要突破,他们构建了壹个名为AutoHallusion的幻觉自动生成框架,为领会和化解视觉大模型的认知失调难题提供了新的思路。

视觉大模型的认知失调现象

视觉大模型,如GPT-4V、Gemini和Claude等,在认知和推理任务上展现出了惊人的能力,它们能够识别图像中的物体、领会场景中的关系,并根据这些信息生成相应的回答,科学家们发现,这些模型在回答某些难题时,会生成和图像内容不符的信息,即出现“幻觉”,这种现象通常是由于语言模块过度依赖语言先验信息而忽略视觉输入所致,在一张包含办公室的图片中,如果模型被问及是否存在PC,它也许会根据语言先验姿势(办公室通常配备PC)而给出肯定的回答,即使图片中并没有显示PC。

####马里兰大学的AutoHallusion框架

为了应对视觉大模型的认知失调难题,马里兰大学的研究团队提出了AutoHallusion框架,这一框架基于认知科学原理,旨在自动生成各种幻觉案例,以便科学家们能够更深入地领会这一现象,并找到化解之道。

AutoHallusion框架的整体流程分为四个部分:场景生成、图像处理、构造难题和幻觉检测。

1、场景生成:AutoHallusion运用合成或真正全球图像作为场景图,这些图像可以通过DALL-E等图像生成模型根据提示生成,也可以从MSCOCO等公开数据集中提取,在办公室场景中,假设场景中有PC、办公桌、办公椅等和办公室主题一致的物体,而不会有炒锅等和主题无关的物体。

2、图像处理:为了创建和语言先验相冲突的图像,AutoHallusion采用三种策略操控场景中的物体构成:插入异常物体、插入成对物体和移除相关物体,在办公室场景中添加通常不会出现的炒锅,或者只保留牙刷并移除牙膏等。

3、构造难题:针对图像处理经过中插入或删除的物体,AutoHallusion会构造相应的难题来探测大模型的语言模块,这些难题包括存在性难题(询问目标物体是否存在于图像中)和空间关系难题(询问目标物体和场景中其他物体的相对位置)。

4、幻觉检测:通过对比大模型的回答和事实信息或其他回答,AutoHallusion能够判断其回答中是否存在幻觉,它能够检测两种类型的幻觉:正确性和一致性,正确性指的是大模型的回答和基本事实是否一致;一致性则指的是大模型在面对包括不同级别的补充信息的难题时,能不能给出一致的答案。

实验结局和启示

在包括GPT-4V、Gemini、Claude和LLaVA等新鲜的大模型上进行的实验表明,AutoHallusion框架能够有效地生成大量幻觉案例,并整理公开了壹个基准数据集来评估模型性能,实验结局显示,这些模型在基准数据集上的问答准确率顶尖仅为66.0%,进一步证实了视觉大模型存在认知失调的难题。

实验还发现了一些有趣的现象,插入物体的幻觉生成策略比删除物体的策略更有效;基于物体存在性构建的难题比基于物体空间关系的难题更容易引发幻觉;GPT-4V在防止大模型幻觉方面表现最好;针对真正全球数据集构建的幻觉案例成功率高于合成数据集,这些发现为未来的研究提供了新的路线。

马里兰大学的AutoHallusion框架为领会和化解视觉大模型的认知失调难题提供了有力的工具,通过自动生成大量幻觉案例,科学家们能够更深入地研究这一现象,并寻觅有效的化解方式,随着技术的不断提高和研究的深入,大家有理由相信,未来的视觉大模型将更加准确、可靠地为大家服务,为大家的生活带来更多的便利和趣味。