1. 首页 > 手游资讯

LLM超越人类时代 要超越人类才行啊

在这个日新月异的时代,人工智能的迅猛进步正逐步改变着全球的面貌,特别是大型语言模型(LLM)的崛起,更是让人惊叹不已,当LLM的能力逐渐超越人类,大家不禁要问:怎样确保这些智能体和人类的价格观和偏好保持一致?这便是今天阿秋要和诸位探讨的课题——LLM超越人类时该怎样对齐,而谷歌的新RLHF框架,正是解答这一难题的决定因素所在。

大家需明确,这个全球是不断变化的放开全球,人工智能要在这个全球长久立足,就必须突破诸多限制,其中最为决定因素的便是数据的限制,对基于LLM的AI而言,高质量的人类数据至关重要,已有研究预计,这些高质量数据将在未来几年内耗尽,若LLM保持当前的进步势头,预计在2028年左右,已有的数据储量将被全部利用完,此后,这类数据的质量也将停滞不前,随着LLM能力越来越强,它们将能化解越来越复杂和越来越多的难题,而这些难题所需的训练数据已经超出了人类的能力范围。

面对这一困境,大家需为LLM构建一种能使其实现自我成长的基本机制,让模型可以持续地自我生成和自我求解更困难的难题,但难题也随之而来:语言模型能不能自我创建可进修的新任务,从而实现自我改进,以更好地泛化用于人类偏好对齐?

为了提高语言模型的对齐能力,大众已提出了许多偏好优化算法,但它们都默认运用固定的提示词训练分布,这种固定的训练范式缺乏可扩展性,并不可避免地导致泛化难题和效率难题,大家需要一种最新的框架,来打破这一僵局。

谷歌DeepMind和芝加哥大学的研究团队,正是基于这样的思考,开发了一种可扩展的放开式RLHF框架——eva,即“通过非对称自博弈实现的演进式对齐”,这一框架的出现,无疑为LLM的对齐难题提供了新的化解方法。

eva的核心在于,它通过壹个创建器(creator)将典范RLHF扩展成放开式RLHF,该创建器运用易于实现的估计、采样、进化程序来调整提示词的分布,模仿不对称自博弈的最小最大遗憾(minimax-regret)策略,典范RLHF是在壹个静态提示词分布上执行优化,这意味着智能体仅和固定的参考点对齐,这使得它难以应对不断变化的现实全球中的新难题,而eva则打破了这一静态配置,其目标是开发出一种能很好地泛化到未曾见过的新环境的智能体。

为实现这一目标,研究团队设计了壹个新的目标,而不仅仅是在壹个固定数据集上执行优化,他们形式化描述了可优化的提示词生成策略π_φ(x)和响应策略π_θ(y|x)的联合优化,p_ref(x)表示全部也许任务(通过提示词实例化)的理想化的也许很难处理的概率,它可作为智能体也许遇到的任务的全部多样性和复杂性的概念参考,同时用作对齐的指导目标,联合优化可确保任务分配和智能体的响应策略同步更新,从而适应日益复杂的任务,进而促进泛化。

由于未指定的参考很难处理以及联合微分存在不稳定难题,直接优化这一目标并不要易,为此,研究团队提出了一种交替式的优化方法,将难题表述成壹个非对称的创建器-求解器博弈,直观地讲,创建器可以通过复杂度不断增加的提示词例程来指导求解器,从而实现高效和一般性的进修,以处理现实任务的多样性,从数学上看,这类似于通过期望最大化进行的RL优化,但其中提示词分布的φ在每个流程中都是固定的。

在这一博弈中,创建器(Creator:提示词博弈者π_X)的影响是策略性地为求解器生成提示词;而求解器(Solver:响应博弈者π_{Y|X}或π)的影响则是进修生成更符合偏好的响应,研究团队采用了minimax regret策略,其中求解器的目标是最小化后悔值,而创建器则是为了最大化这个值,即当前策略和最优策略之间的奖励之差,由于无法获取真正的最优策略,他们必须近似后悔值。

eva允许创建壹个不断演进的提示词分布,其难度会随智能体的演进而逐步提高,新引入的minimax regret可进一步增加这种不断进步的例程的稳健性,激励智能体在全部情况下都表现良好,研究团队还运用了信息量代理来指导进修。

在实际实现中,创建器会找到最有用的提示词并生成它们的变体,并将这些变体用于偏好优化,创建器的实现分为三步:首先估计信息量,接着对富含信息的子集进行加权采样,最后为高优势提示词执行近端区域演进,这一流程确保了eva能够高效地生成和优化提示词,从而实现对齐。

实验结局表明,eva在不同优化算法中的表现显著优于基础配置,特别是在更难的Arena-Hard基准上,eva运用SimPO作为求解器时增益为8.4%,运用DPO作为求解器时增益为8.5%,超越了其27B版本,并和Arena-Hard排行榜上报告的claude-3-opus-240229等于,eva还运用了全自动的提示词生成进行对齐,成本更低,速度更快,在MT-Bench上,运用新的人类提示词进行训练通常会在第一轮中表现出性能下降,在第二轮中也只会有适度的提高,相比之下,eva能显著进步第二轮的表现,这表明eva能够演化出最新的可进修的提示词,而且其中包含第二轮难题的特征,从而涌现出了处理后续互动等新技能。

谷歌的新RLHF框架eva为化解LLM超越人类时的对齐难题提供了最新的思路和方式,它打破了典范RLHF的静态配置,通过非对称自博弈实现演进式对齐,从而进步了智能体的泛化能力和稳健性,随着RLHF技术的不断进步和完善,大家有理由相信,大型语言模型将能够更好地为人类服务,实现和人类的协同职业,这也将为大家揭示更多关于人工智能和人类社会进步的奥秘。