OpenAI研究 通过辩论人工智能安全
我们正在提出一种 AI 安全技术,该技术训练代理人相互辩论话题,并由人类来判断谁赢了。
我们相信,这种或类似的方法最终可以帮助我们训练人工智能系统执行比人类更高级的认知任务,同时保持与人类偏好的一致。我们将概述这种方法以及初步的概念验证实验,并且还将发布一个网络界面,以便人们可以试验该技术。

使 AI 代理与人类目标和偏好保持一致的一种方法是 在训练时询问人类 哪些行为是安全和有用的。虽然很有前途,但这种方法需要人类识别好的或坏的行为;在许多情况下,代理的行为可能过于复杂以至于人类无法理解,或者任务本身可能难以判断或证明。示例包括具有非常大的非视觉观察空间的环境——例如,在计算机安全相关环境中运行的代理,或协调大量工业机器人的代理。
我们如何增强人类,使他们能够有效地监督先进的人工智能系统?一种方法是利用人工智能本身来帮助监督,要求人工智能(或单独的人工智能)指出任何拟议行动中的缺陷。为实现这一目标,我们将学习问题重新定义为两个代理之间玩的游戏,其中代理相互争论,人类判断交换。即使代理人对问题的理解比人类更深入,人类也可能能够判断哪个代理人的论据更好(类似于专家证人说服陪审团的论据)。
我们的方法为两个决斗 AI 代理之间的此类游戏提出了一种特定的辩论形式。这两个代理可以通过自我对弈来训练,类似于 AlphaGo Zero 或 Dota 2。我们希望,经过适当的训练,这样的智能体可以产生远远超出人类判断能力的与价值一致的行为。如果两个代理人在真相上存在分歧,但完整的推理太大而无法向人类展示,则辩论可以集中在越来越简单的事实争论上,最终得出一个足够简单的主张,可以直接判断。
例如,考虑“去哪里度假最好?”这个问题。如果据称代理人爱丽丝代表我们进行研究并说“阿拉斯加”,则很难判断这是否真的是最佳选择。如果第二个代理 Bob 说“不,这是巴厘岛”,这听起来很有说服力,因为巴厘岛比较暖和。爱丽丝回答“你不能去巴厘岛,因为你的护照不会及时到达”,这暴露了巴厘岛的一个我们没有想到的缺陷。但 Bob 反驳说“加急护照服务只需要两周”。争论一直持续到我们得出一个人类可以正确判断的陈述,从这个意义上说,另一个代理人不相信它可以改变人类的思想。
说服稀疏 MNIST 分类器
虽然我们预计这种方法在代理人使用自然语言相互交谈时长期最有效,但我们需要在更简单的领域对其进行测试,因为当今的自然语言建模不足以完成这项任务。对于不超出人类能力的任务,测试更容易。我们可以通过转移到视觉领域来做到这一点,并将“辩论者具有法官缺乏的能力”替换为“辩论者具有法官缺乏的知识”。裁判的目标是猜测图像的内容,但除了辩论者选择的几个像素外,裁判是盲目的。辩论者看到完整的图像,然后玩一个游戏,轮流向法官展示单个像素。在这里,完整的图像是超越人类尺度的信息的替代品,
我们在最简单的视觉任务——MNIST 上进行了尝试。法官不是人类,而是一个预先训练的分类器,用于从 6 个非黑色像素预测 MNIST 数字,在预训练法官时为每个图像呈现随机采样。然后两个代理进行辩论,他们交替显示像素,在总共显示 6 个像素时停止(因此法官总共只能看到一点点信息)。一名辩手诚实并试图让法官猜对,另一名辩手试图让法官猜错。如果两个代理人都必须事先声明他们争论的是哪个数字,辩论会将 59.4% 准确的稀疏分类器变成 88.9% 准确的辩论。也就是说,诚实的玩家在 MNIST 测试集上获胜的概率为 88.9%,在此过程中,判断的准确率高于其独立的准确率。

MNIST 辩论游戏的结构。辩论者 Alice 和 Bob 看到一张图片,Alice 试图欺骗法官认为它是 6,Bob 试图正确地说服法官这是 5。他们交替向法官展示非黑色像素,法官在之后正确地将其识别为 5看到六个像素。Alice 勾勒出底部的曲线,使其看起来像 6 (红色像素),但 Bob 通过显示右上角的像素 (蓝色像素)有效地反击了这一策略,这是大多数 MNIST 6 所没有的。
直觉上,一张图像更有可能包含令人信服地证明真相的像素,而不是包含令人信服地证明谎言的像素,因此一半诚实一半恶意选择的 6 个像素比 6 个随机像素要好得多。如果法官是一个能够一次推理几个论点而不是筛选大量所有可能论点的人,那么辩论中的最佳发挥可以(我们希望)奖励辩论代理人为我们进行筛选,即使我们缺乏区分好论点和坏论点的先验机制。
下面的面板显示了几个示例游戏。说谎者获胜比诚实获胜更有趣,因此我们选择了样本,以便说谎者在下面显示的 50% 的游戏中获胜(实际上,说谎者赢得了 11.1% 的游戏)。将鼠标悬停在其中一个数字上以查看游戏,包括显示哪些像素以及法官在每一步的可能假设:
有些数字比其他数字更好。要让法官相信数字是 8 或 9 特别容易:

对于 6 像素 MNIST 判断(左) 随机像素和 (右) 辩论,对角线设置为零的混淆矩阵 。6个随机像素的错误没有明显的规律,而辩论中成功的谎言则集中在数字8和9上。特别容易让法官相信一个5实际上是一个8,或者一个4实际上是一个9。这可能是一个将游戏限制为非黑色像素的神器:如果你能在 8 应该是白色的地方显示一个黑点,就更容易证明数字不是 8。
猫狗辩论网站
辩论实验复杂性的下一步是仍然使用图像,但使它们更加精细,比如猫与狗。更复杂的图像可能需要一些自然语言或常识推理,所以我们还没有为机器学习法官/代理人做这件事。相反,我们制作了一个 原型网站 供人类尝试此类实验,同时扮演法官和辩论者的角色。在这里,代理人可以用自然语言与法官交谈(该网站假设人类有一些文本频道或在同一个房间),但他们所有的陈述都可能是谎言。每个代理人可以在辩论过程中透露一个像素,并且保证这个像素是真实的。

两名人类辩论者和一名人类法官进行的辩论示例,其中只有辩论者可以看到图像。红色争论图像是一只狗,蓝色争论是猫。 图片来源:维基百科,CC-BY-SA。
在一场典型的辩论中,Alice 可能诚实地声称图像是一只猫,而 Bob 撒谎并声称它是一只狗。爱丽丝可以说“这个小矩形的中心是猫的绿眼睛。” 鲍勃不能承认中心是一只眼睛,所以他编造了进一步的谎言,“这是一只狗在草丛中玩耍,那是一片草叶。” 但是这个谎言很难与周围的事实相吻合,例如爱丽丝的回答“如果是草,那么这个细长方形的顶部或底部就会是绿色的。” 争论一直持续到代理人关注他们不同意的特定像素,但 Bob 无法发明一个合理的计数器,此时 Alice 揭示了像素并获胜。我们在 OpenAI 非正式地玩过这个游戏,诚实的代理人确实倾向于获胜,

与两名人类辩手和一名人类法官进行猫狗大战。
局限性和未来的工作
我们的大部分论文将辩论作为一个概念进行分析;上面的实验是非常初步的。未来我们想做更难的视觉实验,最终用自然语言进行实验。法官最终应该是人类(或从稀疏的人类判断中训练出来的模型),而不是隐喻地代表人类的 ML 模型。这些代理最终应该是功能强大的 ML 系统,可以做人类无法直接理解的事情。测试关于人类偏见发挥作用的价值负载问题的辩论也很重要,测试是否有可能从有偏见的人类法官那里获得一致的行为。
即使有了这些改进,辩论模型也有一些基本的局限性,可能需要用其他方法对其进行改进或扩充。辩论并不试图解决 对抗性例子 或 分配转变等问题- 这是一种为复杂目标获取训练信号的方法,而不是保证此类目标稳健性的方法(这需要通过其他技术来实现)。也不能保证辩论会得出最佳玩法或正确陈述——自我对弈在围棋和其他游戏的实践中效果很好,但我们对其表现没有理论上的保证。受过辩论训练的代理比受过直接给出答案(即使是错误/不安全的答案)的代理使用更多的计算,因此辩论可能无法与更便宜/不太安全的方法竞争。最后,人类可能只是判断力差,要么是因为他们不够聪明,即使在代理人放大最简单的可能有争议的事实后也无法做出正确的判断,要么是因为他们有偏见并且会相信他们想相信的任何东西。
如果辩论或类似的方法奏效,它将使未来的 AI 系统更安全,因为它们与人类的目标和价值观保持一致,即使 AI 变得太强大而无法直接进行人类监督。即使对于人类可以监督的较弱系统,辩论也可以通过将捕获目标所需的样本复杂性降低到低于在任务中表现出色所需的样本复杂性来使对齐任务更容易。