转载

OpenAI研究 为什么负责任的人工智能开发需要安全合作

我们撰写了一份政策研究论文,确定了当今可用于提高 AI 安全规范长期行业合作可能性的四种策略:交流风险和收益、技术协作、提高透明度和激励标准。我们的分析表明,行业在安全方面的合作将有助于确保人工智能系统的安全和有益,但竞争压力可能会导致集体行动问题,从而可能导致人工智能公司在安全方面的投资不足。我们希望这些战略将鼓励在人工智能的安全发展方面加强合作,并带来更好的人工智能全球成果。


重要的是要确保构建和发布安全、可靠且对社会有益的人工智能系统符合公司的经济利益。即使我们认为人工智能公司及其员工有这样做的独立愿望也是如此,因为如果人工智能公司的经济利益与他们负责任地构建系统的愿望不冲突,人工智能系统更有可能是安全和有益的.

这种说法似乎有些多余,因为开发和部署不会对社会构成风险的产品通常符合公司的经济利益。例如,人们不会花太多钱买一辆没有刹车功能的汽车。但是,如果多家公司都在尝试开发类似的产品,他们可能会感到急于将其推向市场的压力,从而导致发布前的安全工作减少。

此类问题通常出现在外部监管薄弱或不存在的情况下。对市场上提供的商品和服务进行适当的监管可以减少安全方面的偷工减料。这可以使商品和服务的用户以及行业本身受益——航空业作为一个整体在商业上受益于世界各国政府对安全保持警惕的事实,例如,当事故发生时,他们总是被调查详细。然而,由于技术的发展速度以及开发人员和监管机构之间的巨大信息不对称,传统的监管机制在处理人工智能方面可能效果不佳。我们的论文探讨了哪些因素可能会推动或抑制这种部署热潮,并提出了改善 AI 开发人员之间合作的策略。

需要采取集体安全行动

如果公司通过在一项技术被认为安全之前就将其推向市场来应对竞争压力,他们将发现自己陷入了集体行动问题。即使每家公司都愿意竞争开发和发布安全的系统,许多人认为他们负担不起这样做,因为他们可能会被其他公司打败进入市场。此类问题可以通过加强行业安全合作来缓解。人工智能公司可以努力制定行业规范和标准,确保系统只有在安全的情况下才能开发和发布,并且可以同意在开发过程中为安全投入资源,并在发布前满足适当的  标准

一些假设场景:

一家公司开发了一种非常高性能的图像识别模型,并急于大规模部署它,但该公司的工程师尚未充分评估该系统在现实世界中的性能。该公司还知道它缺乏完整的测试标准来了解模型的完整“能力表面”。然而,由于担心在特定利基市场被竞争对手抢先进入市场,该公司继续前进,赌他们有限的内部测试将足以对冲任何重大系统故障或公众反弹。
一家公司希望将一些半自主人工智能软件部署到物理机器人上,例如无人机。该软件的故障率符合监管标准,但由于该公司正在竞相将该技术推向市场,它知道他们产品流行的“可解释性”功能提供了误导性解释,其目的更多是为了保证而不是为了澄清。由于监管机构的专业知识有限,这种不当行为一直被忽视,直到发生灾难性事件,其他公司竞相部署类似“可解释”系统的类似行为也是如此。

一些集体行动问题比其他问题更容易解决。一般来说,如果合作的预期收益大于不合作的预期收益,则集体行动问题更容易解决。以下相互关联的因素增加了合作的预期收益:

高度信任

如果公司可以相信其他公司会通过努力实现类似的安全标准作为回报,公司就更有可能在安全方面进行合作。除其他事项外,可以通过提高安全投资资源的透明度、公开承诺达到高安全标准以及共同寻找可接受的安全基准来建立对其他人将安全开发 AI 的信任。

共享优势

如果安全发展带来的互惠互利更高,企业就更有动力开展安全合作。通过强调尽早建立良好安全规范的好处,例如防止人工智能故障和滥用事件,以及建立基于对新兴人工智能系统的共同理解的安全标准,可以改善合作前景。为从事欺诈、风险和合规工作的人们举办活动的Risk Salon等合作项目 就是一个很好的例子。这些活动促进了来自不同公司的参与者之间的公开讨论,并且似乎主要是出于改进风险缓解策略的共享收益。

低曝光

如果另一家公司决定不在安全方面合作,则减少公司预计会招致的危害会增加他们自己遵守安全标准的可能性。可以通过阻止违反安全标准(例如报告)或提供与不符合相关标准的系统相关的潜在风险的证据来减少暴露。例如,当必须满足标准才能进入市场时,如果其他公司不满足这些标准,公司不会有什么损失。符合 RoHS指令, 电子制造商不得不改用无铅焊接,以便在欧盟销售他们的产品。一家制造商继续使用铅焊接的可能性不会影响与铅减少工作的合作,因为他们的不遵守不会对其他制造商造成代价。

低优势

减少公司可以期望通过不在安全方面合作获得的任何优势应该会提高对安全标准的总体遵守程度。例如,生产 USB 连接器的公司并不期望从偏离 USB 连接器标准中获益太多,因为这样做会使他们的产品与大多数设备不兼容。当标准已经建立并且偏离标准的代价比任何好处都高时,优势就很低。在人工智能的背景下,降低实施安全预防措施的成本和难度将有助于最大限度地减少忽视它们的诱惑。此外,政府可以营造一种禁止违反高风险安全标准的监管环境。

共同的缺点

如果不采取足够的预防措施,确定人工智能系统可能失败的方式可以增加人工智能公司同意不开发或发布此类系统的可能性。当失败特别有害时,共同的缺点会激励合作:尤其是当整个行业都感受到失败时(例如,通过破坏公众对整个行业的信任)。例如,在三哩岛事件之后,核电行业创建并资助了 INPO  这是一家私营监管机构,能够评估电厂并在行业内共享这些评估结果,以提高运行安全性。

集体行动问题容易出现恶性循环,即失去信任会导致一方停止合作,进而导致其他各方停止合作。同时,也有可能产生积极的螺旋式增长,即信任的发展导致一些各方合作,从而导致其他各方合作。

合作策略

我们发现了四种今天可以用来提高在人工智能安全规范和标准方面进行合作的可能性的策略。这些都是:

1. 促进对合作机会的准确信念

交流与人工智能相关的安全和保障风险,表明可以采取具体步骤促进安全合作,并就安全常识提出共同关切。

2. 合作应对共同的研究和工程挑战

参与促进安全的联合跨学科研究,否则有利于促进强有力的合作(例如,涉及结合互补专业领域的工作)。

3.开放人工智能发展的更多方面以进行适当的监督和反馈

宣传行为准则,提高与出版相关决策的透明度,并在解决安全和知识产权问题的前提下,开放个人人工智能系统接受更严格的审查。

4. 鼓励遵守高安全标准

赞扬那些遵守安全标准的人,责备未能确保安全开发系统的人,并支持经济、法律或全行业的激励措施以遵守安全标准。

我们认为,随着人工智能系统变得越来越强大,集体行动问题可能是政策挑战的主要来源。本分析侧重于行业在预防此类问题方面可以发挥的作用,但我们预计法律和政治机制也将在预防和缓解这些问题方面发挥重要作用。我们还预计,确定类似机制以改善国家之间以及与其他非行业参与者之间在 AI 安全方面的合作在未来几年将变得越来越重要。未来人工智能系统可能带来的挑战存在很大的不确定性,但我们相信,鼓励在人工智能安全发展方面加强合作可能会对人工智能发展的成果产生积极影响。

虽然我们承认存在此类挑战,但我们提倡更彻底地规划跨组织和国家边界的可能合作,特别关注其解决方案可能具有广泛实用性的研究和工程挑战。需要考虑的领域可能包括联合研究人工智能系统能力的正式验证以及人工智能安全和安保的其他方面以及广泛的应用;各种应用的“AI for good”项目,其结果可能具有广泛且主要是积极的应用(例如在可持续性和健康等领域);联合制定应对全球人工智能相关威胁的对策,例如滥用在线生成的合成媒体。为了在安全方面实现更大的合作,我们需要让所有人都知道这种合作符合每个人的利益,


详细论文