对于GPT-2,我们的一个主要担忧是恶意使用模型(例如,用于虚假信息),一旦模型被开源,这是很难防止的。对于API,我们能够通过限制对已批准客户和用例的访问来更好地防止滥用。在提议的应用程序上线之前,我们有一个强制性的生产审查流程。在生产审核中,我们跨几个轴评估应用程序,并提出以下问题:这是当前支持的用例吗? ,应用程序的开放性如何? ,应用程序的风险有多大? ,您计划如何解决潜在的滥用?、和您的应用程序的最终用户是谁? .
对于被发现对人们造成(或打算造成)身体、情感或心理伤害的用例,我们将终止API访问,包括但不限于骚扰、蓄意欺骗、激进化、占星术或垃圾邮件,以及没有足够护栏限制最终用户滥用的应用程序。随着我们在实践中获得更多操作API的经验,我们将不断完善我们能够支持的使用类别,以扩大我们可以支持的应用程序的范围,并为那些我们担心滥用的应用程序创建细粒度的类别。
我们在批准API使用时考虑的一个关键因素是,应用程序在系统底层生成能力方面表现出开放行为与受限行为的程度。API的开放式应用程序(即通过任意提示无摩擦生成大量可自定义文本的应用程序)特别容易被滥用。可以使生成性用例更安全的约束包括使人处于循环中的系统设计、最终用户访问限制、输出的后处理、内容过滤、输入/输出长度限制、主动监视和主题限制。
我们还将继续对API所服务模型的潜在滥用进行研究,包括通过我们的学术准入计划。目前,我们的研究人员数量非常有限,我们的学术合作伙伴已经在米德尔伯里研究所 ,华盛顿大学和艾伦人工智能研究所。我们已经有数万名申请人申请该项目,目前正在优先考虑侧重于公平性和代表性研究的申请。
OpenAI如何减轻API所服务模型的有害偏见和其他负面影响?
缓解有害偏见等负面影响是一个非常重要的行业性难题。正如我们在GPT-3论文和模型卡,我们的API模型确实存在偏差,这些偏差将反映在生成的文本中。以下是我们为解决这些问题而采取的步骤:
- 我们制定了使用指南,帮助开发人员了解和解决潜在的安全问题。
- 我们正在与用户密切合作,以了解他们的用例,并开发工具来浮现和干预,以减轻有害的偏见。
- 我们正在对有害偏见的表现形式以及公平和代表性方面的更广泛问题进行研究,这将有助于通过改进现有模型的文档以及对未来模型的各种改进来为我们的工作提供信息。
- 我们认识到,偏见是一个问题,表现在系统和部署环境的交叉点;使用我们的技术构建的应用程序是社会技术系统,因此我们与开发人员合作,确保他们使用适当的流程和人机交互系统来监控不良行为。
我们的目标是继续深入了解API在每个使用环境中的潜在危害,并不断改进我们的工具和流程,以帮助将其降至最低。