OpenAI研究 人工智能和效率
我们发布的一项分析表明,自 2012 年以来,将神经网络训练到在 ImageNet 分类上达到相同性能所需的计算量每 16 个月减少 2 倍。与 2012 年相比,现在将神经网络训练到 AlexNet 级别所需的计算量减少了 44 倍(相比之下,摩尔定律在此期间将产生 11 倍的成本改进)。我们的结果表明,对于近期投资水平较高的 AI 任务,算法进步比传统硬件效率产生了更多收益。
介绍参考:Imagenet1个, 亚历克斯网2个, 摩尔定律3个
算法的改进是推动人工智能进步的关键因素。寻找能够揭示整体算法进展的措施非常重要,尽管它比衡量计算中的此类趋势更难。4个
用于训练 AlexNet 级别性能的计算总量(以 teraflops/s-days 为单位)。任何给定时间的最低计算点以蓝色显示,所有测量点以灰色显示。2、5、6、7、8、9 ,10 ,11 ,12 ,13 ,14 ,15 ,16
衡量效率
算法效率可以定义为减少训练特定能力所需的计算量。效率是我们衡量经典计算机科学问题(如排序)算法进展的主要方式。与 ML 相比,排序等传统问题的效率提升更易于衡量,因为它们对任务难度有更清晰的衡量标准。A[A]
在排序示例中,问题的“难度”是列表的长度。快速排序的成本是一种常用的算法,用大 O 表示法表示: O ( n对数名词)
对于我们的分析,我们主要利用开源重新实现19 ,20 ,21衡量长期 AlexNet 级别性能的进展。我们在 ImageNet 上看到了类似的 ResNet-50 级别性能的训练效率提高率(17 个月的倍增时间)。7、16 我们在 Translation、Go 和 Dota 2 中看到了在较短时间范围内更快的改进速度:
- 在翻译中,Transformer22 超越seq2seq23 3 年后,在 WMT'14 上英语到法语翻译的性能减少了 61 倍的训练计算。
- 我们估计 AlphaZero24 达到 AlphaGoZero 所需的计算量减少了 8 倍25 1年后的水平表现。
- OpenAI Five Rerun 需要的训练计算量减少 5 倍以超过 OpenAI Five26 (击败了世界冠军 OG)3 个月后。
考虑到 2012 年的计算量不等于 2019 年的计算量可能会有所帮助,就像美元需要随着时间的推移进行通货膨胀调整一样。固定数量的计算在 2019 年可能比 2012 年完成更多。对此的一种思考方式是,某些类型的人工智能研究分两个阶段进行,类似于半导体中的“滴答”发展模式;新功能(“tick”)通常需要大量的计算支出才能获得,然后由于流程改进,这些功能的改进版本(“tock”)变得更加高效。
算法效率的提高允许研究人员在给定的时间和金钱内进行更多感兴趣的实验。除了衡量总体进展之外,算法效率的提高还以某种类似于拥有更多计算的方式加速未来的 AI 研究。
人工智能进步的其他衡量标准
除了效率之外,许多其他指标也揭示了 AI 的整体算法进步。美元培训费用27 是相关的,但不那么狭隘地关注算法的进步,因为它也受到底层硬件、硬件利用率和云基础设施改进的影响。当我们处于低数据状态时,采样效率是关键,许多感兴趣的任务都是这种情况。更快地训练模型的能力28 也加快了研究速度,可以被认为是并行化能力的衡量标准29 兴趣的学习能力。我们还发现在 GPU 时间方面推理效率有所提高30, 参数16,并且失败有意义,但主要是因为它们的经济影响乙[乙]
推理成本在成功部署系统的总成本中占主导地位。推理成本随着系统的使用而增加,而培训成本只需支付一次。
主要限制
- 我们只有少数任务的少量算法效率数据点。目前尚不清楚我们观察到的效率趋势在多大程度上适用于其他 AI 任务。系统测量可以明确算法是否等同于摩尔定律C[C]
在整篇文章中,我们将摩尔定律称为一致的、长期观察到的美元/翻牌的 2 年翻倍时间。人们还可以将摩尔定律解释为最近放缓的美元/翻牌趋势。
在 AI 领域存在,如果存在,请阐明其性质。我们认为这是一个非常有趣的开放性问题。我们怀疑我们更有可能在类似任务上观察到类似的效率进步率。通过类似的任务,我们指的是 AI 的这些子领域内的任务,该领域一致认为我们已经看到了实质性进展,并且具有可比的投资水平(计算和/或研究人员时间)。 - 尽管我们认为 AlexNet 代表了很多进步,但该分析并不试图量化该进步。更一般地说,第一次创建能力时,算法上的突破可能会减少完全不可行所需的资源丁[D]
例如,算法的进步可能会将某些任务的复杂性类别从指数成本更改为多项式成本。这种对感兴趣的能力的效率增益很难直接观察到,尽管它们可以通过渐近分析或外推经验导出的比例定律来观察。
只是高。我们认为,与此处所示类型的观察到的效率提升相比,新功能通常代表整体概念进步的更大份额。 - 此分析侧重于优化模型的最终训练运行成本,而不是总开发成本。一些算法改进通过使稳定训练并获得良好最终性能的超参数空间更大,使训练模型变得更容易。另一方面,架构搜索增加了最终训练运行成本和总训练成本之间的差距。
- 我们不推测乙[E]
对此类主题做出可信的预测是一项艰巨的任务,我们宁愿在这里避免也不愿给予不充分的对待。
关于我们预期效率趋势将及时推断的程度,我们只是展示我们的结果并讨论如果趋势持续存在的影响。
测量和人工智能政策
我们相信31 与人工智能相关的政策制定将通过更加关注人工智能系统的技术属性和社会影响方面的衡量和评估得到改善。我们认为此类衡量举措可以阐明政策中的重要问题;我们的人工智能和计算4个 分析表明,政策制定者应该增加对学术界计算资源的资助,以便学术研究能够复制、再现和扩展行业研究。这种效率分析表明,政策制定者可以通过更密切地评估人工智能系统效率的提高速度,对部署人工智能功能的成本以及这些成本将如何随时间变化产生准确的直觉。
跟踪效率向前发展
如果大规模计算对于在语言和游戏等领域实现最先进 (SOTA) 的整体性能仍然很重要,那么重要的是要努力衡量用较小的计算量取得的显着进步(学术机构通常做出的贡献)。在有意义的能力上达到最先进的培训效率的模型是有希望扩大规模并有可能实现整体最佳性能的候选者。此外,找出算法效率的改进很简单F[F]
事实上,这项工作主要是通过训练 PyTorch 示例模型来完成的,并通过调整来改进早期学习。
我们还认为,衡量效率 SOTA 的长期趋势将有助于描绘出整体算法进展的定量图景。我们观察到,硬件和算法的效率增益是相乘的,并且在有意义的范围内可以具有相似的规模,这表明一个好的 AI 进步模型应该整合两者的措施。
我们的结果表明,对于具有高投资水平(研究人员时间和/或计算)的 AI 任务,算法效率可能超过硬件效率的收益(摩尔定律)。摩尔定律是在 1965 年创造的,当时集成电路只有 64 个晶体管(6 个倍增),并天真地推断出预测的个人电脑和智能手机(iPhone 11 有 85 亿个晶体管)。如果我们观察到 AI 算法效率数十年的指数级提高,它会导致什么?我们不确定。这些结果让我们提出这个问题,这对我们迈向拥有强大人工智能服务和技术的未来来说是一个适度的更新。
出于所有这些原因,我们将开始公开跟踪效率 SOTA。我们将从视觉和翻译效率基准(ImageNetG[G]
ImageNet 是视觉基准允许的唯一训练数据源。不允许使用人工字幕、其他图像或其他数据。自动增强是可以的。
行业领导者、政策制定者、经济学家和潜在的研究人员都在努力更好地了解人工智能的进展,并决定他们应该投入多少注意力以及将注意力投向何处。测量工作可以帮助做出这样的决定。如果您对此类工作感兴趣, 请考虑申请 在 OpenAI 的 Foresight 或 Policy 团队工作!
算法效率 SOTA
在 GitHub 上提交ImageNet 上 79.1% 的前 5 准确率
出版物 | 计算(TFS 天) | 衰减系数 | 分析 | 日期 | |
1个 | 亚历克斯网 | 3.1 | 1个 | 人工智能与效率 | 2012 年 6 月 1 日 |
2个 | 谷歌网 | 0.71 | 4.3 | 人工智能与效率 | 2014 年 9 月 17 日 |
3个 | 移动网络 | 0.28 | 11 | 人工智能与效率 | 2017 年 4 月 17 日 |
4个 | 洗牌网(1x) | 0.15 | 21 | 人工智能与效率 | 2017 年 7 月 3 日 |
5个 | ShuffleNet v2 (1x) | 0.12 | 25 | 人工智能与效率 | 2018 年 6 月 30 日 |
1个 | 高效网 (b0) | 0.069 | 44 | 高效网络 | 2019 年 5 月 28 日 |
ImageNet 上 92.9% 的前 5 准确率
出版物 | 计算(TFS 天) | 衰减系数 | 分析 | 日期 | |
1个 | ResNet-50 | 17 | 1个 | 人工智能与效率 | 2015 年 1 月 10 日 |
2个 | 高效网 (b1) | 0.75 | 10 | 高效网络 | 2019 年 5 月 28 日 |
WMT-14 EN-FR 上的 34.8 蓝色
出版物 | 计算(TFS 天) | 衰减系数 | 分析 | 日期 | |
1个 | Seq2Seq(合奏) | 465 | 1个 | 人工智能和计算 | 2014 年 1 月 10 日 |
2个 | 变压器(底座) | 8个 | 61 | 注意力就是 你所需要的 | 2017 年 1 月 12 日 |
WMT-14 EN-FR 上的 39.92 蓝色
出版物 | 计算(TFS 天) | 衰减系数 | 分析 | 日期 | |
1个 | GNMT | 1620 | 1个 | 注意力就是 你所需要的 | 2016 年 1 月 26 日 |
2个 | 变压器(大) | 181 | 9 | 注意力就是 你所需要的 | 2017 年 1 月 12 日 |
脚注
在排序示例中,问题的“难度”是列表的长度。快速排序的成本是一种常用的算法,用大 O 表示法表示: O ( n对数名词)↩︎
推理成本在成功部署系统的总成本中占主导地位。推理成本随着系统的使用而增加,而培训成本只需支付一次。↩︎
在整篇文章中,我们将摩尔定律称为一致的、长期观察到的美元/翻牌的 2 年翻倍时间。人们还可以将摩尔定律解释为最近放缓的美元/翻牌趋势。↩︎
例如,算法的进步可能会将某些任务的复杂性类别从指数成本更改为多项式成本。这种对感兴趣的能力的效率增益很难直接观察到,尽管它们可以通过渐近分析或外推经验导出的比例定律来观察。↩︎
对此类主题做出可信的预测是一项艰巨的任务,我们宁愿在这里避免也不愿给予不充分的对待。↩︎
事实上,这项工作主要是通过训练 PyTorch 示例模型来完成的,并通过调整来改进早期学习。↩︎
ImageNet 是视觉基准允许的唯一训练数据源。不允许使用人工字幕、其他图像或其他数据。自动增强是可以的。↩︎
参考
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009)。“ ImageNet:大规模分层图像数据库。” 在 CVPR09 中。↩︎
Krizhevsky, A.、Sutskever, I. 和 Hinton, GE (2012)。“使用深度卷积神经网络进行 Imagenet 分类。” F. Pereira、CJC Burges、L. Bottou 和 KQ Weinberger(编),神经信息处理系统进展 25(第 1097–1105 页)。柯伦联合公司↩︎↩︎
摩尔,通用电气 (1965)。“将更多组件塞入集成电路。” 电子 38(8)。↩︎↩︎ _
Simonyan, K. & Zisserman, A. (2014)。“用于大规模图像识别的非常深的卷积网络。” ↩︎
He, K.、Zhang, X.、Ren, S. 和 Sun, J. (2015)。“用于图像识别的深度残差学习 。” ↩︎↩︎ _
Iandola, FN、Han, S.、Moskewicz, MW、Ashraf, K.、Dally, WJ 和 Keutzer, K.(2016 年)。“ Squeezenet:Alexnet 级精度,参数减少 50 倍,模型大小 <0.5mb。” ↩︎
Xie, S.、Girshick, R.、Dollár, P.、Tu, Z. 和 He, K. (2016)。“深度神经网络的聚合残差转换。” ↩︎
Howard, AG、Zhu, M.、Chen, B.、Kalenichenko, D.、Wang, W.、Weyand, T.、Andreetto, M. 和 Adam, H. (2017)。“ Mobilenets:用于移动视觉应用的高效卷积神经网络。” ↩︎
Zhang, X., Zhou, X., Lin, M., & Sun, J. (2017)。“ Shufflenet:一种用于移动设备的极其高效的卷积神经网络。” ↩︎↩︎ _
Sandler, M.、Howard, A.、Zhu, M.、Zhmoginov, A. 和 Chen, L.-C。(2018)。“ Mobilenetv2:倒残差和线性瓶颈。” ↩︎
Ma, N.、Zhang, X.、Zheng, H.-T. 和 Sun, J. (2018)。“高效 cnn 架构设计实用指南”。↩︎
Tan, M. & Le, QV (2019)。“ Efficientnet:重新思考卷积神经网络的模型缩放。” ↩︎↩︎↩︎ _ _
埃里克·索耶 (2011)。“高通量测序和成本趋势。” ↩︎
大卫·罗伯茨 (2019)。“实现 100% 可再生能源需要廉价的储能。但是有多便宜呢?” ↩︎
Paszke, A., Gross, S., Chintala, S., Chanan, G., Yang, E., DeVito, Z., Lin, Z., Desmaison, A., Antiga, L., & Lerer, A. (2017)。“ PyTorch 中的自动微分。在 NIPS Autodiff Workshop 中。”。↩︎
黄杰 (2017)。“火炬中的 Shufflenet。” ↩︎
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, AN, Kaiser, L., & Polosukhin, I. (2017)。“注意力就是你所需要的。CoRR,abs/1706.03762。” ↩︎
Sutskever, I.、Vinyals, O. 和 Le, QV (2014)。“使用神经网络进行序列到序列学习。CoRR,abs/1409.3215。” ↩︎
Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap, T.、Simonyan, K. 和 Hassabis, D. (2018)。”掌握国际象棋、将棋,并通过自我对弈的通用强化学习算法。科学, 362(6419), 1140–1144。” ↩︎
Silver, D.、Schrittwieser, J.、Simonyan, K.、Antonoglou, I.、Huang, A.、Guez, A.、Hubert, T.、Baker, L.、Lai, M.、Bolton, A.、 Chen, Y.、Lillicrap, T.、Hui, F.、Sifre, L.、van den Driessche, G.、Graepel, T. 和 Hassabis, D. (2017)。“在没有人类知识的情况下掌握围棋游戏。自然,550、354–。” ↩︎
OpenAI 等。al, :, Berner, C., Brockman, G., Chan, B., Cheung, V., De˛biak, P., Dennison, C., Farhi, D., Fischer, Q., Hashme, S. , . Hesse, C., Józefowicz, R., Gray, S., Olsson, C., Pachocki, J., Petrov, M., de Oliveira Pinto, HP, Raiman, J., Salimans, T., Schlatter, J..、Schneider, J.、Sidor, S.、Sutskever, I.、Tang, J.、Wolski, F. 和 Zhang, S.(2019 年)。“具有大规模深度强化学习的 Dota 2。 ” ↩︎
Paszke, A., Gross, S., Chintala, S., Chanan, G., Yang, E., DeVito, Z., Lin, Z., Desmaison, A., Antiga, L., & Lerer,答(2017 年)。“ DAWNBench:端到端深度学习基准测试和竞赛。NIPS 机器学习系统研讨会,2017 年。” ↩︎
Raymond Perrault、Yoav Shoham、EBJCJEBGTLJMSM 和 Niebles, JC (2019)。《人工智能指数 2019 年度报告》。技术报告,人工智能指数指导委员会,以人为中心的人工智能研究所,斯坦福大学,斯坦福,加利福尼亚州。” ↩︎
McCandlish, S.、Kaplan, J.、Amodei, D. 和 Team, OD (2018)。“大批量训练的经验模型”。↩︎
来自 Oord, A., Li, Y., Babuschkin, I., Simonyan, K., Vinyals, O., Kavukcuoglu, K. 来自 Driessche, G., Lockhart, E., Cobo, LC, Stimberg, F ., Casagrande, N., Grewe, D., Noury , S., Dieleman, S., Elsen, E., Kalchbrenner, N., Zen, H., Graves, A., King, H., Walters , T., Belov, D., & Hassabis, D. (2017)。“平行波网络:快速高保真语音合成。” “ ↩︎
杰克·克拉克 (2019)。“ OpenAI 政策总监 Jack Clark 的书面证词。在众议院科学、空间和技术委员会听取“人工智能:社会和伦理影响”的听证会。↩︎
作者
致谢
我们要感谢以下人员对本文的有益对话和/或反馈:Dario Amodei、Jack Clark、Alec Radford、Paul Christiano、Sam McCandlish、Ilya Sutskever、Jacob Steinhardt、Jared Kaplan、Amanda Askell、John Schulman、Jacob希尔顿、Asya Bergal、Katja Grace、Ryan Carey、Nicholas Joseph、Geoffrey Irving、Jeff Clune 和 Ashley Pilipiszyn。
感谢 Justin Jay Wang 的设计。
感谢 Niki Parmar 提供原始 Transformer 学习曲线中的相关点。
还要感谢 Mingxing Tan 提供了 EfficientNet 学习曲线的相关点并运行了一个减少预热的实验。