我们正在为一类尚未开发的神经网络架构发布高度优化的 GPU 内核:具有块稀疏权重的网络。根据所选的稀疏性,这些内核的运行速度可以比 cuBLAS 或 cuSPARSE 快几个数量级。我们已经使用它们在文本情感分析以及文本和图像的生成建模方面获得了最先进的结果。
详细论文