使用AI替换SGD？无需训练重新设备

来源：未知作者：admin 日期：2023/01/27 10:47 浏览：

　　向前 - 到脑的通信可以预测几乎所有神经网络的参数。我们更接近由单个美元模型代替的优化器来替换手动设计。

　　汇编杏花

　　编辑青木

　　只有一个向前传播，该地图神经网络或元模型可以预测图像分类模型的所有参数。有了它，无需等待梯度降低和收敛！

　　Guilff大学论文的Boris Knyazev介绍了Meta模型可以预测Resnet-50的所有2400万参数，而该Resnet-50将在未经任何培训的情况下达到CIFAR-10的近60％的准确率。本质尤其是该模型几乎适用于任何神经网络。

　　基于这个结果，作者向我们发送了一个灵魂问题：将来您是否仍然需要SGD或Adam来训练神经网络？

　　“我们距离单个毛额模型更近一步，可以替换手动设计。元模型可以预测向前 - 通信中几乎所有神经网络的参数。”

　　令人惊讶的是，在培训期间，这种元模型尚未收到任何类似网络的网络（作为培训数据）。

　　该元模型的成本非常宽，不仅是Resnet-50，还可以预测RESNET-101，RESNET-152，Wide-Resnets，Visual Transformers的所有参数。不仅CIFAR-10，而且即使在像Imagenet这样的大规模数据集上，它也可以带来良好的结果。

　　同时，效率也非常好。元模型可以在平均小于1秒内预测给定网络的所有参数。即使在CPU上，其性能也是如此迅速！

　　但是，毕竟，世界上没有免费的午餐”，因此，当元模型预测其他不同类型的体系结构时，预测的参数不准确（有时可能是随机的）。一般而言，训练分布越远（请参见图中的绿色框架），预测结果越糟。

　　但是，即使预测参数的网络分类的准确性很差，也不要失望。

　　我们仍然可以将其用作具有良好初始化参数的模型，并且我们不需要像过去那样使用随机初始化。 “我们可以在这种迁移学习中受益，尤其是在较少的样本学习任务中。”

　　作者还说，“作为神经网络的粉丝”，他们特别选择了GNN作为形而上学模型。该模型是基于Chris Zhan，Mengye Ren和Raquel Urtasun发表的ICLR 2019论文提出的。

　　论文地址：https：//arxiv.org/abs/1810.05749

　　在他们的基础上，作者开发并培训了一种新的GHN-2，该模型具有更好的概括功能。

　　简而言之，在多个体系结构上更新GHN参数并正确标准化了预测参数，改善地图中的远程交互并改善收敛性至关重要。

　　为了训练GHN-2，作者引入了神经体系结构数据SET-DEEPNETS-1M。

　　该数据集分为三个部分：培训集，验证集和测试集。此外，他们还使用更广泛，更深，更密集和非返回的网络进行分发测试。

　　作者补充说，DeepNets-1M可以用作不同地图神经网络（GNN）基准测试的良好测试平台。 “使用我们的pytorch代码，插入任何GNN（而不是我们的门控GNN）应该非常简单。”

　　除了求解参数预测任务和网络初始化外，GHN-2还可以用于神经体系结构搜索。网络。”

　　本文已发表在2021年Neurips上，研究人员来自公会大学，多伦多大学媒介人工智能研究所，Cifar，Fair和McGill University。

　　论文地址：https：//arxiv.org/pdf/2110.13100.pdf

　　该项目也是开源的，快点崇拜这个神经网络优化器！

　　项目地址：https：//github.com/facebookresearch/ppuda

　　1个模型详细说明

　　考虑到大规模标记数据集（例如ImageNet）训练深神网络的问题，可以正式将此问题变成给定神经网络的最佳参数W。

　　通过迭代优化算法（例如SGD和ADAM）来最小化损耗函数。这些算法收敛到架构A的性能参数W_P。

　　尽管在提高训练速度和融合方面取得了进展，但在大型机器学习管道中，W_P的采集仍然是一种瓶颈。

　　例如，ImageNet上的培训Resnet-50可能需要大量的GPU时间。

　　随着网络的持续增长和重复训练的存在（例如超级参数或体系结构搜索），获得W_P的过程在计算中变得不可持续。

　　对于新的参数预测任务，在优化新体系结构A的参数时，典型的优化器将忽略过去优化其他网络获得的经验。

　　但是，过去经验的使用可能是减少迭代优化的关键，从而减少高计算需求。

　　为了朝这个方向发展，研究人员提出了一项新任务，即使它通过单个高清进行了单个前进向前 - 向上进行优化。

　　为了解决此任务，HD将使用过去的其他网络的知识。

　　例如，我们考虑CIFAR-10和Imagenet图像分类数据集D，其中测试集的性能是测试图像分类的准确性。

　　让高清知道如何优化其他网络的一种简单方法是在[架构，参数]的大型训练集上进行训练。但是，这一过程的困难是令人难以置信的。

　　因此，研究人员遵循元学习中常见的双层层优化范式，也就是说，无需迭代M任务，但是会在单个任务（例如图像分类）上迭代M训练体系结构。

　　图0：GHN原始体系结构的概述。答：随机采样神经网络体系结构以生成GHN。 B：在图形传输后，GHN中的每个节点都会生成其自己的权重参数。 C：通过训练GHN，用称重重的采样网络的训练损失最小化。根据生成网络的性能进行排序。资料来源：https：//arxiv.org/abs/1810.05749

　　通过优化，Ultra -Network HD逐渐获得了如何预测训练体系结构的性能参数的知识，然后可以在测试过程中使用这些知识。

　　为此，设计架构空间F和高清。

　　对于F，基于现有神经系统架构设计空间的研究人员，我们通过两种方式扩展了它们：对不同的体系结构和扩展设计空间进行采样的能力，包括多个架构，例如重新NET和Visual Transformers。

　　可以在计算图的形式中以完整的描述描述此体系结构（图1）。

　　因此，为了设计Ultra -Network HD，研究机器学习的最新进展将取决于。

　　特别是，研究人员的解决方案基于图形超网（GHNS）方法。

　　通过设计各种建筑空间F并改善了GHN，GHN-2预测该体系结构在CIFAR-10和Imagenet上没有看到，图像识别的准确率将提高到77％（TOP-1）和48％（前5个5（前5名（前5名（前5名）（前5名（前5名（前5个）至。

　　令人惊讶的是，GHN-2显示出良好的分布外部化。例如，对于比训练浓度更大，更深的架构，它也可以预测良好的参数。

　　例如，GHN-2可以在不到1秒钟内预测GPU或CPU上的所有2400万参数，达到CIFAR-10的准确率约为60％，没有梯度更新（图1、1，1，1， 1、1、1、1、1、1、1，（b））。

　　通常，框架和结果为培训网络打开了一个新的，更有效的范式。

　　本文的贡献如下：

　　（a）介绍使用单个Ultra -Network前 - 方向预测的新任务来预测不同的饲料神经网络；

　　（b）介绍DeepNets-1M数据集，这是一个标准化基准测试，其中具有内部和分布式数据的数据，用于跟踪任务；

　　（c）定义了几个基础线，并提出了GHN-2模型，该模型在CIFAR-10和Imagenet上出人意料地显示（第5.1节）；

　　（d）元模型了解神经网络体系结构的良好表示，并且对初始化的神经网络很有用。

　　图1：GHN模型的概述

　　上面的图1（a）（a）显示了GHN模型的概述（有关详细信息，请参见第4节）。基于给定的图像数据集和DeepNets-1M架构数据集，GHN模型通过反向通信训练以预测图像分类模型本质的参数

　　研究人员对香草GHN的主要改进包括元批次，虚拟边缘，参数归一化等。

　　其中，仅在训练GHN时才使用元批次，而虚拟边缘则将参数归一化用于训练和测试。 A1的视觉计算图如表1所示。

　　图1（b）比较了RESNET-50的所有参数的分类精度，以分类的分类精度，用于分类的精度。尽管自动预测参数获得的网络精度远低于手动培训网络，但它可以用作良好的初始化方法。

　　2实验：参数预测

　　尽管GHN-2从未观察到测试体系结构，但GHN-2预测了它们的良好参数，使测试网络在两个图像数据集上的性能令人惊讶（表3和表4）。

　　表3：DeepNets-1M中GHN-2的不稳定ID和OOD架构的预测参数（CIFAR-10）

　　表4：基于GHN-1，GHN-2，MLP在DEEPNETS-1M上的形而上学模型的结果，以及使用SGD和ADAM优化器训练分类器（Imagenet数据集）的结果

　　其中，CIFAR-10上的结果特别突出。一些预测的参数体系结构的准确性达到77.1％，而使用SGD训练50时期的最佳精度约为15％。

　　GHN-2甚至在Imagenet上显示出良好的结果。其中，对于某些架构，最多可占前5个准确性的48.3％。

　　尽管这些结果对于直接下游应用不足，但由于三个主要原因，它们非常有意义。

　　首先，它不取决于SGD培训体系结构F的昂贵过程。

　　其次，GHN依靠单个前向来扩展以预测所有参数。

　　第三，对于包括OOD体系结构在内的难以置信的体系结构获得了这些结果。即使没有严重分布（例如Resnet-506）和网络不足（例如VIT7），GHN-2仍然可以预测具有比随机参数更好的性能的参数。

　　在CIFAR-10上，GHN-2的概括功能特别强，Resnet-50的准确率为58.6％。

　　在这两个图像数据集上，在DEEPNETS-1M的所有测试子集中，GHN-2明显好于GHN-1。在某些情况下，绝对增益超过20％，例如BN无网络36.8％和13.7％（表3）。

　　计算图的结构是GHN的关键特征。当GHN-2被GHN-2 GatedGnn替换时，ID（甚至OOD）体系结构的准确性从66.9％下降到42.2％。

　　与迭代优化方法相比，GHN-2预测参数的准确性类似于CIFAR-10和Imagenet上SGD的2500和5,000次迭代。

　　相比之下，GHN-1的性能类似于迭代仅约500次到2000次（表4中未显示）。

　　消融实验（表5）表明第4节中提出的所有三个组件都很重要。

　　表5：CIFAR-10上的IDOMIAL GHN-2，计算所有ID和OOD测试体系结构中模型的平均排名

　　总而言之：GHN-2是一个图神经网络优化器，可以训练秒数所需的AI模型。与经典优化器相比，它可以节省计算能力和时间。即使未优化模型，也可以用作良好的初始化手段。

　　参考链接：

　　https://arxiv.org/pdf/2110.13100.pdf

　　https://twitter.com/borisaknyazev/status/1452813952719761416

　　lei feng.com

　　报告/反馈

主页 > 新闻中心 > 公司动态 >

使用AI替换SGD？无需训练重新设备