使用AI替换SGD?无需训练重新设备

来源:未知作者:admin 日期:2023/01/27 10:47 浏览:

  向前 - 到脑的通信可以预测几乎所有神经网络的参数。我们更接近由单个美元模型代替的优化器来替换手动设计。

  汇编杏花

  编辑青木

  只有一个向前传播,该地图神经网络或元模型可以预测图像分类模型的所有参数。有了它,无需等待梯度降低和收敛!

  Guilff大学论文的Boris Knyazev介绍了Meta模型可以预测Resnet-50的所有2400万参数,而该Resnet-50将在未经任何培训的情况下达到CIFAR-10的近60%的准确率。本质尤其是该模型几乎适用于任何神经网络。

  基于这个结果,作者向我们发送了一个灵魂问题:将来您是否仍然需要SGD或Adam来训练神经网络?

  “我们距离单个毛额模型更近一步,可以替换手动设计。元模型可以预测向前 - 通信中几乎所有神经网络的参数。”

  令人惊讶的是,在培训期间,这种元模型尚未收到任何类似网络的网络(作为培训数据)。

  该元模型的成本非常宽,不仅是Resnet-50,还可以预测RESNET-101,RESNET-152,Wide-Resnets,Visual Transformers的所有参数。不仅CIFAR-10,而且即使在像Imagenet这样的大规模数据集上,它也可以带来良好的结果。

  同时,效率也非常好。元模型可以在平均小于1秒内预测给定网络的所有参数。即使在CPU上,其性能也是如此迅速!

  但是,毕竟,世界上没有免费的午餐”,因此,当元模型预测其他不同类型的体系结构时,预测的参数不准确(有时可能是随机的)。一般而言,训练分布越远(请参见图中的绿色框架),预测结果越糟。

  但是,即使预测参数的网络分类的准确性很差,也不要失望。

  我们仍然可以将其用作具有良好初始化参数的模型,并且我们不需要像过去那样使用随机初始化。 “我们可以在这种迁移学习中受益,尤其是在较少的样本学习任务中。”

  作者还说,“作为神经网络的粉丝”,他们特别选择了GNN作为形而上学模型。该模型是基于Chris Zhan,Mengye Ren和Raquel Urtasun发表的ICLR 2019论文提出的。

  论文地址:https://arxiv.org/abs/1810.05749

  在他们的基础上,作者开发并培训了一种新的GHN-2,该模型具有更好的概括功能。

  简而言之,在多个体系结构上更新GHN参数并正确标准化了预测参数,改善地图中的远程交互并改善收敛性至关重要。

  为了训练GHN-2,作者引入了神经体系结构数据SET-DEEPNETS-1M。

  该数据集分为三个部分:培训集,验证集和测试集。此外,他们还使用更广泛,更深,更密集和非返回的网络进行分发测试。

  作者补充说,DeepNets-1M可以用作不同地图神经网络(GNN)基准测试的良好测试平台。 “使用我们的pytorch代码,插入任何GNN(而不是我们的门控GNN)应该非常简单。”

  除了求解参数预测任务和网络初始化外,GHN-2还可以用于神经体系结构搜索。网络。”

  本文已发表在2021年Neurips上,研究人员来自公会大学,多伦多大学媒介人工智能研究所,Cifar,Fair和McGill University。

  论文地址:https://arxiv.org/pdf/2110.13100.pdf

  该项目也是开源的,快点崇拜这个神经网络优化器!

  项目地址:https://github.com/facebookresearch/ppuda

  1个模型详细说明

  考虑到大规模标记数据集(例如ImageNet)训练深神网络的问题,可以正式将此问题变成给定神经网络的最佳参数W。

  通过迭代优化算法(例如SGD和ADAM)来最小化损耗函数。这些算法收敛到架构A的性能参数W_P。

  尽管在提高训练速度和融合方面取得了进展,但在大型机器学习管道中,W_P的采集仍然是一种瓶颈。

  例如,ImageNet上的培训Resnet-50可能需要大量的GPU时间。

  随着网络的持续增长和重复训练的存在(例如超级参数或体系结构搜索),获得W_P的过程在计算中变得不可持续。

  对于新的参数预测任务,在优化新体系结构A的参数时,典型的优化器将忽略过去优化其他网络获得的经验。

  但是,过去经验的使用可能是减少迭代优化的关键,从而减少高计算需求。

  为了朝这个方向发展,研究人员提出了一项新任务,即使它通过单个高清进行了单个前进向前 - 向上进行优化。

  为了解决此任务,HD将使用过去的其他网络的知识。

  例如,我们考虑CIFAR-10和Imagenet图像分类数据集D,其中测试集的性能是测试图像分类的准确性。

  让高清知道如何优化其他网络的一种简单方法是在[架构,参数]的大型训练集上进行训练。但是,这一过程的困难是令人难以置信的。

  因此,研究人员遵循元学习中常见的双层层优化范式,也就是说,无需迭代M任务,但是会在单个任务(例如图像分类)上迭代M训练体系结构。

  图0:GHN原始体系结构的概述。答:随机采样神经网络体系结构以生成GHN。 B:在图形传输后,GHN中的每个节点都会生成其自己的权重参数。 C:通过训练GHN,用称重重的采样网络的训练损失最小化。根据生成网络的性能进行排序。资料来源:https://arxiv.org/abs/1810.05749

  通过优化,Ultra -Network HD逐渐获得了如何预测训练体系结构的性能参数的知识,然后可以在测试过程中使用这些知识。

  为此,设计架构空间F和高清。

  对于F,基于现有神经系统架构设计空间的研究人员,我们通过两种方式扩展了它们:对不同的体系结构和扩展设计空间进行采样的能力,包括多个架构,例如重新NET和Visual Transformers。

  可以在计算图的形式中以完整的描述描述此体系结构(图1)。

  因此,为了设计Ultra -Network HD,研究机器学习的最新进展将取决于。

  特别是,研究人员的解决方案基于图形超网(GHNS)方法。

  通过设计各种建筑空间F并改善了GHN,GHN-2预测该体系结构在CIFAR-10和Imagenet上没有看到,图像识别的准确率将提高到77%(TOP-1)和48%(前5个5(前5名(前5名(前5名)(前5名(前5名(前5个)至。

  令人惊讶的是,GHN-2显示出良好的分布外部化。例如,对于比训练浓度更大,更深的架构,它也可以预测良好的参数。

  例如,GHN-2可以在不到1秒钟内预测GPU或CPU上的所有2400万参数,达到CIFAR-10的准确率约为60%,没有梯度更新(图1、1,1,1, 1、1、1、1、1、1、1,(b))。

  通常,框架和结果为培训网络打开了一个新的,更有效的范式。

  本文的贡献如下:

  (a)介绍使用单个Ultra -Network前 - 方向预测的新任务来预测不同的饲料神经网络;

  (b)介绍DeepNets-1M数据集,这是一个标准化基准测试,其中具有内部和分布式数据的数据,用于跟踪任务;

  (c)定义了几个基础线,并提出了GHN-2模型,该模型在CIFAR-10和Imagenet上出人意料地显示(第5.1节);

  (d)元模型了解神经网络体系结构的良好表示,并且对初始化的神经网络很有用。

  图1:GHN模型的概述

  上面的图1(a)(a)显示了GHN模型的概述(有关详细信息,请参见第4节)。基于给定的图像数据集和DeepNets-1M架构数据集,GHN模型通过反向通信训练以预测图像分类模型本质的参数

  研究人员对香草GHN的主要改进包括元批次,虚拟边缘,参数归一化等。

  其中,仅在训练GHN时才使用元批次,而虚拟边缘则将参数归一化用于训练和测试。 A1的视觉计算图如表1所示。

  图1(b)比较了RESNET-50的所有参数的分类精度,以分类的分类精度,用于分类的精度。尽管自动预测参数获得的网络精度远低于手动培训网络,但它可以用作良好的初始化方法。

  2实验:参数预测

  尽管GHN-2从未观察到测试体系结构,但GHN-2预测了它们的良好参数,使测试网络在两个图像数据集上的性能令人惊讶(表3和表4)。

  表3:DeepNets-1M中GHN-2的不稳定ID和OOD架构的预测参数(CIFAR-10)

  表4:基于GHN-1,GHN-2,MLP在DEEPNETS-1M上的形而上学模型的结果,以及使用SGD和ADAM优化器训练分类器(Imagenet数据集)的结果

  其中,CIFAR-10上的结果特别突出。一些预测的参数体系结构的准确性达到77.1%,而使用SGD训练50时期的最佳精度约为15%。

  GHN-2甚至在Imagenet上显示出良好的结果。其中,对于某些架构,最多可占前5个准确性的48.3%。

  尽管这些结果对于直接下游应用不足,但由于三个主要原因,它们非常有意义。

  首先,它不取决于SGD培训体系结构F的昂贵过程。

  其次,GHN依靠单个前向来扩展以预测所有参数。

  第三,对于包括OOD体系结构在内的难以置信的体系结构获得了这些结果。即使没有严重分布(例如Resnet-506)和网络不足(例如VIT7),GHN-2仍然可以预测具有比随机参数更好的性能的参数。

  在CIFAR-10上,GHN-2的概括功能特别强,Resnet-50的准确率为58.6%。

  在这两个图像数据集上,在DEEPNETS-1M的所有测试子集中,GHN-2明显好于GHN-1。在某些情况下,绝对增益超过20%,例如BN无网络36.8%和13.7%(表3)。

  计算图的结构是GHN的关键特征。当GHN-2被GHN-2 GatedGnn替换时,ID(甚至OOD)体系结构的准确性从66.9%下降到42.2%。

  与迭代优化方法相比,GHN-2预测参数的准确性类似于CIFAR-10和Imagenet上SGD的2500和5,000次迭代。

  相比之下,GHN-1的性能类似于迭代仅约500次到2000次(表4中未显示)。

  消融实验(表5)表明第4节中提出的所有三个组件都很重要。

  表5:CIFAR-10上的IDOMIAL GHN-2,计算所有ID和OOD测试体系结构中模型的平均排名

  总而言之:GHN-2是一个图神经网络优化器,可以训练秒数所需的AI模型。与经典优化器相比,它可以节省计算能力和时间。即使未优化模型,也可以用作良好的初始化手段。

  参考链接:

  https://arxiv.org/pdf/2110.13100.pdf

  https://twitter.com/borisaknyazev/status/1452813952719761416

  lei feng.com

  报告/反馈