向前 - 到脑的通信可以预测几乎所有神经网络的参数。我们更接近由单个美元模型代替的优化器来替换手动设计。
汇编杏花
编辑青木
只有一个向前传播,该地图神经网络或元模型可以预测图像分类模型的所有参数。有了它,无需等待梯度降低和收敛!
Guilff大学论文的Boris Knyazev介绍了Meta模型可以预测Resnet-50的所有2400万参数,而该Resnet-50将在未经任何培训的情况下达到CIFAR-10的近60%的准确率。本质尤其是该模型几乎适用于任何神经网络。
基于这个结果,作者向我们发送了一个灵魂问题:将来您是否仍然需要SGD或Adam来训练神经网络?
“我们距离单个毛额模型更近一步,可以替换手动设计。元模型可以预测向前 - 通信中几乎所有神经网络的参数。”
令人惊讶的是,在培训期间,这种元模型尚未收到任何类似网络的网络(作为培训数据)。
该元模型的成本非常宽,不仅是Resnet-50,还可以预测RESNET-101,RESNET-152,Wide-Resnets,Visual Transformers的所有参数。不仅CIFAR-10,而且即使在像Imagenet这样的大规模数据集上,它也可以带来良好的结果。
同时,效率也非常好。元模型可以在平均小于1秒内预测给定网络的所有参数。即使在CPU上,其性能也是如此迅速!
但是,毕竟,世界上没有免费的午餐”,因此,当元模型预测其他不同类型的体系结构时,预测的参数不准确(有时可能是随机的)。一般而言,训练分布越远(请参见图中的绿色框架),预测结果越糟。
但是,即使预测参数的网络分类的准确性很差,也不要失望。
我们仍然可以将其用作具有良好初始化参数的模型,并且我们不需要像过去那样使用随机初始化。 “我们可以在这种迁移学习中受益,尤其是在较少的样本学习任务中。”
作者还说,“作为神经网络的粉丝”,他们特别选择了GNN作为形而上学模型。该模型是基于Chris Zhan,Mengye Ren和Raquel Urtasun发表的ICLR 2019论文提出的。
论文地址:https://arxiv.org/abs/1810.05749
在他们的基础上,作者开发并培训了一种新的GHN-2,该模型具有更好的概括功能。
简而言之,在多个体系结构上更新GHN参数并正确标准化了预测参数,改善地图中的远程交互并改善收敛性至关重要。
为了训练GHN-2,作者引入了神经体系结构数据SET-DEEPNETS-1M。
该数据集分为三个部分:培训集,验证集和测试集。此外,他们还使用更广泛,更深,更密集和非返回的网络进行分发测试。
作者补充说,DeepNets-1M可以用作不同地图神经网络(GNN)基准测试的良好测试平台。 “使用我们的pytorch代码,插入任何GNN(而不是我们的门控GNN)应该非常简单。”
除了求解参数预测任务和网络初始化外,GHN-2还可以用于神经体系结构搜索。网络。”
本文已发表在2021年Neurips上,研究人员来自公会大学,多伦多大学媒介人工智能研究所,Cifar,Fair和McGill University。
论文地址:https://arxiv.org/pdf/2110.13100.pdf
该项目也是开源的,快点崇拜这个神经网络优化器!
项目地址:https://github.com/facebookresearch/ppuda
1个模型详细说明
考虑到大规模标记数据集(例如ImageNet)训练深神网络的问题,可以正式将此问题变成给定神经网络的最佳参数W。
通过迭代优化算法(例如SGD和ADAM)来最小化损耗函数。这些算法收敛到架构A的性能参数W_P。
尽管在提高训练速度和融合方面取得了进展,但在大型机器学习管道中,W_P的采集仍然是一种瓶颈。
例如,ImageNet上的培训Resnet-50可能需要大量的GPU时间。
随着网络的持续增长和重复训练的存在(例如超级参数或体系结构搜索),获得W_P的过程在计算中变得不可持续。
对于新的参数预测任务,在优化新体系结构A的参数时,典型的优化器将忽略过去优化其他网络获得的经验。
但是,过去经验的使用可能是减少迭代优化的关键,从而减少高计算需求。
为了朝这个方向发展,研究人员提出了一项新任务,即使它通过单个高清进行了单个前进向前 - 向上进行优化。
为了解决此任务,HD将使用过去的其他网络的知识。
例如,我们考虑CIFAR-10和Imagenet图像分类数据集D,其中测试集的性能是测试图像分类的准确性。
让高清知道如何优化其他网络的一种简单方法是在[架构,参数]的大型训练集上进行训练。但是,这一过程的困难是令人难以置信的。
因此,研究人员遵循元学习中常见的双层层优化范式,也就是说,无需迭代M任务,但是会在单个任务(例如图像分类)上迭代M训练体系结构。
图0:GHN原始体系结构的概述。答:随机采样神经网络体系结构以生成GHN。 B:在图形传输后,GHN中的每个节点都会生成其自己的权重参数。 C:通过训练GHN,用称重重的采样网络的训练损失最小化。根据生成网络的性能进行排序。资料来源:https://arxiv.org/abs/1810.05749
通过优化,Ultra -Network HD逐渐获得了如何预测训练体系结构的性能参数的知识,然后可以在测试过程中使用这些知识。
为此,设计架构空间F和高清。
对于F,基于现有神经系统架构设计空间的研究人员,我们通过两种方式扩展了它们:对不同的体系结构和扩展设计空间进行采样的能力,包括多个架构,例如重新NET和Visual Transformers。
可以在计算图的形式中以完整的描述描述此体系结构(图1)。
因此,为了设计Ultra -Network HD,研究机器学习的最新进展将取决于。
特别是,研究人员的解决方案基于图形超网(GHNS)方法。
通过设计各种建筑空间F并改善了GHN,GHN-2预测该体系结构在CIFAR-10和Imagenet上没有看到,图像识别的准确率将提高到77%(TOP-1)和48%(前5个5(前5名(前5名(前5名)(前5名(前5名(前5个)至。
令人惊讶的是,GHN-2显示出良好的分布外部化。例如,对于比训练浓度更大,更深的架构,它也可以预测良好的参数。
例如,GHN-2可以在不到1秒钟内预测GPU或CPU上的所有2400万参数,达到CIFAR-10的准确率约为60%,没有梯度更新(图1、1,1,1, 1、1、1、1、1、1、1,(b))。
通常,框架和结果为培训网络打开了一个新的,更有效的范式。
本文的贡献如下:
(a)介绍使用单个Ultra -Network前 - 方向预测的新任务来预测不同的饲料神经网络;
(b)介绍DeepNets-1M数据集,这是一个标准化基准测试,其中具有内部和分布式数据的数据,用于跟踪任务;
(c)定义了几个基础线,并提出了GHN-2模型,该模型在CIFAR-10和Imagenet上出人意料地显示(第5.1节);
(d)元模型了解神经网络体系结构的良好表示,并且对初始化的神经网络很有用。
图1:GHN模型的概述
上面的图1(a)(a)显示了GHN模型的概述(有关详细信息,请参见第4节)。基于给定的图像数据集和DeepNets-1M架构数据集,GHN模型通过反向通信训练以预测图像分类模型本质的参数
研究人员对香草GHN的主要改进包括元批次,虚拟边缘,参数归一化等。
其中,仅在训练GHN时才使用元批次,而虚拟边缘则将参数归一化用于训练和测试。 A1的视觉计算图如表1所示。
图1(b)比较了RESNET-50的所有参数的分类精度,以分类的分类精度,用于分类的精度。尽管自动预测参数获得的网络精度远低于手动培训网络,但它可以用作良好的初始化方法。
2实验:参数预测
尽管GHN-2从未观察到测试体系结构,但GHN-2预测了它们的良好参数,使测试网络在两个图像数据集上的性能令人惊讶(表3和表4)。
表3:DeepNets-1M中GHN-2的不稳定ID和OOD架构的预测参数(CIFAR-10)
表4:基于GHN-1,GHN-2,MLP在DEEPNETS-1M上的形而上学模型的结果,以及使用SGD和ADAM优化器训练分类器(Imagenet数据集)的结果
其中,CIFAR-10上的结果特别突出。一些预测的参数体系结构的准确性达到77.1%,而使用SGD训练50时期的最佳精度约为15%。
GHN-2甚至在Imagenet上显示出良好的结果。其中,对于某些架构,最多可占前5个准确性的48.3%。
尽管这些结果对于直接下游应用不足,但由于三个主要原因,它们非常有意义。
首先,它不取决于SGD培训体系结构F的昂贵过程。
其次,GHN依靠单个前向来扩展以预测所有参数。
第三,对于包括OOD体系结构在内的难以置信的体系结构获得了这些结果。即使没有严重分布(例如Resnet-506)和网络不足(例如VIT7),GHN-2仍然可以预测具有比随机参数更好的性能的参数。
在CIFAR-10上,GHN-2的概括功能特别强,Resnet-50的准确率为58.6%。
在这两个图像数据集上,在DEEPNETS-1M的所有测试子集中,GHN-2明显好于GHN-1。在某些情况下,绝对增益超过20%,例如BN无网络36.8%和13.7%(表3)。
计算图的结构是GHN的关键特征。当GHN-2被GHN-2 GatedGnn替换时,ID(甚至OOD)体系结构的准确性从66.9%下降到42.2%。
与迭代优化方法相比,GHN-2预测参数的准确性类似于CIFAR-10和Imagenet上SGD的2500和5,000次迭代。
相比之下,GHN-1的性能类似于迭代仅约500次到2000次(表4中未显示)。
消融实验(表5)表明第4节中提出的所有三个组件都很重要。
表5:CIFAR-10上的IDOMIAL GHN-2,计算所有ID和OOD测试体系结构中模型的平均排名
总而言之:GHN-2是一个图神经网络优化器,可以训练秒数所需的AI模型。与经典优化器相比,它可以节省计算能力和时间。即使未优化模型,也可以用作良好的初始化手段。
参考链接:
https://arxiv.org/pdf/2110.13100.pdf
https://twitter.com/borisaknyazev/status/1452813952719761416
lei feng.com
报告/反馈