安信9平台用户注册入口:Xue Dingzheng的AI模型:暂时无法打开盒子,但是钱

来源:未知作者:admin 日期:2023/01/19 18:47 浏览:

  电动风扇和空肥皂盒的故事,您听说过吗?

  有传言说,国际知名的快速消费者工厂引入了肥皂包装生产线。发现该生产线在包装肥皂的过程中存在缺陷,也就是说,通常有盒子没有装入肥皂中。他们不得将空盒子出售给客户,因此他们邀请了一个计划,将空肥皂盒分类为博士,以便在户后进行博士。leifeng.com

  博士后立即召集了一支由十几个人组成的技术团队,以全面采用机械,自动化,微电子,X射线检测和其他技术,诸如耗资900,000的技术。最后,成功制定了计划。集成检测器,每当检测到肥皂盒时,它都会驱动机器人将空的肥皂盒推开。

  可以说,这是解决实际工业问题的技术着陆界的重要突破。

  巧合的是,同时,中国南部的一家乡镇企业也购买了同一条生产线。老板发现这个问题后,他很热。一位来工厂的小工人说:“来思考解决这个问题的方法。”受压力强迫,这位小工人很快提出了一个很棒的计划:他花了190元为190元人民币,我在肥皂包装生产线旁边买了一个高能力的电风扇。生产线转弯后,它就开始吹来。一旦出现空肥皂盒,它就会被吹走。 leifeng.com

  这位小工人,一个小工人,通过他的机智和创造力迅速解决了这个问题,并实现了一个大目标,在行业中经常说:降低成本和效率。

  智力在技术中的含义,行业中情报的含义无非是这两个口号:一个是省钱,另一个是提高效率。但是,在近年来,在AI的发展中,似乎违反了资本法的这种“怪异”现象:无论是学术还是工业,无论是大公司还是小公司,无论是私人公司或一项由国家资助的研究研究,私营公司或国家基金研究的研究庭院正在花费大型的“精炼”模型。

  结果,圆圈中有两种声音:一个声音说,大型模型表现出强大的性能和各种任务的潜力。将来,它必须是人工智能的发展方向。目前,这项投资用于未来。准备机会,值得数亿(或更多)培训。换句话说,抓住大型模型的高地和高成本投资的主要矛盾是主要矛盾。

  另一种声音说,在AI技术着陆的实际过程中,当前大型模型的全面吹捧不仅抢夺了小型模型和其他AI方向的研究资源,而且由于高投资成本,它在解决实际工业方面具有成本效益问题。低,在数字化转型的巨大背景下,不可能使更多和中等规模的企业受益。

  换句话说,“经济是否可用”和“强大能力”构成了AI算法的两个主要重点,以解决实际问题。如今,该行业已经达成共识:将来,AI将成为一种“电力”,使各行各业能够赋予各行各业。因此,从AI的大型登陆的角度来看,哪一个对大型模型和小型模型更好?该行业真的考虑过吗? leifeng.com

  1.“大”模型来了

  近年来,高频词汇的声音出现了大型高频词汇:大型词汇:大型模型(大型模型)。

  比赛开始了外国技术巨头。在Google在2018年推出了大规模培训语言模型BERT之后,Bert开设了大型型号,OpenAI在2019年和2020年推出了GPT-2和GPT-3。在2021年,Google并没有落后,而是压倒性的参数绝大多数。前开关变压器...

  SO值模型的主要测量指标是模型参数的大小。模型的“大”是指大量参数。

  例如,BERT的参数在2018年达到3亿元。在最高水平测试Squad1.1的两个测量指标中,最高水平的最高测试的两个测量指标已全面超过了人类,该指标已超过了人类,并在11种不同的NLP测试中达到了SOTA性能,包括包括SOTA性能,包括包括SOTA性能,包括SOTA,包括将胶水基准推向80.4%(绝对改善的7.6%),MultinLi准确度达到86.7%(绝对改善了5.6%(绝对提高了5.6%) ),显示出提高AI算法性能的能力。 leifeng.com

  OpenAI推出的GPT-2参数达到15亿,GPT-3参数的数量首次超过1000亿,达到1750亿。 Google于2021年1月发布的Switch Transformer首次达到了万亿,参数为1.6万亿。

  面对这一点,由大型国内工厂甚至政府资助建立的研究机构都不愿落后,他们依次启动了他们的结果:2021年4月,Alida的大学发布了中国培训前语言模型“插头”,参考的数量为270亿; 4月,华为和彭昌实验室共同发行了“ pangu”α,其中有2000亿元人民币; 6月,北京Zhiyuan人工智能研究所发行了“ Epon Dao 2.0”,9月份的参考文献为1.75万亿元,Baidu释放了Plato-X,Plato-X,柏拉图X,数以万计。

  到去年10月,Alida学院发布了“ M6-10T”,参数已达到10万亿,这是中国最大的AI模型。尽管它不如Ali好,但Baidu不愿意追求模型的参数。彭昌联合实验室(United Pengcheng Labs)以2600亿元人民币的段落发行了“百度·韦克林(Baidu Wenxin)”,比柏拉图X大10倍。

  腾讯还说,他们已经开发了一个大型模型“ paya star”,但是参数尚不清楚。除了吸引了很多关注的AI R&D工厂外,主要的国内模型研发主要力量还包括计算功率提供者的浪潮。去年10月,他们发布了一个大型型号“源1.0”,其中许多达到2457亿。总而言之,2021年可以称为中国“大型模型”的第一年。

  到今年,大型模型仍然很热。一开始,大型模型集中在计算语言领域,但现在它已逐渐扩展到视觉,决策,应用,甚至是主要科学问题,例如蛋白质预测,航空航天等。参数少于1亿的AI模型没有声音。

  毫无疑问,无论是超越还是扩展任务,AI模型都表明了固有的潜力,为学术和行业带来了无限的想象力。

  一些研究实验表明,数据和参数的增加可以有效地提高模型解决问题的准确性。以Google在2021年发布的视觉迁移模型为例,使用了18,291个类别中1,000个类别的128万张图片和3亿张图片的3亿张图片进行培训。该模型的准确性可以从77%提高到79%。

  以Google今年推出的5400亿参数单向语言模型手掌,它基于Google今年发布的新生成AI框架途径,该途径不仅超过了1750亿个细微的GPT-3,而且还增加了。显著地。在七个算术应用程序/常识推理数据集上,有4个超过了当前的SOTA(如下),只有8个样本(即收集的数据)。

  视觉是对语言是智能的看法,但是两者在“因果推理”的融合方面并没有太大突破,而因果推理的能力对于AI系统的发展非常重要。可以这样理解:基于1+1 = 2,孩子可以获得100+100 = 200的简单能力,但是对于机器系统来说,它非常复杂,因为该系统缺乏因果关系推理的想象。如果机器甚至没有合理的推理能力/想象力,那么我们将从科幻电影中的智能精湛机器人的开发中脱颖而出。大型模型的出现使得通用人工智能(AGI)的实施成为可能。

  因此,我们可以看到大公司促进了一个大型模型,通常强调它可以同时解决多个任务,并在多个任务基准上达到SOTA(当前最高级别)。例如,Google的5400亿个参数语言大型Palm Palm今年可以解释笑话,还可以通过表情符号表达方式猜测电影。 Zhiyuan推出的“ Wu Dao 2.0”可以孵化Qinqi,书法和绘画,以及熟练的虚拟学生Hua Zhibing。

  简而言之,大型模型通常具有一个特征:多功能和多努力。这对于解决复杂场景的挑战至关重要。

  “小型模型的参数数量很小,仅限于单个任务;大型模型(优势)就像人们学会打乒乓球时学到的知识。在任务之间存在概括。面对新任务,模型可能需要成千上万的培训数据,大型模型只需要一个培训数据,甚至不需要培训数据。技术评论。

  以对话系统的研究为例。对话系统主要分为两类:一个是任务-Type对话,用户发行任务,自动执行AI系统,快速预订门票,购买电影票等。另一个是公开对话,例如电影,例如“她” “(她)虚构的机器人可以与人类交流,甚至让用户感到情感上的陪伴。其中,后者的能力水平显然更高,而研发更加困难。前面的雾很重,您不知道会面临什么样的挑战。目前,丰富的“功能”和新任务的出色性能显然比小型模型更好。

  Lan Zhenzhong指出,学术和行业界的现有AI研究人员尚未完全掌握大型模型的特征。例如,从上一代GPT-3到这一代的GPT的指示,我们可以看到它具有定性的飞跃,但它也是一个很大的模型,但是在接受命令时,Instronct GPT效果要好得多。这是他们在他们中的位置。只有在研究大型模型时才能经历。

  AI模型的性能发生了什么变化?这是一个科学问题,需要 - 深度探索。因此,有必要继续投资大型模型。

  2.理想很远,现实非常接近

  如果人类想取得进步,那么某人必须永远勇敢。

  但是,在现实世界中,并不是每个人都能负担得起星空之海的理想,越来越多的人只想以一种很好的方式解决面前的问题。最终分析,AI算法必须考虑技术研发的输入输出比。目前,大型模型的缺点开始暴露。

  一个不可忽视的残酷事实是:大型模型的计算很慢,训练成本非常高。

  一般而言,模型的参数越大,机器运行速度越慢,并且计算成本越高。根据外国媒体披露,Openai在GPT-3上花费了近500万美元(3500万元),参数为1750亿美元。 Google在培训含有5400亿参数的手掌时使用6144个TPU。根据热情的网民统计数据,培训棕榈的成本在900至1700万美元之间。这只是计算能力的成本。

  国内主要工厂尚未披露其培训模型的经济成本,但是根据全球共享的现有计算方法和资源,计算支出不应遥不可及。 GPT-3和Palm都只有1000亿个水平,达到万亿或更高的大型模型具有惊人的成本投资。如果大型工厂足够慷慨地进行研发,那么大型模型的投资成本不是“大片”,但是由于当前的资本对AI越来越谨慎,因此某些初创公司和政府投资的一些研究机构强烈押注大型模型。看起来有点神奇。

  大型模型对计算能力的高需求使企业之间的技术实力竞争成为了金钱的竞争。从长远来看,一旦算法成为高消费者的产品,它注定要享受一些人的最切割的AI,从而导致围栏的垄断情况。换句话说,即使有一天,通用人工智能也确实出现了,并且不能使所有用户受益。

  同时,在这条赛道上,小型企业的创新将被挤压。为了制作大型榜样,小公司要么与大型工厂合作,然后站在巨人的肩膀上(但这不是每个小工厂都能做的事情),要么投资并为库做准备在冬天,这是不切实际的)。

  计算输入后,然后计算输出。不幸的是,大型模型中没有一家公司透露了经济利益的创造。但是,可以从公众信息中知道这些大型模型已经开始彼此解决问题。例如,在Alida Academy发布了数万亿个参数M6之后,它说其图像生成能力可以是模型设计设计的辅助汽车设计师。 M6文案写作能力的文案也已用于移动淘宝,支架和Ali小米。

  对于开始阶段的大型模型,重要的是要强调短期回报。但是,我们仍然必须回答这样一个问题:是商业界还是学术界,当押注大型模型时,这是将来可能会成为技术方向。问题?前者具有强大的学术探索色彩,而后者是工业前锋应用AI技术解决该问题的问题。

  大型模型始于Google的发布Bert。这是一个混乱的想法:在BERT实验之前,Google Brain的技术团队没有围绕已知的真实问题开发模型。最大(3亿)AI模型可以带来重大改善。同样,当Openai模仿Google对GPT-2和GPT-3的开发时,没有具体的任务。取而代之的是,在成功开发后,每个人都测试了任务对GPT-3的影响,并发现所有指标都得到了改善。它被惊呆了。今天的GPT-3就像一个平台,该平台已配备了数千份用户的应用程序。

  但是,随着时间的流逝,大型模型的发展仍然不可避免地回到解决某个问题的最初意图。例如,Meta今年发布的大型ESMFOLD的蛋白质预测以及Baidu的大型航空航天模型最近发布。如果一开始的大型模型(例如GPT-3)主要是探索参数数量增加对算法性能的影响,则纯粹是“未知的指导未知”,那么当前的大型模型研究开始反映相对相对相对较大的模型。明确的目标:是解决实际问题和创业价值。

  目前,大型模型的开发指导从研究人员的意愿转变为用户的需求。在某些非常小的需求(例如牌照识别)中,大型模型也可以解决问题,但是由于其昂贵的培训成本,这有点“用牛刀杀死猪”,而且性能不一定是出色的。换句话说,如果数千万成本可以提高几个点的准确性,那么成本绩效似乎极低。

  一位行业内部人士告诉Leifeng.com-AI技术评论说,在大多数情况下,我们研究了一项技术来解决某个已知的实际问题,您可以设计一项特殊的工作要学习。 “小型模型”的影响很容易比大型模型(例如GPT-3)更好。即使在某些特定的任务中,大型模型也“根本不可用”。

  因此,在促进AI的发展过程中,大型模型和小型模型的组合是不可避免的。由于大型模型的研发阈值极高,因此负责承担AI的大规模着陆,将来可以看到肉眼可见的,因此可以可用的小型模型和精确罢工是主要力量。

  即使是一些正在研究大型模型的科学家安信9平台用户注册入口,他们也清楚地告诉Leifeng.com-AI技术评论说,尽管大型模型可以同时执行许多任务,但“谈论GM人工智能还为时过早。”大型模型可能是实现最终目标的重要方法,但是理想是很远的。 AI仍然必须首先见到礼物。

  3. AI模型是否必须变得越来越大?

  实际上,为了回应AI模型的日益现象,学术和工业界的一些研究人员注意到了他们在着陆方面的优势和缺点,并积极启动了响应策略。

  如果您想说技术如何改变社会,给出了什么样的灵感,那么重要的是:如何减少技术产品的阈值(就技术或成本而言),以便更多的人可以享受该技术的好处可以扩大其影响力。

  在大型模型中,核心矛盾是如何提高训练速度,降低训练成本或提出新结构。

  从仅调用计算资源的角度来看,大型模型的困境实际上并不突出。今年6月底,公开工程联盟于今年6月底发布的MLPERF基准标准发布的最新培训结果表明,今年的机器学习系统的训练速度几乎是去年的两倍,它是通过摩尔的定律打破了(每18-24个月翻一番)。

  实际上,随着各种服务器的更新迭代以及云计算等新方法的出现,计算已经加速,能源消耗也在减少。例如,GPT-3仅发布了两年。现在,Meta开发的OPT模型的计算量已在2020年减少到1/7。此外,最近的文章显示,在2018年,需要数千种GPU培训大型GPU培训。现在,只能在24小时内培训一张卡,并且可以轻松训练普通的实验室。

  获得计算能力的瓶颈不再存在,停止成本的唯一方法是获得成本。

  除了依靠计算能力外,近年来,一些研究人员希望采取不同的方法来实现模型和算法本身的特征,以实现大型模型的“经济可用性”。

  一种方法是以数据为中心。

  最近,DeepMind的工作(训练计算 - 最佳语言模型)成功地探索了,并发现在计算的情况下,模型的训练数据变得更大,而不是放大模型的参数。放大模型的更好效果。

  在这项对DeepMind的研究中,龙猫的700亿参数模型的数据超过了GPT-3的Gopher和GPT-3的2800亿参数和2800亿个参数,并在一系列下游参数中评估任务。 Lan Zhenzhong解释说,Chinchilla能赢的原因是,数据在训练过程中扩展并加倍数据,然后仅计算出数据。

  另一种方法是依靠算法和体系结构的创新来“轻量级”大型模型。

  Microsoft Asia研究所前副总裁兼现任Lanzhou Technology的创始人周明(Zhou Ming)是这首歌的追随者。

  作为一名企业家,周明的想法非常“责任”,这是为了节省金钱。他指出,许多大公司现在正在追求大型模型。一种是争先恐后地争夺,另一个是反映其计算能力,尤其是云服务的能力。作为一家不久之后出生的小型公司,兰州技术公司梦想着创造价值AI,但没有强大的云力量,而且金钱也不够燃烧。 ,将大型模型变成为客户的“轻量级模型”。

  去年7月推出的轻型模型“ Mencius”证明了这一想法的可行性。 “ Mencius”的参数仅为10亿,但是中文理解评估清单上的性能超过了大型模型,例如Bertsg和Pangu,即100亿元人民币甚至1000亿元人民币(如下所示)。该领域的一个共识是,在相同的体系结构下,该模型必须是参数越大,并且性能越好,但是“ Mencius”的创造力在于架构的创新。

  在学术界,加利福尼亚大学,伯克利分校的Ma Yi教授以及Shen Xiangyang and Cao Ying也共同发表了一项研究(“关于重任的简约性和自我持续性的原则”),从理论上讲),理论上的原因为什么大型模型正在越来越大,即,深神网络本质上是一个“开放的环”系统,即分类的训练模型以及样品或替换的训练模型。在这种情况下,它是分开的,从而导致参数的训练效率低,并且只能依靠参数数量和计算能力来提高模型的性能。

  为此,他们提出的“更改”方法更加彻底,也就是说,提倡结合歧视模型和生成模型以形成一个完整的“压缩”封闭环境系统,以便AI模型可以独立学习,并且效率更高,更稳定。面对新环境中可能发生的新问题,适应性和响应能力更强。换句话说,如果AI领域的研究人员可以沿着这条路线开发模型,则该模型的参数级别将大大降低,返回“小而美丽”的道路,以及“解决未知问题”的能力”大型模型也可以实现。本质

  在经济使用方面,甚至还有一种声音可以解决通过Automl或AutoAI的模型培训的难度,减少AI算法的研究阈值,并允许算法工程师或非AI -AI从业人员灵活地创建,以创建需要。单个功能的模型形成了无数的小型模型,即恒星的火,这可能会引起警报。

  从“需求”的角度来看,这种声音反对封闭的门。

  例如,视觉算法用于识别,检测和位置。其中,识别烟雾和烟花对算法的不同要求,然后提供一个平台或工具,使需求者能够快速产生视觉识别烟雾并识别烟火。该算法更高,无需追求交叉景观的“普遍性”或“概括”。目前,大型的国际象棋和书法模型精通,可以分为无数的小型模型,这些模型精通钢琴,国际象棋,书籍和绘画,也可以解决问题。

  4.最后写

  回到电风扇吹空肥皂盒的故事。

  在解决现实问题的AI技术中,大型模型和小型型号就像邮政自动化方案和小型工人的电风扇一样。尽管在解决一个小问题时,前者显得多余而笨重,但效果并不快,但是效果不是快速,但是效果不是快速,但效果不是快速。很少有人会否认博士后及其团队提供的价值,因此不可能“消除”他们。相反,我们甚至可以说数百个理由强调技术研发的合理性。

  但是,在许多情况下,技术研究人员通常会忽略小型工人在解决问题方面的智慧:从实际问题开始,而不是技术的优势。从这个角度来看,大型模型的研究本质上是领先的,但是还必须考虑降低成本和效率的“经济可用”目标。

  回到研究本身,Lan Zhenzhong表示,尽管大型模型的结果很少,但开源很少,并且普通研究人员的访谈受到限制。这是非常遗憾的。

  由于大型模型不是开源的,因此普通用户无法从需求的角度评估大型模型的实用性。实际上,在当前的少数族裔开源​​大型模型中,我们进行了实验,发现语言模型在理解社会道德和情感表现方面具有很高的不稳定性。

  由于它不开放,因此在其自身模型上引入主要工厂也在学者的各种指标上。总之,一切都是最终的说法。

  最后,我希望AI模型确实可以使更多的人受益。

  参考链接:

  https://blog.heim.xyz/palm-training- cost/

  https://arxiv.org/pdf/2203.15556.pdf

  报告/反馈