百度360必应搜狗淘宝本站头条
当前位置:网站首页 > SEO教程 > 正文

效果超过SGD和Adam,谷歌大脑的「神经网络优化器搜索」自动找到更好的训练优化器

gaoyangw 2024-11-01 12:17 18 浏览 0 评论

雷锋网 AI 科技评论按:谷歌大脑近期放出了一篇论文「Neural Optimizer Search with Reinforcement Learning」(强化学习的神经网络优化器搜索),用强化学习的方法为神经网络(尤其是深度学习)找到最佳的优化算法/权重更新规则。论文并没有重新制造轮子,但也取得了不错的效果,而且也引起了一定的关注。雷锋网 AI 科技评论把论文内容简介如下。

要成功训练一个深度学习模型,选择一个适当的优化方法是非常重要的。虽然随机梯度下降法(SGD)通常可以一上手就发挥出不错的效果,不过 Adam 和 Adagrad 这样更先进的方法可以运行得更快,尤其是在训练非常深的网络时。然而,为深度学习设计优化方法是一件非常困难的事情,因为优化问题的本质是非凸问题。

在这篇论文中,谷歌大脑的研究员们讨论了一种方案,它可以自动设计优化方法中的权重更新规则,尤其是对于深度学习架构。这个方案的重点是使用了一个RNN结构的控制器,这个控制器可以给优化器生成权重更新方程。这个RNN结构的控制器是通过强化学习的方式训练的,一个具体的网络结构用它生成的更新规则进行同样次数的训练后,可以把模型准确率最大化。这个过程如下图。

神经网络优化器搜索的总体架构

训练神经网络很慢、很困难,之前有许多人设计了各种各样的方法。近期的优化方法结合了随机方法和批量方法的特点,比如用mini-batch,跟SGD类似,但是实现了更多的启发式方法来估计二阶对角信息,就和无黑塞方法(Hessian-free)或者L-BFGS类似。这样吸收了两种方法优点的方案通常在实际问题中有更快的收敛速度,比如 Adam 就是一个深度学习中常用的优化器,实现了简单的启发式方法来估计梯度的均值和变化幅度,从而能够在训练中更加稳定地更新权重。

之前的许多权重更新规则都借鉴了凸函数分析中的想法,虽然神经网络中的优化问题是非凸的。近期通过非单调学习速率的启发式方法得到的经验结果表明,在神经网络的训练方面我们仍然知之甚少,还有许多非凸优化的方法可以用来改进训练过程。

谷歌大脑的研究员们的研究目标是在人们已经熟悉的领域内为神经网络训练找到更好的更新规则。换句话说,他们没打算靠自己重新建立一套全新的更新规则,而是用机器学习算法在现有的更新规则中找到比较好用的。最近也有研究人员提出类似的方法,用模型学习生成更新数值。这里的关键区别是,谷歌大脑的这项研究是为权重更新生成数学形式的方程,而不是直接生成数值。生成一个方程的主要好处是可以轻松地迁移到更大的任务中,而无需为新的优化问题额外训练别的神经网络。而且,虽然他们设计这个方法的目的不是为了优化更新规则的内存占用的,不过还是能够在得到与 Adam 或者 RMSProp 等同的更新规则的情况下占用更少的内存。

论文中的方法受到了近期用强化学习做模型探索的研究的启发,尤其是在神经网络结构搜索上,其中用了一个 RNN 生成神经网络架构的设置文本。除了把这些关键思想用在不同的应用中,论文中的方法还展现出了一种全新的模式,把原有的输入以灵活得多的方法组合起来,从而让搜索新型的优化器变得可能。

控制器 RNN的总体结构。控制器会迭代选择长度为5的子序列。它首先选择前两个操作数和两个一元函数来应用操作数,然后用一个二进制函数合并两个一元函数的输出。获得的结果b就可以被下一轮子序列选中作为预测,或者成为更新规则。每次的预测都是由一个softmax分类器执行的,最后成为下一轮迭代的输入。

根据论文中的实验结果,在用 CIFAR-10 训练一个小型的卷积网络中,他们的方法比 Adam、RMSProp、带或者不带 Momentum 的 SGD 找到了许多条更好的更新规则,而且这些生成的更新公式中很多都可以轻松地迁移到新的模型架构或者数据集中使用。比如,在小型卷积网络训练中发现的权重更新规则在Wide ResNet 的训练中取得了比 Adam、RMSProp、带或者不带 Momentum 的 SGD 更好的结果。 对于 ImageNet 数据集,他们新找到的更新规则在目前最先进的移动设备级别模型的 top-1 和 top-5 正确率基础上继续提升了最高 0.4%。同样的更新规则在谷歌的神经机器翻译系统上也取得了不错的成果,在WMT 2014 英文到德文的翻译任务中最高能带来0.7BLEU的提升。

更多详细内容参见原论文:https://arxiv.org/abs/1709.07417。雷锋网 AI 科技评论编译

相关推荐

企业宣传册该怎么做?超级干货,制作教程戳这里

公司宣传册做得好,可以进一步展示企业文化,为企业树立一个良好的形象,促进企业的发展。那么应该怎样才能把企业宣传册做得好?...

GIF动图怎么制作?教你3个好用的制作方法

GIF的全称为GraphicsInterchangeFormat,可译为图像互换格式,我们一般也称它为动图,它是一种位图图形文件格式,以8位色(即256种颜色)重现真彩色的图像。...

提前三天教你们python制作万能抢购神器,学不会就准备过光棍节吧

目录前言:分析(x0)...

别不信,我用一张图就能搞定一整份PPT,还能被领导夸一句

很多人在制作PPT的时候,都一定会从素材网站里找很多图片,来做背景或者插图。那么你有没有想过,如果时间不够用,而且你只有一张图,该怎么办?这个问题,看完这篇文章你立马就能解决!而且我还把文中超级炫酷的...

如何制作网站落地页?

落地页是什么?就是当你打开一个网页时,你第一眼所见到的界面就是网站的落地页面(登录页面)。落地页也称“着陆页”,是指访问者在其他地方看到发出的某个具有明确主题的特定营销活动,点击后被链接到你网站上的第...

整点不一样的网站制作教程,教你怎么用网站模板制作网站#...

网站制作教程整点不一样的网站。不要再问我网站制作教程了,今天给你整个怎么用网站模板制作网站的教程。·1、登录账号进入后台。·2、选择模板。自助建站平台通常提供各种各样的网站模板,可以根据自己的需求和喜...

图文教程:免费注册.PW顶级域名和免费制作一个企业网站

当你看到这篇文章的时候,肯定第一反应是“天下没有免费的午餐”。哪有那么便宜的事情,免费给你注册一个.PW顶级域名,而且还送一个企业网站。会有什么猫腻呢?笔者告诉你,猫腻就是耐思尼克想要让更多的人接触到...

作为数据分析师,学会这4个chatgpt使用技巧,根本不担心被取代!

上文给简单聊了一下为什么ChatGPT不能取代数据分析师,本文我们来深入感受一下如何让GPT帮助数据分析师“提效...

16种常用的数据分析方法-典型相关分析

CCA典型相关分析(canonicalcorrelationanalysis)从总体上把握两组指标之间的相关关系,分别提取两组变量有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组...

推荐几款可视化数据分析工具

数据是一座待挖掘的金矿。进入数据大爆炸时代,各种数据据呈现爆发式增长,越来越多的人将通过数据来寻求事物背后规律的解答。不管是以往专业性的数据挖掘工具还是如今集成一体的数据可视化工具,都见证着数据分析发...

网站运营需要哪些数据支持,如何对数据进行有效分析?

网站运营需要哪些数据支持这个问题是比较泛的,为什么这么说呢?在我们运营一个网站的时候,我们面对的不同行业和不同业务,所需要的数据也都不一样的。比如我们运营一个旅游网站,我们需要用户的行为数据,网站的...

独家揭秘:人为峰如何玩转网站流量的大数据分析

当网站建设好后,很多客户可能就放在一边,其访问量不知道各个企业是否有关注与做数据分析呢?网站设计及建设后我们的最终目的是希望其网站正式上线后能带来更多的流量,并转换成销量。人为峰网络营销除了可以提...

全套新媒体数据分析表

编辑:正兴资料君(关注我,每天领福利)今日分享:...

机器学习第五发:BS教你如何解析网页,规整数据?

现在越来越多的应用和互联网产品做内容的聚合,像今日头条、等等,太多的聚合应用以及不胜枚举,甚至浏览器也可以嵌入聚合的应用。互联网上拥有太多太多的数据,抓取网页的数据做数据挖掘也是最廉价的获取数据的途径...

今日头条网站数据分析

今日头条是大家最熟悉的新媒体平台,也是拥有大量自媒体作者的平台,很受网友欢迎,那么我们从seo角度去分析这个平台网站数据,看看是不是我们想象的那么完美。下面是查询今日头条网站的结果:提炼一下,总结以下...

取消回复欢迎 发表评论: