AOI,在线AOI,离线AOI，高精度AOI

机器视觉（AOI）深度学习之简化学习

发布时间：2021-05-18

机器视觉（AOI）深度学习之简化学习

模型的规模，尤其是在 NLP 领域（深度学习研究的中心），正在大幅增长。最新的 GPT-3 模型有 1750 亿个参数。把它和 BERT 比较就像把木星和蚊子比较一样（并不夸张）。未来，深度学习的模型会更大吗？
很可能不会。诚然，GPT-3 非常强大，但历史一再表明，“成功的科学”是那些对人类影响最大的科学。当学术偏离现实太远时，通常会淡出人们的视线。这就是神经网络在 20 世纪末期被短暂遗忘的原因，因为可用的数据太少了，以至于这个想法，无论多么巧妙，都是没用的。
GPT-3 是另一种语言模型，它可以写出令人信服的文本。它的应用在哪里？是的，它可以生成查询的答案。不过，还有更高效的方法来实现这一点（例如，遍历一个知识图，并使用一个更小的模型如 BERT 来输出答案）。
考虑到计算能力的枯竭，GPT-3 的庞大规模（更不用说更大的模型）似乎是不可行的，或者是不必要的。
“摩尔定律有点过时了。”——微软首席执行官 Satya Nadella
相反，我们正在走向一个嵌入式人工智能的世界，智能冰箱可以自动订购食品杂货，无人机可以自行导航飞遍整个城市。强大的机器学习方法应该能够下载到个人电脑、手机和小型芯片上。
这就需要轻量级人工智能：在保持性能的同时使神经网络更小。
事实证明，在深度学习研究中，几乎所有的东西都与直接或间接地减少必要参数的数量有关，而这又与提高泛化能力和性能紧密相关。例如，卷积层的引入大大减少了神经网络处理图像所需的参数数量。递归层在使用相同权值的同时融入了时间的概念，使得神经网络能够以更少的参数更好地处理序列。
嵌入层显式地将实体映射到具有物理意义的数值，这样负担就不会落在其他参数上。有一种解释说，Dropout 层在对输入的某些部分进行操作时会显式地屏蔽参数。L1/L2 正则化确保网络利用了所有的参数，而且每个参数都不会太大，并最大化了每个参数的信息价值。
随着专用层的建立，网络对更复杂、更大数据的要求越来越少。其他最新方法明确地寻求简化网络。
神经网络剪枝试图去除对网络输出没有价值的突触和神经元。通过剪枝，网络可以在去除大部分网络节点的情况下保持其性能。
其他方法，如 Patient Knowledge Distillation，可以将大型语言模型压缩成可下载到用户手机上的形式。对于支撑谷歌翻译的谷歌神经机器翻译（GNMT）系统来说，这种考虑是有必要的，该系统需要创建一个能够离线访问的高性能翻译服务。
本质上讲，简化学习以部署为中心进行设计。这就是为什么大多数关于简化学习的研究都来自于公司的研究部门。以部署为中心的设计不能盲目地遵循数据集上的性能指标，而要关注模型部署时的潜在问题。
例如，前面提到的对抗性输入是设计用来欺骗网络的恶意输入。可以用喷漆或贴纸来欺骗自动驾驶汽车，使其远远超过限速。负责任的简化学习不仅是使模型足够轻量化，而且要确保它能够适应数据集中没有表示出的极端情况。
在深度学习研究中，简化学习得到的关注最少，因为“我们成功地在可行的架构规模下实现了良好的性能”远不如“我们利用一个拥有无数参数的架构实现了最先进的性能”那么吸引人。

不可避免地，当对更高百分比的追求消失时，正如创新的历史所显示的那样，简化学习——实际上就是实用的学习——将得到更多它应该得到的关注。

郑重声明：
1、部分内容来源于网络，本文版权归原作者所有，转载文章仅为传播更多信息之目的。
2、本文仅供学术交流，非商用。如果某部分不小心侵犯了大家的利益，请联系删除。

上一篇：机器视觉（AOI）智能制造中的计算机视觉应用瓶颈问题下一篇：机器视觉（AOI）深度学习之复合学习