一个 13 层的 Transformer 能干什么用?模拟基本计算器、基本线性代数库和使用反向传播的 in-context learning 算法都可以。 Transformer 已成为各种机器学习任务的热门选择,并且取得了很好的效果,那它还能怎么用?脑洞大开的研究者竟然想用它来设计可编程计算机!
谷歌研究科学家 David Ha:Transformer 是新的 LSTM。 2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。 在诞生至今不足四年的时间里,Transformer 不仅成为自然语言处理领域的主流模型(基于 Transformer ...
基于NL的观点,谷歌团队使用反向传播和梯度下降训练深度神经网络,本质上是一个压缩与优化问题,其目标是训练一种联想记忆(associative memory),以将各层的输入映射到其预测中对应的局部误差。
嵌套学习突破AI持续学习瓶颈,或开启AGI新时代。 借鉴人类联想记忆,嵌套学习让AI在运行中构建抽象结构,超越Transformer的局限。谷歌团队强调:优化器与架构互为上下文,协同进化才能实现真正持续学习。这篇论文或成经典,开启AI从被动训练到主动进化的 ...