AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected] ...
导语:面对长文本,我们需要效率更高的 Transformer! 众所周知,多头注意力机制 (Multi-Head Self-Attention) 的计算开销很大。在处理长度为 n 的序列时,其 O(n²) 的时间复杂度会使得原始的 Transformer 模型难以处理长文本序列。在过去的两年里,已经出现了多种有效的 ...
导语:如何从头开始训练自己的语言模型? 在过去的几周里,我们对 transformers 和 tokenizers 库进行了一些改进,目的是让从头开始训练新的语言模型变得更加容易。 在本文中,我们将演示如何用世界语训练一个「小」模型(84 M,6 个层,768 个隐藏层,12 个注意 ...