比Transformer更好，无Attention、MLPs的BERT、GPT反而更强了-ゆきしまときこ(幸島登喜子)网

休闲: 比Transformer更好，无Attention、MLPs的BERT、GPT反而更强了
时间：2010-12-5 17:23:32 作者：休闲来源：百科查看：评论：0
内容摘要：本文探究了 Monarch Mixer (M2) ，这是一种在序列长度以及模子维度上都是次二次的新架构，而且在今世减速器上具备很高的硬件功能。从 BERT、GPT 以及 Flan-T5 等语言模子到
本文探究了 Monarch Mixer (M2) ，更好更强这是更好更强一种在序列长度以及模子维度上都是次二次的新架构，而且在今世减速器上具备很高的更好更强硬件功能。
从 BERT 、更好更强GPT 以及 Flan-T5 等语言模子到 SAM 以及 Stable Diffusion 等图像模子，更好更强Transformer 正以所向无敌之势席卷这个天下，更好更强但人们也不禁会问：Transformer 是更好更强仅有抉择吗？
斯坦福大学以及纽约州立大学布法罗分校的一个钻研团队不光为这一下场给出了招供谜底，而且还提出了一种新的更好更强替换技术：Monarch Mixer。克日，更好更强该团队在 arXiv 宣告了相关论文以及一些魔难点模子及磨炼代码。更好更强顺带一提，更好更强该论文已经落选 NeurIPS 2023 并取患上 Oral Presentation 资历。更好更强
论文地址：https://arxiv.org/abs/2310.12109
代码地址：https://github.com/HazyResearch/m2
该措施去掉了 Transformer 中高老本的更好更强留意力以及 MLP，代之以富裕展现力的更好更强 Monarch 矩阵，使之在语言以及图像试验中以更低的更好更强老本取患了更优的展现。
这并非斯坦福大学第一次提出 Transformer 的替换技术。往年六月该校的另一个团队还曾经提出过一种名为 Backpack 的技术，参阅机械之心文章《斯坦福磨炼 Transformer 替换模子：1.7 亿参数，能除了偏、可控可批注性强》。尽管，这些技术要取患上真正的乐成，还需要钻研社区的进一步魔难并在运用开拓者手中酿成着实好用的产物。
下面咱们看看这篇论文中对于 Monarch Mixer 的介绍以及一些试验服从。
论文介绍
在做作语言处置以及合计机视觉规模，机械学习模子已经能处置更长的序列以及更高维度的表征，从而反对于更长的高下文以及更高的品质。可是，现有架构的光阴以及空间重大性在序列长度以及 / 或者模子维度上呈二次削减方式，这会限度高下文长度并提升扩展老本。举个例子，Transformer 中的留意力以及 MLP 会随序列长度以及模子维度呈二次扩展方式。
针对于这一下场，斯坦福大学以及纽约州立大学布法罗分校的这个钻研团队宣称找到了一种高功能的架构，其庞漂亮随序列长度以及模子维度的削减是次二次的（sub-quadratic）。
他们的钻研灵感来自 MLP-mixer 以及 ConvMixer；这两项钻研审核到：良多机械学习模子的运作方式都是沿序列以及模子维度轴对于信息妨碍混合，而且它们每一每一对于两个轴运用了单个算子。
追寻展现力强、次二次且硬件功能高的混合算子的难度很大。举个例子，MLP-mixer 中的 MLP 以及 ConvMixer 中的卷积都颇具展现力，但它们都市随输入维度二次扩展。近期有一些钻研提出了一些次二次的序列混合措施，这些措施运用了较长的卷积或者形态空间模子，而且它们都市用到 FFT ，但这些模子的 FLOP 运用率很低而且在模子维度方面依然是二次扩展。与此同时，不损品质的浓密密集 MLP 层方面也有一些颇具后劲的妨碍，但由于硬件运用率较低，某些模籽实际上可能还比密集模子更慢。
基于这些灵感，这个钻研团队提出了 Monarch Mixer (M2)，其运用到了一类富裕展现力的次二次妄想化矩阵：Monarch 矩阵。
Monarch 矩阵是一类泛化了快捷傅立叶变更（FFT）的妄想化矩阵，而且钻研表明其涵盖了规模普遍的线性变更，搜罗哈达玛变更、托普利兹矩阵、AFDF 矩阵以及卷积。它们可经由火块对于角矩阵的积妨碍参数化，这些参数被称为 Monarch 因子，与部署交织。
它们的合计是次二次扩展的：假如将因子的数目设为 p，则当输入长度为 N 时，合计庞漂亮为
6胜3负，NBA四巨头豪阵回归！伦纳德眼光精准，76人却有苦难言
 重回巅峰！曝沙特资本收购AC米兰！豪掷3.3亿欧引援，三顶星来投

最近更新

2024-11-02 18:25:40
原创热火助教再出手：埃里克-格拉斯为哈克斯的成长加速
2024-11-02 18:25:40
拜仁为凯恩第二次开价8000万镑誓今夏带他到德甲
2024-11-02 18:25:40
文森特有很大可能性会回归热火，双方都有
2024-11-02 18:25:40
湖人官宣！里夫斯八村落垒获先天报价两人正式成为受限逍遥球员
2024-11-02 18:25:40
狂胜50分，独行侠不留情面！爆砍40+10+11，东契奇追击哈登非洲一女孩因颜值太高，被载入吉尼斯纪录，父亲雇保镖护送上学
2024-11-02 18:25:40
中国女篮挺进四强仍吐露三下场
2024-11-02 18:25:40
湖人官宣！里夫斯八村落垒获先天报价两人正式成为受限逍遥球员
2024-11-02 18:25:40
替补上场险成罪人，张外龙爱将在申花难立足，恐被吴金贵打入冷宫15岁失身，24岁只身赴港拍“三级片”，陈萍是个什么样的女人？

热门排行

2024-11-02 18:25:40
布里奇斯32+6 特雷-杨30+9 穆雷准三双篮网险胜老鹰
2024-11-02 18:25:40
NBA | 斯玛特被送至灰熊凯尔特人夺冠拼图有变董洁反穿瑜伽裤直播被疑擦边？身材干瘪似老太婆，怕尴尬闪躲镜头
2024-11-02 18:25:40
金珉载和哈里·凯恩在德甲拜仁慕尼黑队并肩作战的可能性增加
2024-11-02 18:25:40
场均28.7分，战绩6胜0负！魔术师、科比之后，新时代的西决之王官宣！交易签约达成，勇士双喜临门，湖人好消息，2.6亿垃圾合同
2024-11-02 18:25:40
44分惨案诞生！湖人淘汰鹈鹕！詹姆斯迎里程碑，浓眉16分15板四川14岁少年满脸纹身被父亲驱逐家门，找不到工作，如今怎样了
2024-11-02 18:25:40
骑士将切迪
2024-11-02 18:25:40
西部巨变！9人4队大生意妄想：怯夫坚持格林，湖人四巨头降生
2024-11-02 18:25:40
湖记：除了席菲诺外湖人在选秀大会上的另一个目的是科比

友情链接