cosFormer阅读笔记 2024-1-08 20:15 | 496 | 0 | Linear Transformer,多姿多彩的Transformer 1342 字 | 6 分钟 cosFormer阅读笔记 论文(ICLR 2022):cosFormer: Rethinking Softmax in Attention Q1 论文试图解决什么问题? 过去的线性Transformer设计中,通常采用核方法近似Softmax,但是近似误差较大。 Q2 这是否是一个新的问题? 不是的。过去已经有了一些Linear Transfor… Linear TransformerTransformer