
上海交通大学,清华大学……贵校的呢???
Abstraction
DiT 由于自注意力算子的二次复杂度,面临着计算挑战。
注意力计算中识别出三个关键冗余:
- 空间冗余,许多 注意力头 关注局部信息;
- 时间冗余,相邻步骤的注意力输出之间具有高度相似性;
- 条件冗余,条件和无条件推理表现出显著相似性。
我们提出三种技术来减少这些冗余:
- 带有残差共享的窗口注意力以减少空间冗余;
- 跨时间步长的注意力共享以利用步骤之间的相似性;
- 跨CFG的注意力共享以在条件生成期间跳过冗余计算。
我们将DiTFastAttn应用于图像生成任务的DiT、PixArt-Sigma,以及视频生成任务的OpenSora。我们的结果表明,对于图像生成,我们的方法将注意力FLOPs减少多达76%,并在高分辨率(2k × 2k)生成中实现了高达1.8倍的端到端加速。
Motivation
怎么发现的
- 空间维度冗余。许多注意力头主要捕获局部空间信息,对于距离较远的标记的注意力值接近于零。
- 时间步相近,注意力输出可以非常相似。
- 条件推理和无条件推理在注意力输出中的相似性。

Methods
为什么这个方法这么做
-
窗口注意力 + 残差共享
- 🧐:为什么想了这么个招,感觉不显然
-
Attention Sharing across Timesteps (AST)

-
Attention Sharing across CFG (ASC)

-
🧐:怎么实现的这两个share????? 代码
Claim and Evidence
实验有没有支持这个结论,怎么设计的
TODO
- Attention Sharing 是个什么玩法
- attention map怎么画的,直接灰度图吗