🍥

Rijoshin's notes

昔之善战者，先为不可胜，以待敌之可胜。不可胜在己，可胜在敌。故善战者，能为不可胜，不能使敌之必可胜。激水之疾，至于漂石者，势也；鸷鸟之疾，至于毁折者，节也。

Lab

DiTFastAttn Attention Compression for Diffusion Transformer Models

Screenshot 2025-05-22 at 16.00.14

上海交通大学，清华大学……贵校的呢???

Abstraction

DiT 由于自注意力算子的二次复杂度，面临着计算挑战。

注意力计算中识别出三个关键冗余：

空间冗余，许多注意力头关注局部信息；
时间冗余，相邻步骤的注意力输出之间具有高度相似性；
条件冗余，条件和无条件推理表现出显著相似性。

我们提出三种技术来减少这些冗余：

带有残差共享的窗口注意力以减少空间冗余；
跨时间步长的注意力共享以利用步骤之间的相似性；
跨CFG的注意力共享以在条件生成期间跳过冗余计算。

我们将DiTFastAttn应用于图像生成任务的DiT、PixArt-Sigma，以及视频生成任务的OpenSora。我们的结果表明，对于图像生成，我们的方法将注意力FLOPs减少多达76%，并在高分辨率（2k × 2k）生成中实现了高达1.8倍的端到端加速。

Motivation

怎么发现的

空间维度冗余。许多注意力头主要捕获局部空间信息，对于距离较远的标记的注意力值接近于零。
时间步相近，注意力输出可以非常相似。
条件推理和无条件推理在注意力输出中的相似性。

Screenshot 2025-05-22 at 16.02.25

Methods

为什么这个方法这么做

窗口注意力 + 残差共享
- 🧐：为什么想了这么个招，感觉不显然
Attention Sharing across Timesteps (AST)
Attention Sharing across CFG (ASC)
🧐：怎么实现的这两个share????? 代码

Claim and Evidence

实验有没有支持这个结论，怎么设计的

TODO

Attention Sharing 是个什么玩法
attention map怎么画的，直接灰度图吗

comments powered by Disqus