DiTFastAttn Attention Compression for Diffusion Transformer Models

Screenshot 2025-05-22 at 16.00.14

上海交通大学,清华大学……贵校的呢???

Abstraction

DiT 由于自注意力算子的二次复杂度,面临着计算挑战。

注意力计算中识别出三个关键冗余:

  • 空间冗余,许多 注意力头 关注局部信息;
  • 时间冗余,相邻步骤的注意力输出之间具有高度相似性;
  • 条件冗余,条件和无条件推理表现出显著相似性。

我们提出三种技术来减少这些冗余:

  • 带有残差共享的窗口注意力以减少空间冗余;
  • 跨时间步长的注意力共享以利用步骤之间的相似性;
  • 跨CFG的注意力共享以在条件生成期间跳过冗余计算。

我们将DiTFastAttn应用于图像生成任务的DiT、PixArt-Sigma,以及视频生成任务的OpenSora。我们的结果表明,对于图像生成,我们的方法将注意力FLOPs减少多达76%,并在高分辨率(2k × 2k)生成中实现了高达1.8倍的端到端加速。

Motivation

怎么发现的

  • 空间维度冗余。许多注意力头主要捕获局部空间信息,对于距离较远的标记的注意力值接近于零。
  • 时间步相近,注意力输出可以非常相似。
  • 条件推理和无条件推理在注意力输出中的相似性。

Screenshot 2025-05-22 at 16.02.25

Methods

为什么这个方法这么做

  • 窗口注意力 + 残差共享

    • 🧐:为什么想了这么个招,感觉不显然
  • Attention Sharing across Timesteps (AST)Screenshot 2025-05-22 at 16.19.07

  • Attention Sharing across CFG (ASC)Screenshot 2025-05-22 at 16.19.24

  • 🧐:怎么实现的这两个share????? 代码

Claim and Evidence

实验有没有支持这个结论,怎么设计的

TODO

  • Attention Sharing 是个什么玩法
  • attention map怎么画的,直接灰度图吗
comments powered by Disqus
Built with Hugo
Theme Stack designed by Jimmy
发表了41篇文章 · 总计29.72k字