:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Yang, Chaojie, Li, Tian, Zhang, Yue, Gao, Jun
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2602.17047
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression
by: Shi, Junqi, et al.
Published: (2026)

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
by: Zhang, Zechuan, et al.
Published: (2025)

Efficient Scaling of Diffusion Transformers for Text-to-Image Generation
by: Li, Hao, et al.
Published: (2024)

UniAnimate-DiT: Human Image Animation with Large-Scale Video Diffusion Transformer
by: Wang, Xiang, et al.
Published: (2025)

Scaling Diffusion Transformers Efficiently via $μ$P
by: Zheng, Chenyu, et al.
Published: (2025)

COSMIC: Compress Satellite Images Efficiently via Diffusion Compensation
by: Zhang, Ziyuan, et al.
Published: (2024)

LucidFlux: Caption-Free Photo-Realistic Image Restoration via a Large-Scale Diffusion Transformer
by: Fei, Song, et al.
Published: (2025)

UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers
by: Zhao, Min, et al.
Published: (2025)

General Compression Framework for Efficient Transformer Object Tracking
by: Hong, Lingyi, et al.
Published: (2024)

Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-Resolution
by: Xu, Tianyi, et al.
Published: (2024)

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
by: Image Team, et al.
Published: (2025)

Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image Diffusion Models
by: Pernias, Pablo, et al.
Published: (2023)

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
by: Tong, Shengbang, et al.
Published: (2026)

OmniSelect: Dynamic Modality-Aware Token Compression for Efficient Omni-modal Large Language Models
by: Yang, Morunliu, et al.
Published: (2026)

Scaling Laws For Diffusion Transformers
by: Liang, Zhengyang, et al.
Published: (2024)

Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models
by: Ji, Yicheng, et al.
Published: (2026)

Scaling Learned Image Compression Models up to 1 Billion
by: Li, Yuqi, et al.
Published: (2025)

HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models
by: Kwon, Young D., et al.
Published: (2025)

PICD: Versatile Perceptual Image Compression with Diffusion Rendering
by: Xu, Tongda, et al.
Published: (2025)

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
by: Zhu, Haoyi, et al.
Published: (2026)

EDiT: Efficient Diffusion Transformers with Linear Compressed Attention
by: Becker, Philipp, et al.
Published: (2025)

TCSAFormer: Efficient Vision Transformer with Token Compression and Sparse Attention for Medical Image Segmentation
by: Xia, Zunhui, et al.
Published: (2025)

Dual-Scale Transformer for Large-Scale Single-Pixel Imaging
by: Qu, Gang, et al.
Published: (2024)

Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator
by: Li, Jianze, et al.
Published: (2024)

SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
by: Xie, Enze, et al.
Published: (2024)

Benchmarking and Enhancing VLM for Compressed Image Understanding
by: Zhang, Zifu, et al.
Published: (2025)

CoD: A Diffusion Foundation Model for Image Compression
by: Jia, Zhaoyang, et al.
Published: (2025)

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification
by: Feng, Weilun, et al.
Published: (2025)

DiTFastAttn: Attention Compression for Diffusion Transformer Models
by: Yuan, Zhihang, et al.
Published: (2024)

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
by: Zhuo, Le, et al.
Published: (2025)

Diffusion Model Compression for Image-to-Image Translation
by: Kim, Geonung, et al.
Published: (2024)

A Large-Scale Referring Remote Sensing Image Segmentation Dataset and Benchmark
by: Yang, Zhigang, et al.
Published: (2025)

Hierarchical Separable Video Transformer for Snapshot Compressive Imaging
by: Wang, Ping, et al.
Published: (2024)

Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation
by: Mo, Shentong, et al.
Published: (2024)

Structure-guided Diffusion Transformer for Low-Light Image Enhancement
by: Yin, Xiangchen, et al.
Published: (2025)

CoD-Lite: Real-Time Diffusion-Based Generative Image Compression
by: Jia, Zhaoyang, et al.
Published: (2026)

CC-Pan: Channel-wise Compression based Diffusion for Efficient Pan-Sharpening
by: Li, Junjie, et al.
Published: (2026)

StyleBooth: Image Style Editing with Multimodal Instruction
by: Han, Zhen, et al.
Published: (2024)

Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer
by: Yang, Zhuoyi, et al.
Published: (2024)

Efficient One-Step Diffusion Restoration Model with Compact Token Compression and Linear Attention
by: Qiao, Bingtian, et al.
Published: (2026)