:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Chen, Bowen, Zhao, Mengyi, Sun, Haomiao, Chen, Li, Wang, Xu, Du, Kang, Wu, Xinglong
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2506.21416
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

DiVE: DiT-based Video Generation with Enhanced Control
par: Jiang, Junpeng, et autres
Publié: (2024)

MaterialPicker: Multi-Modal DiT-Based Material Generation
par: Ma, Xiaohe, et autres
Publié: (2024)

DiT4Edit: Diffusion Transformer for Image Editing
par: Feng, Kunyu, et autres
Publié: (2024)

What Semantics Survive the Connector? Diagnosing VLM-to-DiT Alignment in Video Editing
par: Lin, Hangyu, et autres
Publié: (2026)

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
par: Feng, Haoran, et autres
Publié: (2025)

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation
par: Chen, Chen, et autres
Publié: (2025)

OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration
par: Sun, Ruitong, et autres
Publié: (2025)

U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers
par: Tian, Yuchuan, et autres
Publié: (2024)

LaVin-DiT: Large Vision Diffusion Transformer
par: Wang, Zhaoqing, et autres
Publié: (2024)

RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
par: Zhou, Jingkai, et autres
Publié: (2025)

Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE
par: Shi, Yangming, et autres
Publié: (2026)

$Δ$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers
par: Chen, Pengtao, et autres
Publié: (2024)

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation
par: Zhao, Lin, et autres
Publié: (2026)

SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer
par: Zhu, Rui, et autres
Publié: (2024)

DiTalker: A Unified DiT-based Framework for High-Quality and Speaking Styles Controllable Portrait Animation
par: Feng, He, et autres
Publié: (2025)

MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs
par: He, Xianglong, et autres
Publié: (2025)

Insert Anything: Image Insertion via In-Context Editing in DiT
par: Song, Wensong, et autres
Publié: (2025)

Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
par: Chen, Lei, et autres
Publié: (2024)

DiT-JSCC: Rethinking Deep JSCC with Diffusion Transformers and Semantic Representations
par: Tan, Kailin, et autres
Publié: (2026)

Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding
par: Li, Zhimin, et autres
Publié: (2024)

VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers
par: Zheng, Jun, et autres
Publié: (2024)

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation
par: Cai, Honghao, et autres
Publié: (2026)

PTQ4DiT: Post-training Quantization for Diffusion Transformers
par: Wu, Junyi, et autres
Publié: (2024)

Remix-DiT: Mixing Diffusion Transformers for Multi-Expert Denoising
par: Fang, Gongfan, et autres
Publié: (2024)

Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping
par: Zhou, Chao, et autres
Publié: (2026)

Untwisting RoPE: Frequency Control for Shared Attention in DiTs
par: Mikaeili, Aryan, et autres
Publié: (2026)

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers
par: Chen, Ruichen, et autres
Publié: (2025)

GenMask: Adapting DiT for Segmentation via Direct Mask Generation
par: Yang, Yuhuan, et autres
Publié: (2026)

LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation
par: Yang, Lianwei, et autres
Publié: (2025)

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT
par: Liu, Dongyang, et autres
Publié: (2025)

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training
par: Tan, Xin, et autres
Publié: (2025)

Cosh-DiT: Co-Speech Gesture Video Synthesis via Hybrid Audio-Visual Diffusion Transformers
par: Sun, Yasheng, et autres
Publié: (2025)

DiT as Real-Time Rerenderer: Streaming Video Stylization with Autoregressive Diffusion Transformer
par: Lyu, Hengye, et autres
Publié: (2026)

Unveiling Redundancy in Diffusion Transformers (DiTs): A Systematic Study
par: Sun, Xibo, et autres
Publié: (2024)

Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT
par: Zhuo, Le, et autres
Publié: (2024)

Shiva-DiT: Residual-Based Differentiable Top-$k$ Selection for Efficient Diffusion Transformers
par: Zhang, Jiaji, et autres
Publié: (2026)

Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer
par: Shao, Ruizhi, et autres
Publié: (2024)

TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis
par: Xie, Yu, et autres
Publié: (2025)

Ortho-Hydra: Orthogonalized Experts for DiT LoRA
par: Ji, Seunghyun
Publié: (2026)

Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
par: Chen, Zhuowei, et autres
Publié: (2025)