Enregistré dans:
| Auteurs principaux: | Chen, Bowen, Zhao, Mengyi, Sun, Haomiao, Chen, Li, Wang, Xu, Du, Kang, Wu, Xinglong |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2506.21416 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
DiVE: DiT-based Video Generation with Enhanced Control
par: Jiang, Junpeng, et autres
Publié: (2024)
par: Jiang, Junpeng, et autres
Publié: (2024)
MaterialPicker: Multi-Modal DiT-Based Material Generation
par: Ma, Xiaohe, et autres
Publié: (2024)
par: Ma, Xiaohe, et autres
Publié: (2024)
DiT4Edit: Diffusion Transformer for Image Editing
par: Feng, Kunyu, et autres
Publié: (2024)
par: Feng, Kunyu, et autres
Publié: (2024)
What Semantics Survive the Connector? Diagnosing VLM-to-DiT Alignment in Video Editing
par: Lin, Hangyu, et autres
Publié: (2026)
par: Lin, Hangyu, et autres
Publié: (2026)
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
par: Feng, Haoran, et autres
Publié: (2025)
par: Feng, Haoran, et autres
Publié: (2025)
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation
par: Chen, Chen, et autres
Publié: (2025)
par: Chen, Chen, et autres
Publié: (2025)
OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration
par: Sun, Ruitong, et autres
Publié: (2025)
par: Sun, Ruitong, et autres
Publié: (2025)
U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers
par: Tian, Yuchuan, et autres
Publié: (2024)
par: Tian, Yuchuan, et autres
Publié: (2024)
LaVin-DiT: Large Vision Diffusion Transformer
par: Wang, Zhaoqing, et autres
Publié: (2024)
par: Wang, Zhaoqing, et autres
Publié: (2024)
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
par: Zhou, Jingkai, et autres
Publié: (2025)
par: Zhou, Jingkai, et autres
Publié: (2025)
Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE
par: Shi, Yangming, et autres
Publié: (2026)
par: Shi, Yangming, et autres
Publié: (2026)
$Δ$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers
par: Chen, Pengtao, et autres
Publié: (2024)
par: Chen, Pengtao, et autres
Publié: (2024)
S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation
par: Zhao, Lin, et autres
Publié: (2026)
par: Zhao, Lin, et autres
Publié: (2026)
SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer
par: Zhu, Rui, et autres
Publié: (2024)
par: Zhu, Rui, et autres
Publié: (2024)
DiTalker: A Unified DiT-based Framework for High-Quality and Speaking Styles Controllable Portrait Animation
par: Feng, He, et autres
Publié: (2025)
par: Feng, He, et autres
Publié: (2025)
MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs
par: He, Xianglong, et autres
Publié: (2025)
par: He, Xianglong, et autres
Publié: (2025)
Insert Anything: Image Insertion via In-Context Editing in DiT
par: Song, Wensong, et autres
Publié: (2025)
par: Song, Wensong, et autres
Publié: (2025)
Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
par: Chen, Lei, et autres
Publié: (2024)
par: Chen, Lei, et autres
Publié: (2024)
DiT-JSCC: Rethinking Deep JSCC with Diffusion Transformers and Semantic Representations
par: Tan, Kailin, et autres
Publié: (2026)
par: Tan, Kailin, et autres
Publié: (2026)
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding
par: Li, Zhimin, et autres
Publié: (2024)
par: Li, Zhimin, et autres
Publié: (2024)
VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers
par: Zheng, Jun, et autres
Publié: (2024)
par: Zheng, Jun, et autres
Publié: (2024)
IdGlow: Dynamic Identity Modulation for Multi-Subject Generation
par: Cai, Honghao, et autres
Publié: (2026)
par: Cai, Honghao, et autres
Publié: (2026)
PTQ4DiT: Post-training Quantization for Diffusion Transformers
par: Wu, Junyi, et autres
Publié: (2024)
par: Wu, Junyi, et autres
Publié: (2024)
Remix-DiT: Mixing Diffusion Transformers for Multi-Expert Denoising
par: Fang, Gongfan, et autres
Publié: (2024)
par: Fang, Gongfan, et autres
Publié: (2024)
Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping
par: Zhou, Chao, et autres
Publié: (2026)
par: Zhou, Chao, et autres
Publié: (2026)
Untwisting RoPE: Frequency Control for Shared Attention in DiTs
par: Mikaeili, Aryan, et autres
Publié: (2026)
par: Mikaeili, Aryan, et autres
Publié: (2026)
FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers
par: Chen, Ruichen, et autres
Publié: (2025)
par: Chen, Ruichen, et autres
Publié: (2025)
GenMask: Adapting DiT for Segmentation via Direct Mask Generation
par: Yang, Yuhuan, et autres
Publié: (2026)
par: Yang, Yuhuan, et autres
Publié: (2026)
LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation
par: Yang, Lianwei, et autres
Publié: (2025)
par: Yang, Lianwei, et autres
Publié: (2025)
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT
par: Liu, Dongyang, et autres
Publié: (2025)
par: Liu, Dongyang, et autres
Publié: (2025)
DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training
par: Tan, Xin, et autres
Publié: (2025)
par: Tan, Xin, et autres
Publié: (2025)
Cosh-DiT: Co-Speech Gesture Video Synthesis via Hybrid Audio-Visual Diffusion Transformers
par: Sun, Yasheng, et autres
Publié: (2025)
par: Sun, Yasheng, et autres
Publié: (2025)
DiT as Real-Time Rerenderer: Streaming Video Stylization with Autoregressive Diffusion Transformer
par: Lyu, Hengye, et autres
Publié: (2026)
par: Lyu, Hengye, et autres
Publié: (2026)
Unveiling Redundancy in Diffusion Transformers (DiTs): A Systematic Study
par: Sun, Xibo, et autres
Publié: (2024)
par: Sun, Xibo, et autres
Publié: (2024)
Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT
par: Zhuo, Le, et autres
Publié: (2024)
par: Zhuo, Le, et autres
Publié: (2024)
Shiva-DiT: Residual-Based Differentiable Top-$k$ Selection for Efficient Diffusion Transformers
par: Zhang, Jiaji, et autres
Publié: (2026)
par: Zhang, Jiaji, et autres
Publié: (2026)
Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer
par: Shao, Ruizhi, et autres
Publié: (2024)
par: Shao, Ruizhi, et autres
Publié: (2024)
TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis
par: Xie, Yu, et autres
Publié: (2025)
par: Xie, Yu, et autres
Publié: (2025)
Ortho-Hydra: Orthogonalized Experts for DiT LoRA
par: Ji, Seunghyun
Publié: (2026)
par: Ji, Seunghyun
Publié: (2026)
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
par: Chen, Zhuowei, et autres
Publié: (2025)
par: Chen, Zhuowei, et autres
Publié: (2025)
Documents similaires
-
DiVE: DiT-based Video Generation with Enhanced Control
par: Jiang, Junpeng, et autres
Publié: (2024) -
MaterialPicker: Multi-Modal DiT-Based Material Generation
par: Ma, Xiaohe, et autres
Publié: (2024) -
DiT4Edit: Diffusion Transformer for Image Editing
par: Feng, Kunyu, et autres
Publié: (2024) -
What Semantics Survive the Connector? Diagnosing VLM-to-DiT Alignment in Video Editing
par: Lin, Hangyu, et autres
Publié: (2026) -
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
par: Feng, Haoran, et autres
Publié: (2025)