Gespeichert in:
| Hauptverfasser: | Li, Liuzhuozheng, Gong, Yue, Liu, Shanyuan, Jiang, Dengyang, Wang, Zanyi, Cheng, Bo, Ma, Yuhang, Wu, Leibucha, Leng, Dawei, Yin, Yuhui |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2511.00956 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
CTA-Flux: Integrating Chinese Cultural Semantics into High-Quality English Text-to-Image Communities
von: Gong, Yue, et al.
Veröffentlicht: (2025)
von: Gong, Yue, et al.
Veröffentlicht: (2025)
NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer
von: Liu, Shanyuan, et al.
Veröffentlicht: (2025)
von: Liu, Shanyuan, et al.
Veröffentlicht: (2025)
FLUX-Makeup: High-Fidelity, Identity-Consistent, and Robust Makeup Transfer via Diffusion Transformer
von: Zhu, Jian, et al.
Veröffentlicht: (2025)
von: Zhu, Jian, et al.
Veröffentlicht: (2025)
NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers
von: Ma, Yuhang, et al.
Veröffentlicht: (2025)
von: Ma, Yuhang, et al.
Veröffentlicht: (2025)
HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation
von: Cheng, Bo, et al.
Veröffentlicht: (2024)
von: Cheng, Bo, et al.
Veröffentlicht: (2024)
Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities
von: Liu, Shanyuan, et al.
Veröffentlicht: (2023)
von: Liu, Shanyuan, et al.
Veröffentlicht: (2023)
Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
von: Wang, Zanyi, et al.
Veröffentlicht: (2025)
von: Wang, Zanyi, et al.
Veröffentlicht: (2025)
Unlocking the Potential of Grounding DINO in Videos: Parameter-Efficient Adaptation for Limited-Data Spatial-Temporal Localization
von: Wang, Zanyi, et al.
Veröffentlicht: (2026)
von: Wang, Zanyi, et al.
Veröffentlicht: (2026)
U-StyDiT: Ultra-high Quality Artistic Style Transfer Using Diffusion Transformers
von: Zhang, Zhanjie, et al.
Veröffentlicht: (2025)
von: Zhang, Zhanjie, et al.
Veröffentlicht: (2025)
RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing
von: Gong, Yue, et al.
Veröffentlicht: (2026)
von: Gong, Yue, et al.
Veröffentlicht: (2026)
RevealLayer: Disentangling Hidden and Visible Layers via Occlusion-Aware Image Decomposition
von: Wang, Binhao, et al.
Veröffentlicht: (2026)
von: Wang, Binhao, et al.
Veröffentlicht: (2026)
PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models
von: He, Runze, et al.
Veröffentlicht: (2025)
von: He, Runze, et al.
Veröffentlicht: (2025)
Exploring Time Conditioning in Diffusion Generative Models from Disjoint Noisy Data Manifolds
von: Li, Liuzhuozheng, et al.
Veröffentlicht: (2026)
von: Li, Liuzhuozheng, et al.
Veröffentlicht: (2026)
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation
von: Wang, Jing, et al.
Veröffentlicht: (2025)
von: Wang, Jing, et al.
Veröffentlicht: (2025)
Distribution Matching Distillation Meets Reinforcement Learning
von: Jiang, Dengyang, et al.
Veröffentlicht: (2025)
von: Jiang, Dengyang, et al.
Veröffentlicht: (2025)
IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities
von: Wang, Bin, et al.
Veröffentlicht: (2024)
von: Wang, Bin, et al.
Veröffentlicht: (2024)
AffordanceSAM: Segment Anything Once More in Affordance Grounding
von: Jiang, Dengyang, et al.
Veröffentlicht: (2025)
von: Jiang, Dengyang, et al.
Veröffentlicht: (2025)
Qihoo-T2X: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Any-Task
von: Wang, Jing, et al.
Veröffentlicht: (2024)
von: Wang, Jing, et al.
Veröffentlicht: (2024)
RefRef: A Synthetic Dataset and Benchmark for Reconstructing Refractive and Reflective Objects
von: Yin, Yue, et al.
Veröffentlicht: (2025)
von: Yin, Yue, et al.
Veröffentlicht: (2025)
LMM-Det: Make Large Multimodal Models Excel in Object Detection
von: Li, Jincheng, et al.
Veröffentlicht: (2025)
von: Li, Jincheng, et al.
Veröffentlicht: (2025)
TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP
von: Li, Fan, et al.
Veröffentlicht: (2025)
von: Li, Fan, et al.
Veröffentlicht: (2025)
No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves
von: Jiang, Dengyang, et al.
Veröffentlicht: (2025)
von: Jiang, Dengyang, et al.
Veröffentlicht: (2025)
SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training
von: Wang, Mengmeng, et al.
Veröffentlicht: (2026)
von: Wang, Mengmeng, et al.
Veröffentlicht: (2026)
RzenEmbed: Towards Comprehensive Multimodal Retrieval
von: Jian, Weijian, et al.
Veröffentlicht: (2025)
von: Jian, Weijian, et al.
Veröffentlicht: (2025)
RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning
von: Liu, Xiao, et al.
Veröffentlicht: (2025)
von: Liu, Xiao, et al.
Veröffentlicht: (2025)
Professor Ton Willemse
von: Chiara Noli, et al.
Veröffentlicht: (2025)
von: Chiara Noli, et al.
Veröffentlicht: (2025)
RefXVC: Cross-Lingual Voice Conversion with Enhanced Reference Leveraging
von: Zhang, Mingyang, et al.
Veröffentlicht: (2024)
von: Zhang, Mingyang, et al.
Veröffentlicht: (2024)
FG-CLIP: Fine-Grained Visual and Textual Alignment
von: Xie, Chunyu, et al.
Veröffentlicht: (2025)
von: Xie, Chunyu, et al.
Veröffentlicht: (2025)
FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model
von: Xie, Chunyu, et al.
Veröffentlicht: (2025)
von: Xie, Chunyu, et al.
Veröffentlicht: (2025)
MultiRef: Controllable Image Generation with Multiple Visual References
von: Chen, Ruoxi, et al.
Veröffentlicht: (2025)
von: Chen, Ruoxi, et al.
Veröffentlicht: (2025)
RefCut: Interactive Segmentation with Reference Guidance
von: Lin, Zheng, et al.
Veröffentlicht: (2025)
von: Lin, Zheng, et al.
Veröffentlicht: (2025)
Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
von: Li, Chengzu, et al.
Veröffentlicht: (2026)
von: Li, Chengzu, et al.
Veröffentlicht: (2026)
RefSR-Adv: Adversarial Attack on Reference-based Image Super-Resolution Models
von: Dai, Jiazhu, et al.
Veröffentlicht: (2026)
von: Dai, Jiazhu, et al.
Veröffentlicht: (2026)
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM
von: Zong, Zhuofan, et al.
Veröffentlicht: (2024)
von: Zong, Zhuofan, et al.
Veröffentlicht: (2024)
UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing
von: Wei, Hongyang, et al.
Veröffentlicht: (2026)
von: Wei, Hongyang, et al.
Veröffentlicht: (2026)
Practical token pruning for foundation models in few-shot conversational virtual assistant systems
von: Qi, Haode, et al.
Veröffentlicht: (2024)
von: Qi, Haode, et al.
Veröffentlicht: (2024)
RefTok: Reference-Based Tokenization for Video Generation
von: Fan, Xiang, et al.
Veröffentlicht: (2025)
von: Fan, Xiang, et al.
Veröffentlicht: (2025)
RefAlign: Representation Alignment for Reference-to-Video Generation
von: Wang, Lei, et al.
Veröffentlicht: (2026)
von: Wang, Lei, et al.
Veröffentlicht: (2026)
RefSTAR: Blind Facial Image Restoration with Reference Selection, Transfer, and Reconstruction
von: Yin, Zhicun, et al.
Veröffentlicht: (2025)
von: Yin, Zhicun, et al.
Veröffentlicht: (2025)
RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes
von: Sun, Zhichao, et al.
Veröffentlicht: (2025)
von: Sun, Zhichao, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
CTA-Flux: Integrating Chinese Cultural Semantics into High-Quality English Text-to-Image Communities
von: Gong, Yue, et al.
Veröffentlicht: (2025) -
NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer
von: Liu, Shanyuan, et al.
Veröffentlicht: (2025) -
FLUX-Makeup: High-Fidelity, Identity-Consistent, and Robust Makeup Transfer via Diffusion Transformer
von: Zhu, Jian, et al.
Veröffentlicht: (2025) -
NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers
von: Ma, Yuhang, et al.
Veröffentlicht: (2025) -
HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation
von: Cheng, Bo, et al.
Veröffentlicht: (2024)