:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Chen, Hongyu, Gao, Yiqi, Zhou, Min, Wang, Peng, Li, Xubin, Ge, Tiezheng, Zheng, Bo
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2404.14768
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Differentiable Solver Search for Fast Diffusion Sampling
by: Wang, Shuai, et al.
Published: (2025)

RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance
by: Wang, Chengrui, et al.
Published: (2024)

Accelerating Image Generation with Sub-path Linear Approximation Model
by: Xu, Chen, et al.
Published: (2024)

FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution
by: Wang, Shuai, et al.
Published: (2024)

DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
by: Song, Tianhui, et al.
Published: (2025)

T-Stars-Poster: A Framework for Product-Centric Advertising Image Design
by: Chen, Hongyu, et al.
Published: (2025)

Rethinking Scribble-Guided Image Editing: Generalization, Instruction Adherence, and Multi-Tasking
by: Xu, Mingyi, et al.
Published: (2026)

PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering
by: Gao, Yifan, et al.
Published: (2025)

TBStar-Edit: From Image Editing Pattern Shifting to Consistency Enhancement
by: Fang, Hao, et al.
Published: (2025)

Hierarchical Masked 3D Diffusion Model for Video Outpainting
by: Fan, Fanda, et al.
Published: (2023)

Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation
by: Li, Weijie, et al.
Published: (2024)

Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization
by: Shen, Liao, et al.
Published: (2025)

Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
by: Chen, Yang, et al.
Published: (2025)

RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference via Masked Token-Guided Visual Token Pruning
by: Xu, Jingqi, et al.
Published: (2025)

Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation
by: Hao, Chao, et al.
Published: (2026)

PEO: Training-Free Aesthetic Quality Enhancement in Pre-Trained Text-to-Image Diffusion Models with Prompt Embedding Optimization
by: Margaryan, Hovhannes, et al.
Published: (2025)

CF-Font: Content Fusion for Few-shot Font Generation
by: Wang, Chi, et al.
Published: (2023)

Prompt-Guided Image Editing with Masked Logit Nudging in Visual Autoregressive Models
by: El-Ghoussani, Amir, et al.
Published: (2026)

ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models
by: Wu, Mingrui, et al.
Published: (2024)

MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion
by: Zhan, Zechao, et al.
Published: (2024)

Beyond Point-Wise Matching: Structural Representation Alignment for Accelerating Diffusion Transformers
by: Xu, Shaodong, et al.
Published: (2026)

Decoupling Training-Free Guided Diffusion by ADMM
by: Zhang, Youyuan, et al.
Published: (2024)

Edit-GRPO: A Locality-Preserving Policy Optimization Framework for Image Editing
by: Xu, Shaodong, et al.
Published: (2026)

ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation
by: Peng, Bo, et al.
Published: (2023)

CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion
by: Sun, Yiming, et al.
Published: (2026)

SceneBooth: Diffusion-based Framework for Subject-preserved Text-to-Image Generation
by: Chai, Shang, et al.
Published: (2025)

AtomoVideo: High Fidelity Image-to-Video Generation
by: Gong, Litong, et al.
Published: (2024)

Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision
by: Yan, Weicai, et al.
Published: (2025)

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control
by: Long, Zeqian, et al.
Published: (2025)

Training-Free Sketch-Guided Diffusion with Latent Optimization
by: Ding, Sandra Zhang, et al.
Published: (2024)

Instruction-Guided Visual Masking
by: Zheng, Jinliang, et al.
Published: (2024)

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks
by: Ye, Junliang, et al.
Published: (2025)

GOOD: Training-Free Guided Diffusion Sampling for Out-of-Distribution Detection
by: Gao, Xin, et al.
Published: (2025)

Enhancing Medical Visual Grounding via Knowledge-guided Spatial Prompts
by: Gao, Yifan, et al.
Published: (2026)

Token Painter: Training-Free Text-Guided Image Inpainting via Mask Autoregressive Models
by: Jiang, Longtao, et al.
Published: (2025)

Precise Action-to-Video Generation Through Visual Action Prompts
by: Wang, Yuang, et al.
Published: (2025)

Beyond and Free from Diffusion: Invertible Guided Consistency Training
by: Hsu, Chia-Hong, et al.
Published: (2025)

Diffusion-Guided Mask-Consistent Paired Mixing for Endoscopic Image Segmentation
by: Jie, Pengyu, et al.
Published: (2025)

PiCo: Enhancing Text-Image Alignment with Improved Noise Selection and Precise Mask Control in Diffusion Models
by: Xie, Chang, et al.
Published: (2025)

SEDiT: Mask-Free Video Subtitle Erasure via One-step Diffusion Transformer
by: Hui, Zheng, et al.
Published: (2026)