:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Zhang, Yang, Zhang, Rui, Nie, Xuecheng, Li, Haochen, Chen, Jikun, Hao, Yifan, Zhang, Xin, Liu, Luoqi, Li, Ling
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2409.01327
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

DA-Mamba: Learning Domain-Aware State Space Model for Global-Local Alignment in Domain Adaptive Object Detection
von: Li, Haochen, et al.
Veröffentlicht: (2026)

DA-Ada: Learning Domain-Aware Adapter for Domain Adaptive Object Detection
von: Li, Haochen, et al.
Veröffentlicht: (2024)

OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models
von: Kong, Zhe, et al.
Veröffentlicht: (2024)

Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation
von: Xia, Ruihao, et al.
Veröffentlicht: (2024)

MTADiffusion: Mask Text Alignment Diffusion Model for Object Inpainting
von: Huang, Jun, et al.
Veröffentlicht: (2025)

Semantic Score Distillation Sampling for Compositional Text-to-3D Generation
von: Yang, Ling, et al.
Veröffentlicht: (2024)

MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation
von: Jiang, Jiaxiu, et al.
Veröffentlicht: (2024)

Draw Like an Artist: Complex Scene Generation with Diffusion Model via Composition, Painting, and Retouching
von: Liu, Minghao, et al.
Veröffentlicht: (2024)

Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis
von: Miao, Boming, et al.
Veröffentlicht: (2024)

Text-to-image Diffusion Models in Generative AI: A Survey
von: Zhang, Chenshuang, et al.
Veröffentlicht: (2023)

TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models
von: Xiang, Qianlong, et al.
Veröffentlicht: (2026)

DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation
von: Lin, Hongbin, et al.
Veröffentlicht: (2025)

Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model
von: Zhang, Hao, et al.
Veröffentlicht: (2024)

CopyrightMeter: Revisiting Copyright Protection in Text-to-image Models
von: Xu, Naen, et al.
Veröffentlicht: (2024)

One-Shot Diffusion Mimicker for Handwritten Text Generation
von: Dai, Gang, et al.
Veröffentlicht: (2024)

All-in-One Slider for Attribute Manipulation in Diffusion Models
von: Ye, Weixin, et al.
Veröffentlicht: (2025)

Disciplined Diffusion: Text-to-Image Diffusion Model against NSFW Generation
von: Zhang, Chi, et al.
Veröffentlicht: (2026)

TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs
von: Zhang, Zijian, et al.
Veröffentlicht: (2025)

Temporal-Conditional Referring Video Object Segmentation with Noise-Free Text-to-Video Diffusion Model
von: Zhang, Ruixin, et al.
Veröffentlicht: (2025)

CountDiffusion: Text-to-Image Synthesis with Training-Free Counting-Guidance Diffusion
von: Li, Yanyu, et al.
Veröffentlicht: (2025)

Self-Prompting Diffusion Transformer for Open-Vocabulary Scene Text Editing via In-Context Learning
von: Li, Hongxi, et al.
Veröffentlicht: (2026)

Unraveling MMDiT Blocks: Training-free Analysis and Enhancement of Text-conditioned Diffusion
von: Li, Binglei, et al.
Veröffentlicht: (2026)

MIND: Multi-Scale Intent Diffusion for Text-Driven Physics-Based Humanoid Control
von: Li, Bin, et al.
Veröffentlicht: (2026)

Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models
von: Zhang, Yang, et al.
Veröffentlicht: (2024)

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts
von: Han, Yucheng, et al.
Veröffentlicht: (2024)

Contextualized Diffusion Models for Text-Guided Image and Video Generation
von: Yang, Ling, et al.
Veröffentlicht: (2024)

Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization
von: Li, Feifei, et al.
Veröffentlicht: (2025)

Boosting 3D Object Detection with Semantic-Aware Multi-Branch Framework
von: Jing, Hao, et al.
Veröffentlicht: (2024)

Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models
von: Yang, Zeyu, et al.
Veröffentlicht: (2024)

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation
von: Chen, Chen, et al.
Veröffentlicht: (2025)

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models
von: Li, Bozhou, et al.
Veröffentlicht: (2025)

GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation
von: Shi, Junyu, et al.
Veröffentlicht: (2025)

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control
von: Han, Minghao, et al.
Veröffentlicht: (2025)

Anti-Tamper Protection for Unauthorized Individual Image Generation
von: Li, Zelin, et al.
Veröffentlicht: (2025)

Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation
von: Dai, Gang, et al.
Veröffentlicht: (2025)

DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer
von: Jiang, Junpeng, et al.
Veröffentlicht: (2025)

Multi-Text Guided Few-Shot Semantic Segmentation
von: Jiao, Qiang, et al.
Veröffentlicht: (2025)

Semantic-Guided Diffusion Model for Single-Step Image Super-Resolution
von: Liu, Zihang, et al.
Veröffentlicht: (2025)

SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation
von: Li, Wei, et al.
Veröffentlicht: (2025)

BlazeBVD: Make Scale-Time Equalization Great Again for Blind Video Deflickering
von: Qiu, Xinmin, et al.
Veröffentlicht: (2024)