:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Li, Liuzhuozheng, Gong, Yue, Liu, Shanyuan, Jiang, Dengyang, Wang, Zanyi, Cheng, Bo, Ma, Yuhang, Wu, Leibucha, Leng, Dawei, Yin, Yuhui
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2511.00956
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

CTA-Flux: Integrating Chinese Cultural Semantics into High-Quality English Text-to-Image Communities
von: Gong, Yue, et al.
Veröffentlicht: (2025)

NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer
von: Liu, Shanyuan, et al.
Veröffentlicht: (2025)

FLUX-Makeup: High-Fidelity, Identity-Consistent, and Robust Makeup Transfer via Diffusion Transformer
von: Zhu, Jian, et al.
Veröffentlicht: (2025)

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers
von: Ma, Yuhang, et al.
Veröffentlicht: (2025)

HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation
von: Cheng, Bo, et al.
Veröffentlicht: (2024)

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities
von: Liu, Shanyuan, et al.
Veröffentlicht: (2023)

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
von: Wang, Zanyi, et al.
Veröffentlicht: (2025)

Unlocking the Potential of Grounding DINO in Videos: Parameter-Efficient Adaptation for Limited-Data Spatial-Temporal Localization
von: Wang, Zanyi, et al.
Veröffentlicht: (2026)

U-StyDiT: Ultra-high Quality Artistic Style Transfer Using Diffusion Transformers
von: Zhang, Zhanjie, et al.
Veröffentlicht: (2025)

RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing
von: Gong, Yue, et al.
Veröffentlicht: (2026)

RevealLayer: Disentangling Hidden and Visible Layers via Occlusion-Aware Image Decomposition
von: Wang, Binhao, et al.
Veröffentlicht: (2026)

PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models
von: He, Runze, et al.
Veröffentlicht: (2025)

Exploring Time Conditioning in Diffusion Generative Models from Disjoint Noisy Data Manifolds
von: Li, Liuzhuozheng, et al.
Veröffentlicht: (2026)

WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation
von: Wang, Jing, et al.
Veröffentlicht: (2025)

Distribution Matching Distillation Meets Reinforcement Learning
von: Jiang, Dengyang, et al.
Veröffentlicht: (2025)

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities
von: Wang, Bin, et al.
Veröffentlicht: (2024)

AffordanceSAM: Segment Anything Once More in Affordance Grounding
von: Jiang, Dengyang, et al.
Veröffentlicht: (2025)

Qihoo-T2X: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Any-Task
von: Wang, Jing, et al.
Veröffentlicht: (2024)

RefRef: A Synthetic Dataset and Benchmark for Reconstructing Refractive and Reflective Objects
von: Yin, Yue, et al.
Veröffentlicht: (2025)

LMM-Det: Make Large Multimodal Models Excel in Object Detection
von: Li, Jincheng, et al.
Veröffentlicht: (2025)

TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP
von: Li, Fan, et al.
Veröffentlicht: (2025)

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves
von: Jiang, Dengyang, et al.
Veröffentlicht: (2025)

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training
von: Wang, Mengmeng, et al.
Veröffentlicht: (2026)

RzenEmbed: Towards Comprehensive Multimodal Retrieval
von: Jian, Weijian, et al.
Veröffentlicht: (2025)

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning
von: Liu, Xiao, et al.
Veröffentlicht: (2025)

Professor Ton Willemse
von: Chiara Noli, et al.
Veröffentlicht: (2025)

RefXVC: Cross-Lingual Voice Conversion with Enhanced Reference Leveraging
von: Zhang, Mingyang, et al.
Veröffentlicht: (2024)

FG-CLIP: Fine-Grained Visual and Textual Alignment
von: Xie, Chunyu, et al.
Veröffentlicht: (2025)

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model
von: Xie, Chunyu, et al.
Veröffentlicht: (2025)

MultiRef: Controllable Image Generation with Multiple Visual References
von: Chen, Ruoxi, et al.
Veröffentlicht: (2025)

RefCut: Interactive Segmentation with Reference Guidance
von: Lin, Zheng, et al.
Veröffentlicht: (2025)

Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
von: Li, Chengzu, et al.
Veröffentlicht: (2026)

RefSR-Adv: Adversarial Attack on Reference-based Image Super-Resolution Models
von: Dai, Jiazhu, et al.
Veröffentlicht: (2026)

EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM
von: Zong, Zhuofan, et al.
Veröffentlicht: (2024)

UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing
von: Wei, Hongyang, et al.
Veröffentlicht: (2026)

Practical token pruning for foundation models in few-shot conversational virtual assistant systems
von: Qi, Haode, et al.
Veröffentlicht: (2024)

RefTok: Reference-Based Tokenization for Video Generation
von: Fan, Xiang, et al.
Veröffentlicht: (2025)

RefAlign: Representation Alignment for Reference-to-Video Generation
von: Wang, Lei, et al.
Veröffentlicht: (2026)

RefSTAR: Blind Facial Image Restoration with Reference Selection, Transfer, and Reconstruction
von: Yin, Zhicun, et al.
Veröffentlicht: (2025)

RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes
von: Sun, Zhichao, et al.
Veröffentlicht: (2025)