:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Li, Guanghao, Chen, Mingzhi, Yu, Hao, Dong, Shuting, Jiang, Wenhao, Tang, Ming, Yuan, Chun
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2503.06966
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices
by: Yu, Hao, et al.
Published: (2025)

Probing CLIP's Comprehension of 360-Degree Textual and Visual Semantics
by: Wang, Hai, et al.
Published: (2026)

Semantic-Guided Diffusion Model for Single-Step Image Super-Resolution
by: Liu, Zihang, et al.
Published: (2025)

Robust Brain Tumor Segmentation with Incomplete MRI Modalities Using Hölder Divergence and Mutual Information-Enhanced Knowledge Transfer
by: Cheng, Runze, et al.
Published: (2025)

Denoising Mutual Knowledge Distillation in Bi-Directional Multiple Instance Learning
by: Shu, Chen, et al.
Published: (2025)

Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition
by: Lu, Feng, et al.
Published: (2024)

PGID: Progressive Guided Inversion and Denoising for Robust Watermark Detection
by: Duong, Minh Quoc, et al.
Published: (2026)

Towards Generalized and Training-Free Text-Guided Semantic Manipulation
by: Hong, Yu, et al.
Published: (2025)

Robust Visual Localization via Semantic-Guided Multi-Scale Transformer
by: Tian, Zhongtao, et al.
Published: (2025)

Uncovering Semantic Selectivity of Latent Groups in Higher Visual Cortex with Mutual Information-Guided Diffusion
by: Wang, Yule, et al.
Published: (2025)

Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation
by: Zhong, Zhiyuan, et al.
Published: (2025)

Mutual Information Guided Optimal Transport for Unsupervised Visible-Infrared Person Re-identification
by: Zhang, Zhizhong, et al.
Published: (2024)

Detecting Visual Information Manipulation Attacks in Augmented Reality: A Multimodal Semantic Reasoning Approach
by: Xiu, Yanming, et al.
Published: (2025)

SGHA-Attack: Semantic-Guided Hierarchical Alignment for Transferable Targeted Attacks on Vision-Language Models
by: Wang, Haobo, et al.
Published: (2026)

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing
by: Zhang, Xinyao, et al.
Published: (2026)

Deep Homography Estimation for Visual Place Recognition
by: Lu, Feng, et al.
Published: (2024)

Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning
by: Tang, Haomiao, et al.
Published: (2026)

Complementary Information Mutual Learning for Multimodality Medical Image Segmentation
by: Shen, Chuyun, et al.
Published: (2024)

RefMask3D: Language-Guided Transformer for 3D Referring Segmentation
by: He, Shuting, et al.
Published: (2024)

Anatomy-Aware Low-Dose CT Denoising via Pretrained Vision Models and Semantic-Guided Contrastive Learning
by: Wang, Runze, et al.
Published: (2025)

MIRL: Mutual Information-Guided Reinforcement Learning for Vision-Language Models
by: Zhang, Yin, et al.
Published: (2026)

Diffusion-Guided Knowledge Distillation for Weakly-Supervised Low-Light Semantic Segmentation
by: Wang, Chunyan, et al.
Published: (2025)

Deterministic Image-to-Image Translation via Denoising Brownian Bridge Models with Dual Approximators
by: Xiao, Bohan, et al.
Published: (2025)

Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation
by: Wang, Chenyu, et al.
Published: (2024)

Object-Centric World Model for Language-Guided Manipulation
by: Jeong, Youngjoon, et al.
Published: (2025)

HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior
by: Tsao, Li-Yuan, et al.
Published: (2024)

VisNumBench: Evaluating Number Sense of Multimodal Large Language Models
by: Weng, Tengjin, et al.
Published: (2025)

Revisiting End-to-End Learning with Slide-level Supervision in Computational Pathology
by: Tang, Wenhao, et al.
Published: (2025)

CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks
by: Fang, Hao, et al.
Published: (2024)

Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation
by: Xia, Ruihao, et al.
Published: (2024)

Denoise and Align: Towards Source-Free UDA for Robust Panoramic Semantic Segmentation
by: Chang, Yaowen, et al.
Published: (2026)

Diverse Semantics-Guided Feature Alignment and Decoupling for Visible-Infrared Person Re-Identification
by: Dong, Neng, et al.
Published: (2025)

SGDFormer: One-stage Transformer-based Architecture for Cross-Spectral Stereo Image Guided Denoising
by: Zhang, Runmin, et al.
Published: (2024)

Rethinking Multiple Instance Learning: Developing an Instance-Level Classifier via Weakly-Supervised Self-Training
by: Ma, Yingfan, et al.
Published: (2024)

SAFE-Pruner: Semantic Attention-Guided Future-Aware Token Pruning for Efficient Vision-Language-Action Manipulation
by: Ma, Shilin, et al.
Published: (2026)

Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models
by: Zhang, Quan, et al.
Published: (2024)

EventSTU: Event-Guided Efficient Spatio-Temporal Understanding for Video Large Language Models
by: Xu, Wenhao, et al.
Published: (2025)

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache
by: Cui, Bowen, et al.
Published: (2026)

InfoNorm: Mutual Information Shaping of Normals for Sparse-View Reconstruction
by: Wang, Xulong, et al.
Published: (2024)

ConsistencyDet: A Few-step Denoising Framework for Object Detection Using the Consistency Model
by: Jiang, Lifan, et al.
Published: (2024)