:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Cheng, Silin, Han, Kai
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2511.22664
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

UADet: A Remarkably Simple Yet Effective Uncertainty-Aware Open-Set Object Detection Framework
di: Cheng, Silin, et al.
Pubblicazione: (2024)

Active Prompt Learning in Vision Language Models
di: Bang, Jihwan, et al.
Pubblicazione: (2023)

In the Era of Prompt Learning with Vision-Language Models
di: Jha, Ankit
Pubblicazione: (2024)

Mixture of Prompt Learning for Vision Language Models
di: Du, Yu, et al.
Pubblicazione: (2024)

Multi-modal Attribute Prompting for Vision-Language Models
di: Liu, Xin, et al.
Pubblicazione: (2024)

Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models
di: Yang, Shijun, et al.
Pubblicazione: (2025)

Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models
di: Zhang, Enming, et al.
Pubblicazione: (2024)

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts
di: Han, Yucheng, et al.
Pubblicazione: (2024)

MMRL: Multi-Modal Representation Learning for Vision-Language Models
di: Guo, Yuncheng, et al.
Pubblicazione: (2025)

Physical Prompt Injection Attacks on Large Vision-Language Models
di: Ling, Chen, et al.
Pubblicazione: (2026)

Vision-Motion-Reference Alignment for Referring Multi-Object Tracking via Multi-Modal Large Language Models
di: Lv, Weiyi, et al.
Pubblicazione: (2025)

DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation
di: Liu, Ting, et al.
Pubblicazione: (2023)

MP-HSIR: A Multi-Prompt Framework for Universal Hyperspectral Image Restoration
di: Wu, Zhehui, et al.
Pubblicazione: (2025)

Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models
di: Imran, Muhammad, et al.
Pubblicazione: (2025)

VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding
di: Wang, Jiaqi, et al.
Pubblicazione: (2024)

Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt
di: Ying, Zonghao, et al.
Pubblicazione: (2024)

Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection
di: Wang, Hao, et al.
Pubblicazione: (2026)

3D Aware Region Prompted Vision Language Model
di: Cheng, An-Chieh, et al.
Pubblicazione: (2025)

Integrated Structural Prompt Learning for Vision-Language Models
di: Wang, Jiahui, et al.
Pubblicazione: (2025)

Modular Prompt Learning Improves Vision-Language Models
di: Huang, Zhenhan, et al.
Pubblicazione: (2025)

Active Prompt Learning with Vision-Language Model Priors
di: Kim, Hoyoung, et al.
Pubblicazione: (2024)

Consistency-guided Prompt Learning for Vision-Language Models
di: Roy, Shuvendu, et al.
Pubblicazione: (2023)

Cascade Prompt Learning for Vision-Language Model Adaptation
di: Wu, Ge, et al.
Pubblicazione: (2024)

HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling
di: Wang, Yubin, et al.
Pubblicazione: (2024)

Guiding Medical Vision-Language Models with Explicit Visual Prompts: Framework Design and Comprehensive Exploration of Prompt Variations
di: Zhu, Kangyu, et al.
Pubblicazione: (2025)

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation
di: Ghiasvand, Sajjad, et al.
Pubblicazione: (2026)

Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
di: Wang, Yu, et al.
Pubblicazione: (2024)

LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior
di: Wang, Xinkai, et al.
Pubblicazione: (2026)

Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models
di: Peng, Wei, et al.
Pubblicazione: (2025)

SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors
di: Ma, Chenyang, et al.
Pubblicazione: (2024)

Audio-Guided Visual Editing with Complex Multi-Modal Prompts
di: Kim, Hyeonyu, et al.
Pubblicazione: (2025)

Multi-Turn Adaptive Prompting Attack on Large Vision-Language Models
di: Choi, In Chong, et al.
Pubblicazione: (2026)

Understanding the Multi-modal Prompts of the Pre-trained Vision-Language Model
di: Ma, Shuailei, et al.
Pubblicazione: (2023)

Calibration-Aware Prompt Learning for Medical Vision-Language Models
di: Basu, Abhishek, et al.
Pubblicazione: (2025)

Hierarchical Cross-modal Prompt Learning for Vision-Language Models
di: Zheng, Hao, et al.
Pubblicazione: (2025)

Diversity Covariance-Aware Prompt Learning for Vision-Language Models
di: Dong, Songlin, et al.
Pubblicazione: (2025)

Concept-Guided Prompt Learning for Generalization in Vision-Language Models
di: Zhang, Yi, et al.
Pubblicazione: (2024)

Learning to Prompt with Text Only Supervision for Vision-Language Models
di: Khattak, Muhammad Uzair, et al.
Pubblicazione: (2024)

CoMP: Continual Multimodal Pre-training for Vision Foundation Models
di: Chen, Yitong, et al.
Pubblicazione: (2025)

Modeling Variants of Prompts for Vision-Language Models
di: Li, Ao, et al.
Pubblicazione: (2025)