Salvato in:
| Autori principali: | Golovanevsky, Michal, Rudman, William, Lepori, Michael, Bar, Amir, Singh, Ritambhara, Eickhoff, Carsten |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2505.17127 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Is There Knowledge Left to Extract? Evidence of Fragility in Medically Fine-Tuned Vision-Language Models
di: McLaughlin, Oliver, et al.
Pubblicazione: (2026)
di: McLaughlin, Oliver, et al.
Pubblicazione: (2026)
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind
di: Rudman, William, et al.
Pubblicazione: (2025)
di: Rudman, William, et al.
Pubblicazione: (2025)
Mechanisms of Prompt-Induced Hallucination in Vision-Language Models
di: Rudman, William, et al.
Pubblicazione: (2026)
di: Rudman, William, et al.
Pubblicazione: (2026)
What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation
di: Golovanevsky, Michal, et al.
Pubblicazione: (2024)
di: Golovanevsky, Michal, et al.
Pubblicazione: (2024)
Less is More: Label-Guided Summarization of Procedural and Instructional Videos
di: Rajpal, Shreya, et al.
Pubblicazione: (2026)
di: Rajpal, Shreya, et al.
Pubblicazione: (2026)
When to Call an Apple Red: Humans Follow Introspective Rules, VLMs Don't
di: Nemitz, Jonathan, et al.
Pubblicazione: (2026)
di: Nemitz, Jonathan, et al.
Pubblicazione: (2026)
PiCME: Pipeline for Contrastive Modality Evaluation and Encoding in the MIMIC Dataset
di: Golovanevsky, Michal, et al.
Pubblicazione: (2025)
di: Golovanevsky, Michal, et al.
Pubblicazione: (2025)
One-Versus-Others Attention: Scalable Multimodal Integration for Biomedical Data
di: Golovanevsky, Michal, et al.
Pubblicazione: (2023)
di: Golovanevsky, Michal, et al.
Pubblicazione: (2023)
Stable Anisotropic Regularization
di: Rudman, William, et al.
Pubblicazione: (2023)
di: Rudman, William, et al.
Pubblicazione: (2023)
Outlier Dimensions Encode Task-Specific Knowledge
di: Rudman, William, et al.
Pubblicazione: (2023)
di: Rudman, William, et al.
Pubblicazione: (2023)
InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models
di: Zhou, Shuchang, et al.
Pubblicazione: (2025)
di: Zhou, Shuchang, et al.
Pubblicazione: (2025)
PriorCLIP: Visual Prior Guided Vision-Language Model for Remote Sensing Image-Text Retrieval
di: Pan, Jiancheng, et al.
Pubblicazione: (2024)
di: Pan, Jiancheng, et al.
Pubblicazione: (2024)
The Persona Paradox: Medical Personas as Behavioral Priors in Clinical Language Models
di: Abdullahi, Tassallah, et al.
Pubblicazione: (2026)
di: Abdullahi, Tassallah, et al.
Pubblicazione: (2026)
Retrieval Augmented Zero-Shot Text Classification
di: Abdullahi, Tassallah, et al.
Pubblicazione: (2024)
di: Abdullahi, Tassallah, et al.
Pubblicazione: (2024)
Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models
di: Liang, Qiao, et al.
Pubblicazione: (2025)
di: Liang, Qiao, et al.
Pubblicazione: (2025)
Active Prompt Learning with Vision-Language Model Priors
di: Kim, Hoyoung, et al.
Pubblicazione: (2024)
di: Kim, Hoyoung, et al.
Pubblicazione: (2024)
$Δ$VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation
di: Zhu, Yijie, et al.
Pubblicazione: (2026)
di: Zhu, Yijie, et al.
Pubblicazione: (2026)
TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
di: Beck, Florentin, et al.
Pubblicazione: (2025)
di: Beck, Florentin, et al.
Pubblicazione: (2025)
Leveraging Language Prior for Infrared Small Target Detection
di: Singh, Pranav, et al.
Pubblicazione: (2025)
di: Singh, Pranav, et al.
Pubblicazione: (2025)
Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation
di: Peng, Daowan, et al.
Pubblicazione: (2025)
di: Peng, Daowan, et al.
Pubblicazione: (2025)
Vision-Language Models Create Cross-Modal Task Representations
di: Luo, Grace, et al.
Pubblicazione: (2024)
di: Luo, Grace, et al.
Pubblicazione: (2024)
Revisiting the Role of Language Priors in Vision-Language Models
di: Lin, Zhiqiu, et al.
Pubblicazione: (2023)
di: Lin, Zhiqiu, et al.
Pubblicazione: (2023)
Probing Visual Language Priors in VLMs
di: Luo, Tiange, et al.
Pubblicazione: (2024)
di: Luo, Tiange, et al.
Pubblicazione: (2024)
Osmosis: RGBD Diffusion Prior for Underwater Image Restoration
di: Nathan, Opher Bar, et al.
Pubblicazione: (2024)
di: Nathan, Opher Bar, et al.
Pubblicazione: (2024)
LanP: Rethinking the Impact of Language Priors in Large Vision-Language Models
di: Wu, Zongyu, et al.
Pubblicazione: (2025)
di: Wu, Zongyu, et al.
Pubblicazione: (2025)
Source-Free Domain Adaptation with Vision-Language Prior
di: Tang, Song, et al.
Pubblicazione: (2026)
di: Tang, Song, et al.
Pubblicazione: (2026)
VideoSketcher: Video Models Prior Enable Versatile Sequential Sketch Generation
di: Ren, Hui, et al.
Pubblicazione: (2026)
di: Ren, Hui, et al.
Pubblicazione: (2026)
Neural Human Pose Prior
di: Heker, Michal, et al.
Pubblicazione: (2025)
di: Heker, Michal, et al.
Pubblicazione: (2025)
Light Cones For Vision: Simple Causal Priors For Visual Hierarchy
di: Kartik, Manglam, et al.
Pubblicazione: (2026)
di: Kartik, Manglam, et al.
Pubblicazione: (2026)
Leveraging Prior Knowledge of Diffusion Model for Person Search
di: Kim, Giyeol, et al.
Pubblicazione: (2025)
di: Kim, Giyeol, et al.
Pubblicazione: (2025)
VLind-Bench: Measuring Language Priors in Large Vision-Language Models
di: Lee, Kang-il, et al.
Pubblicazione: (2024)
di: Lee, Kang-il, et al.
Pubblicazione: (2024)
Depth as Prior Knowledge for Object Detection
di: Sbeyti, Moussa Kassem, et al.
Pubblicazione: (2026)
di: Sbeyti, Moussa Kassem, et al.
Pubblicazione: (2026)
Vision Transformer with Sparse Scan Prior
di: Zhang, Yuguang, et al.
Pubblicazione: (2024)
di: Zhang, Yuguang, et al.
Pubblicazione: (2024)
SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors
di: Ma, Chenyang, et al.
Pubblicazione: (2024)
di: Ma, Chenyang, et al.
Pubblicazione: (2024)
Diffusion Models Need Visual Priors for Image Generation
di: Yue, Xiaoyu, et al.
Pubblicazione: (2024)
di: Yue, Xiaoyu, et al.
Pubblicazione: (2024)
RoboGround: Robotic Manipulation with Grounded Vision-Language Priors
di: Huang, Haifeng, et al.
Pubblicazione: (2025)
di: Huang, Haifeng, et al.
Pubblicazione: (2025)
HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation
di: Yu, Zihui, et al.
Pubblicazione: (2026)
di: Yu, Zihui, et al.
Pubblicazione: (2026)
Finding Visual Task Vectors
di: Hojel, Alberto, et al.
Pubblicazione: (2024)
di: Hojel, Alberto, et al.
Pubblicazione: (2024)
Holistic Visual-Textual Sentiment Analysis with Prior Models
di: Chen, Junyu, et al.
Pubblicazione: (2022)
di: Chen, Junyu, et al.
Pubblicazione: (2022)
Cross-Image Contrastive Decoding: Precise, Lossless Suppression of Language Priors in Large Vision-Language Models
di: Zhao, Jianfei, et al.
Pubblicazione: (2025)
di: Zhao, Jianfei, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Is There Knowledge Left to Extract? Evidence of Fragility in Medically Fine-Tuned Vision-Language Models
di: McLaughlin, Oliver, et al.
Pubblicazione: (2026) -
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind
di: Rudman, William, et al.
Pubblicazione: (2025) -
Mechanisms of Prompt-Induced Hallucination in Vision-Language Models
di: Rudman, William, et al.
Pubblicazione: (2026) -
What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation
di: Golovanevsky, Michal, et al.
Pubblicazione: (2024) -
Less is More: Label-Guided Summarization of Procedural and Instructional Videos
di: Rajpal, Shreya, et al.
Pubblicazione: (2026)