Salvato in:
| Autori principali: | Shah, Arya, Tripathi, Vaibhav, Singh, Mayank, Silpasuwanchai, Chaklam |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2604.13803 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
SycoPhantasy: Quantifying Sycophancy and Hallucination in Small Open Weight VLMs for Vision-Language Scoring of Fantasy Characters
di: Shah, Arya, et al.
Pubblicazione: (2026)
di: Shah, Arya, et al.
Pubblicazione: (2026)
Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights
di: Mishra, Deepali, et al.
Pubblicazione: (2025)
di: Mishra, Deepali, et al.
Pubblicazione: (2025)
Purrturbed but Stable: Human-Cat Invariant Representations Across CNNs, ViTs and Self-Supervised ViTs
di: Shah, Arya, et al.
Pubblicazione: (2025)
di: Shah, Arya, et al.
Pubblicazione: (2025)
Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models
di: Shah, Arya, et al.
Pubblicazione: (2026)
di: Shah, Arya, et al.
Pubblicazione: (2026)
From Overload to Convergence: Supporting Multi-Issue Human-AI Negotiation with Bayesian Visualization
di: Parmar, Mehul, et al.
Pubblicazione: (2026)
di: Parmar, Mehul, et al.
Pubblicazione: (2026)
Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models
di: Tang, Ziyao, et al.
Pubblicazione: (2026)
di: Tang, Ziyao, et al.
Pubblicazione: (2026)
Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations
di: Singh, Jaisidh, et al.
Pubblicazione: (2024)
di: Singh, Jaisidh, et al.
Pubblicazione: (2024)
Benchmarking Gaslighting Negation Attacks Against Reasoning Models
di: Zhu, Bin, et al.
Pubblicazione: (2025)
di: Zhu, Bin, et al.
Pubblicazione: (2025)
Semantic Shield: Defending Vision-Language Models Against Backdooring and Poisoning via Fine-grained Knowledge Alignment
di: Ishmam, Alvi Md, et al.
Pubblicazione: (2024)
di: Ishmam, Alvi Md, et al.
Pubblicazione: (2024)
BBQ-V: Benchmarking Visual Stereotype Bias in Large Multimodal Models
di: Narnaware, Vishal, et al.
Pubblicazione: (2025)
di: Narnaware, Vishal, et al.
Pubblicazione: (2025)
Analyzing the Sensitivity of Vision Language Models in Visual Question Answering
di: Shah, Monika, et al.
Pubblicazione: (2025)
di: Shah, Monika, et al.
Pubblicazione: (2025)
Enhancing Scientific Visual Question Answering via Vision-Caption aware Supervised Fine-Tuning
di: Kapuriya, Janak, et al.
Pubblicazione: (2025)
di: Kapuriya, Janak, et al.
Pubblicazione: (2025)
Don't Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs
di: Jiao, Pengkun, et al.
Pubblicazione: (2025)
di: Jiao, Pengkun, et al.
Pubblicazione: (2025)
Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation
di: Bose, Sarosij, et al.
Pubblicazione: (2025)
di: Bose, Sarosij, et al.
Pubblicazione: (2025)
Improved Alignment of Modalities in Large Vision Language Models
di: Jangra, Kartik, et al.
Pubblicazione: (2025)
di: Jangra, Kartik, et al.
Pubblicazione: (2025)
V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving
di: Lübberstedt, Jannik, et al.
Pubblicazione: (2025)
di: Lübberstedt, Jannik, et al.
Pubblicazione: (2025)
MIND-V: Hierarchical World Model for Long-Horizon Robotic Manipulation with RL-based Physical Alignment
di: Zhang, Ruicheng, et al.
Pubblicazione: (2025)
di: Zhang, Ruicheng, et al.
Pubblicazione: (2025)
Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following
di: Gupta, Anshul, et al.
Pubblicazione: (2024)
di: Gupta, Anshul, et al.
Pubblicazione: (2024)
Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning
di: Vedanshu, et al.
Pubblicazione: (2024)
di: Vedanshu, et al.
Pubblicazione: (2024)
V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding
di: Ge, Junqi, et al.
Pubblicazione: (2024)
di: Ge, Junqi, et al.
Pubblicazione: (2024)
Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation
di: Unmesh, Asim, et al.
Pubblicazione: (2026)
di: Unmesh, Asim, et al.
Pubblicazione: (2026)
Asymmetric Visual Semantic Embedding Framework for Efficient Vision-Language Alignment
di: Liu, Yang, et al.
Pubblicazione: (2025)
di: Liu, Yang, et al.
Pubblicazione: (2025)
StoryGPT-V: Large Language Models as Consistent Story Visualizers
di: Shen, Xiaoqian, et al.
Pubblicazione: (2023)
di: Shen, Xiaoqian, et al.
Pubblicazione: (2023)
When Visuals Aren't the Problem: Evaluating Vision-Language Models on Misleading Data Visualizations
di: Lalai, Harsh Nishant, et al.
Pubblicazione: (2026)
di: Lalai, Harsh Nishant, et al.
Pubblicazione: (2026)
Locality Alignment Improves Vision-Language Models
di: Covert, Ian, et al.
Pubblicazione: (2024)
di: Covert, Ian, et al.
Pubblicazione: (2024)
V2C-Long: Longitudinal Cortex Reconstruction with Spatiotemporal Correspondence
di: Bongratz, Fabian, et al.
Pubblicazione: (2024)
di: Bongratz, Fabian, et al.
Pubblicazione: (2024)
Geometry of the Visual Cortex with Applications to Image Inpainting and Enhancement
di: Ballerin, Francesco, et al.
Pubblicazione: (2023)
di: Ballerin, Francesco, et al.
Pubblicazione: (2023)
Action Recognition based Industrial Safety Violation Detection
di: Reddy, Surya N, et al.
Pubblicazione: (2024)
di: Reddy, Surya N, et al.
Pubblicazione: (2024)
GPO-V: Jailbreak Diffusion Vision Language Model by Global Probability Optimization
di: Pan, Yu, et al.
Pubblicazione: (2026)
di: Pan, Yu, et al.
Pubblicazione: (2026)
HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models
di: Li, Xu, et al.
Pubblicazione: (2025)
di: Li, Xu, et al.
Pubblicazione: (2025)
Privacy-Shielded Image Compression: Defending Against Exploitation from Vision-Language Pretrained Models
di: Shen, Xuelin, et al.
Pubblicazione: (2025)
di: Shen, Xuelin, et al.
Pubblicazione: (2025)
Enhancing Vision-Language Model with Unmasked Token Alignment
di: Liu, Jihao, et al.
Pubblicazione: (2024)
di: Liu, Jihao, et al.
Pubblicazione: (2024)
Assessing and Learning Alignment of Unimodal Vision and Language Models
di: Zhang, Le, et al.
Pubblicazione: (2024)
di: Zhang, Le, et al.
Pubblicazione: (2024)
SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision
di: Li, Zhaoxu, et al.
Pubblicazione: (2025)
di: Li, Zhaoxu, et al.
Pubblicazione: (2025)
Modeling Rapid Contextual Learning in the Visual Cortex with Fast-Weight Deep Autoencoder Networks
di: Li, Yue, et al.
Pubblicazione: (2025)
di: Li, Yue, et al.
Pubblicazione: (2025)
Safety Alignment for Vision Language Models
di: Liu, Zhendong, et al.
Pubblicazione: (2024)
di: Liu, Zhendong, et al.
Pubblicazione: (2024)
Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation
di: Pani, Anupam, et al.
Pubblicazione: (2026)
di: Pani, Anupam, et al.
Pubblicazione: (2026)
Detecting Text Manipulation in Images using Vision Language Models
di: Vidit, Vidit, et al.
Pubblicazione: (2025)
di: Vidit, Vidit, et al.
Pubblicazione: (2025)
Attention! Your Vision Language Model Could Be Maliciously Manipulated
di: Wang, Xiaosen, et al.
Pubblicazione: (2025)
di: Wang, Xiaosen, et al.
Pubblicazione: (2025)
VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models
di: Cheng, Jintao, et al.
Pubblicazione: (2026)
di: Cheng, Jintao, et al.
Pubblicazione: (2026)
Documenti analoghi
-
SycoPhantasy: Quantifying Sycophancy and Hallucination in Small Open Weight VLMs for Vision-Language Scoring of Fantasy Characters
di: Shah, Arya, et al.
Pubblicazione: (2026) -
Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights
di: Mishra, Deepali, et al.
Pubblicazione: (2025) -
Purrturbed but Stable: Human-Cat Invariant Representations Across CNNs, ViTs and Self-Supervised ViTs
di: Shah, Arya, et al.
Pubblicazione: (2025) -
Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models
di: Shah, Arya, et al.
Pubblicazione: (2026) -
From Overload to Convergence: Supporting Multi-Issue Human-AI Negotiation with Bayesian Visualization
di: Parmar, Mehul, et al.
Pubblicazione: (2026)