:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Shah, Arya, Tripathi, Vaibhav, Singh, Mayank, Silpasuwanchai, Chaklam
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2604.13803
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

SycoPhantasy: Quantifying Sycophancy and Hallucination in Small Open Weight VLMs for Vision-Language Scoring of Fantasy Characters
di: Shah, Arya, et al.
Pubblicazione: (2026)

Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights
di: Mishra, Deepali, et al.
Pubblicazione: (2025)

Purrturbed but Stable: Human-Cat Invariant Representations Across CNNs, ViTs and Self-Supervised ViTs
di: Shah, Arya, et al.
Pubblicazione: (2025)

Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models
di: Shah, Arya, et al.
Pubblicazione: (2026)

From Overload to Convergence: Supporting Multi-Issue Human-AI Negotiation with Bayesian Visualization
di: Parmar, Mehul, et al.
Pubblicazione: (2026)

Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models
di: Tang, Ziyao, et al.
Pubblicazione: (2026)

Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations
di: Singh, Jaisidh, et al.
Pubblicazione: (2024)

Benchmarking Gaslighting Negation Attacks Against Reasoning Models
di: Zhu, Bin, et al.
Pubblicazione: (2025)

Semantic Shield: Defending Vision-Language Models Against Backdooring and Poisoning via Fine-grained Knowledge Alignment
di: Ishmam, Alvi Md, et al.
Pubblicazione: (2024)

BBQ-V: Benchmarking Visual Stereotype Bias in Large Multimodal Models
di: Narnaware, Vishal, et al.
Pubblicazione: (2025)

Analyzing the Sensitivity of Vision Language Models in Visual Question Answering
di: Shah, Monika, et al.
Pubblicazione: (2025)

Enhancing Scientific Visual Question Answering via Vision-Caption aware Supervised Fine-Tuning
di: Kapuriya, Janak, et al.
Pubblicazione: (2025)

Don't Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs
di: Jiao, Pengkun, et al.
Pubblicazione: (2025)

Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation
di: Bose, Sarosij, et al.
Pubblicazione: (2025)

Improved Alignment of Modalities in Large Vision Language Models
di: Jangra, Kartik, et al.
Pubblicazione: (2025)

V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving
di: Lübberstedt, Jannik, et al.
Pubblicazione: (2025)

MIND-V: Hierarchical World Model for Long-Horizon Robotic Manipulation with RL-based Physical Alignment
di: Zhang, Ruicheng, et al.
Pubblicazione: (2025)

Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following
di: Gupta, Anshul, et al.
Pubblicazione: (2024)

Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning
di: Vedanshu, et al.
Pubblicazione: (2024)

V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding
di: Ge, Junqi, et al.
Pubblicazione: (2024)

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation
di: Unmesh, Asim, et al.
Pubblicazione: (2026)

Asymmetric Visual Semantic Embedding Framework for Efficient Vision-Language Alignment
di: Liu, Yang, et al.
Pubblicazione: (2025)

StoryGPT-V: Large Language Models as Consistent Story Visualizers
di: Shen, Xiaoqian, et al.
Pubblicazione: (2023)

When Visuals Aren't the Problem: Evaluating Vision-Language Models on Misleading Data Visualizations
di: Lalai, Harsh Nishant, et al.
Pubblicazione: (2026)

Locality Alignment Improves Vision-Language Models
di: Covert, Ian, et al.
Pubblicazione: (2024)

V2C-Long: Longitudinal Cortex Reconstruction with Spatiotemporal Correspondence
di: Bongratz, Fabian, et al.
Pubblicazione: (2024)

Geometry of the Visual Cortex with Applications to Image Inpainting and Enhancement
di: Ballerin, Francesco, et al.
Pubblicazione: (2023)

Action Recognition based Industrial Safety Violation Detection
di: Reddy, Surya N, et al.
Pubblicazione: (2024)

GPO-V: Jailbreak Diffusion Vision Language Model by Global Probability Optimization
di: Pan, Yu, et al.
Pubblicazione: (2026)

HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models
di: Li, Xu, et al.
Pubblicazione: (2025)

Privacy-Shielded Image Compression: Defending Against Exploitation from Vision-Language Pretrained Models
di: Shen, Xuelin, et al.
Pubblicazione: (2025)

Enhancing Vision-Language Model with Unmasked Token Alignment
di: Liu, Jihao, et al.
Pubblicazione: (2024)

Assessing and Learning Alignment of Unimodal Vision and Language Models
di: Zhang, Le, et al.
Pubblicazione: (2024)

SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision
di: Li, Zhaoxu, et al.
Pubblicazione: (2025)

Modeling Rapid Contextual Learning in the Visual Cortex with Fast-Weight Deep Autoencoder Networks
di: Li, Yue, et al.
Pubblicazione: (2025)

Safety Alignment for Vision Language Models
di: Liu, Zhendong, et al.
Pubblicazione: (2024)

Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation
di: Pani, Anupam, et al.
Pubblicazione: (2026)

Detecting Text Manipulation in Images using Vision Language Models
di: Vidit, Vidit, et al.
Pubblicazione: (2025)

Attention! Your Vision Language Model Could Be Maliciously Manipulated
di: Wang, Xiaosen, et al.
Pubblicazione: (2025)

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models
di: Cheng, Jintao, et al.
Pubblicazione: (2026)