:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Noheria, Aarush, Yao, Yuguang
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2601.22398
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

White-box Multimodal Jailbreaks Against Large Vision-Language Models
par: Wang, Ruofan, et autres
Publié: (2024)

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image
par: Tao, Xijia, et autres
Publié: (2024)

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves
par: Wang, Ruofan, et autres
Publié: (2024)

Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models
par: Liang, Shuang, et autres
Publié: (2025)

TAIJI: Textual Anchoring for Immunizing Jailbreak Images in Vision Language Models
par: Yin, Xiangyu, et autres
Publié: (2025)

E$^2$AT: Multimodal Jailbreak Defense via Dynamic Joint Optimization for Multimodal Large Language Models
par: Lu, Liming, et autres
Publié: (2025)

Jailbreaking Vision-Language Models Through the Visual Modality
par: Azulay, Aharon, et autres
Publié: (2026)

Jailbreaking Multimodal Large Language Models using Multi-Clip Video
par: Kang, Choongwon, et autres
Publié: (2026)

Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks
par: Hossain, Md Zarif, et autres
Publié: (2024)

Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models
par: Zhao, Yunhan, et autres
Publié: (2025)

Activation Steering Meets Preference Optimization: Defense Against Jailbreaks in Vision Language Models
par: Wu, Sihao, et autres
Publié: (2025)

Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
par: Yu, Mingyu, et autres
Publié: (2026)

Rethinking Iterative Stereo Matching from Diffusion Bridge Model Perspective
par: Shi, Yuguang
Publié: (2024)

Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models
par: Cui, Kaiyuan, et autres
Publié: (2026)

Text is All You Need for Vision-Language Model Jailbreaking
par: Chen, Yihang, et autres
Publié: (2026)

Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks
par: Wang, Han, et autres
Publié: (2024)

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
par: Wang, Jiaqi, et autres
Publié: (2025)

Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning
par: Zhang, Chenyu, et autres
Publié: (2025)

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
par: Huang, Wenxuan, et autres
Publié: (2025)

Learning to Detect Unseen Jailbreak Attacks in Large Vision-Language Models
par: Liang, Shuang, et autres
Publié: (2025)

Adversarial Watermarking for Face Recognition
par: Yao, Yuguang, et autres
Publié: (2024)

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models
par: Pyo, Jiyoon, et autres
Publié: (2025)

Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning
par: Yin, Shaofeng, et autres
Publié: (2026)

Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities
par: Li, Zhiyuan, et autres
Publié: (2024)

ReasonEdit: Editing Vision-Language Models using Human Reasoning
par: Qiu, Jiaxing, et autres
Publié: (2026)

Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency
par: Liu, Junming, et autres
Publié: (2026)

Prompting Large Vision-Language Models for Compositional Reasoning
par: Ossowski, Timothy, et autres
Publié: (2024)

Understanding and Defending VLM Jailbreaks via Jailbreak-Related Representation Shift
par: Wei, Zhihua, et autres
Publié: (2026)

Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
par: Ong, Brandon, et autres
Publié: (2025)

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models
par: Tan, Huajie, et autres
Publié: (2025)

Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning
par: Liu, Junming, et autres
Publié: (2025)

Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization
par: Lan, Yuqin, et autres
Publié: (2026)

SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model
par: Yu, Chunlin, et autres
Publié: (2024)

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
par: Huang, Wenxuan, et autres
Publié: (2026)

ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models
par: Zhang, Jieyu, et autres
Publié: (2024)

BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks
par: Zhao, Yunhan, et autres
Publié: (2024)

EventVL: Understand Event Streams via Multimodal Large Language Model
par: Li, Pengteng, et autres
Publié: (2025)

FC-Attack: Jailbreaking Multimodal Large Language Models via Auto-Generated Flowcharts
par: Zhang, Ziyi, et autres
Publié: (2025)

Multimodal Chain-of-Thought Reasoning in Language Models
par: Zhang, Zhuosheng, et autres
Publié: (2023)

CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models
par: Li, Jingyao, et autres
Publié: (2025)