Gespeichert in:
| Hauptverfasser: | Sima, Bingrui, Cong, Linhua, Wang, Wenxuan, He, Kun |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2505.19684 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack
von: Zhao, Shiji, et al.
Veröffentlicht: (2025)
von: Zhao, Shiji, et al.
Veröffentlicht: (2025)
VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning
von: Li, Lingxiao, et al.
Veröffentlicht: (2025)
von: Li, Lingxiao, et al.
Veröffentlicht: (2025)
Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
von: Li, Yifan, et al.
Veröffentlicht: (2024)
von: Li, Yifan, et al.
Veröffentlicht: (2024)
Jailbreaking Attack against Multimodal Large Language Model
von: Niu, Zhenxing, et al.
Veröffentlicht: (2024)
von: Niu, Zhenxing, et al.
Veröffentlicht: (2024)
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
von: Dong, Yuhao, et al.
Veröffentlicht: (2024)
von: Dong, Yuhao, et al.
Veröffentlicht: (2024)
VisNumBench: Evaluating Number Sense of Multimodal Large Language Models
von: Weng, Tengjin, et al.
Veröffentlicht: (2025)
von: Weng, Tengjin, et al.
Veröffentlicht: (2025)
Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step
von: Wang, Wenxuan, et al.
Veröffentlicht: (2024)
von: Wang, Wenxuan, et al.
Veröffentlicht: (2024)
KidVis: Do Multimodal Large Language Models Possess the Visual Perceptual Capabilities of a 6-Year-Old?
von: Wang, Xianfeng, et al.
Veröffentlicht: (2026)
von: Wang, Xianfeng, et al.
Veröffentlicht: (2026)
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey
von: Liu, Xuannan, et al.
Veröffentlicht: (2024)
von: Liu, Xuannan, et al.
Veröffentlicht: (2024)
Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing
von: Zhang, Honglu, et al.
Veröffentlicht: (2025)
von: Zhang, Honglu, et al.
Veröffentlicht: (2025)
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
von: Fang, Rongyao, et al.
Veröffentlicht: (2025)
von: Fang, Rongyao, et al.
Veröffentlicht: (2025)
Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models
von: Jiang, Lei, et al.
Veröffentlicht: (2025)
von: Jiang, Lei, et al.
Veröffentlicht: (2025)
Jailbreaks on Vision Language Model via Multimodal Reasoning
von: Noheria, Aarush, et al.
Veröffentlicht: (2026)
von: Noheria, Aarush, et al.
Veröffentlicht: (2026)
Attention-guided Fine-tuning of Multimodal Large Language Models Improves Chain-of-Thought Reasoning
von: Sinha, Sanchit, et al.
Veröffentlicht: (2026)
von: Sinha, Sanchit, et al.
Veröffentlicht: (2026)
GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models
von: Hu, Xiangdong, et al.
Veröffentlicht: (2026)
von: Hu, Xiangdong, et al.
Veröffentlicht: (2026)
FC-Attack: Jailbreaking Multimodal Large Language Models via Auto-Generated Flowcharts
von: Zhang, Ziyi, et al.
Veröffentlicht: (2025)
von: Zhang, Ziyi, et al.
Veröffentlicht: (2025)
Autonomous Imagination: Closed-Loop Decomposition of Visual-to-Textual Conversion in Visual Reasoning for Multimodal Large Language Models
von: Liu, Jingming, et al.
Veröffentlicht: (2024)
von: Liu, Jingming, et al.
Veröffentlicht: (2024)
VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models
von: Huang, Jen-tse, et al.
Veröffentlicht: (2025)
von: Huang, Jen-tse, et al.
Veröffentlicht: (2025)
Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models
von: Liang, Shuang, et al.
Veröffentlicht: (2025)
von: Liang, Shuang, et al.
Veröffentlicht: (2025)
Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning
von: Jiang, Jingjing, et al.
Veröffentlicht: (2025)
von: Jiang, Jingjing, et al.
Veröffentlicht: (2025)
Distraction is All You Need for Multimodal Large Language Model Jailbreaking
von: Yang, Zuopeng, et al.
Veröffentlicht: (2025)
von: Yang, Zuopeng, et al.
Veröffentlicht: (2025)
Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
von: Wang, Yu, et al.
Veröffentlicht: (2024)
von: Wang, Yu, et al.
Veröffentlicht: (2024)
DUALVISION: RGB-Infrared Multimodal Large Language Models for Robust Visual Reasoning
von: Majeedi, Abrar, et al.
Veröffentlicht: (2026)
von: Majeedi, Abrar, et al.
Veröffentlicht: (2026)
ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models
von: Park, Yeji, et al.
Veröffentlicht: (2024)
von: Park, Yeji, et al.
Veröffentlicht: (2024)
Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning
von: Yang, Jiacheng, et al.
Veröffentlicht: (2026)
von: Yang, Jiacheng, et al.
Veröffentlicht: (2026)
White-box Multimodal Jailbreaks Against Large Vision-Language Models
von: Wang, Ruofan, et al.
Veröffentlicht: (2024)
von: Wang, Ruofan, et al.
Veröffentlicht: (2024)
VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs
von: Törtei, Brigitta Malagurski, et al.
Veröffentlicht: (2025)
von: Törtei, Brigitta Malagurski, et al.
Veröffentlicht: (2025)
When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
von: Hou, Jiacheng, et al.
Veröffentlicht: (2026)
von: Hou, Jiacheng, et al.
Veröffentlicht: (2026)
Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
von: Zhan, Xiaoyu, et al.
Veröffentlicht: (2025)
von: Zhan, Xiaoyu, et al.
Veröffentlicht: (2025)
Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning
von: Guo, Longteng, et al.
Veröffentlicht: (2026)
von: Guo, Longteng, et al.
Veröffentlicht: (2026)
Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models
von: Dong, Yuhao, et al.
Veröffentlicht: (2026)
von: Dong, Yuhao, et al.
Veröffentlicht: (2026)
Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
von: Yu, Mingyu, et al.
Veröffentlicht: (2026)
von: Yu, Mingyu, et al.
Veröffentlicht: (2026)
Learning to Detect Unseen Jailbreak Attacks in Large Vision-Language Models
von: Liang, Shuang, et al.
Veröffentlicht: (2025)
von: Liang, Shuang, et al.
Veröffentlicht: (2025)
UAV-VisLoc: A Large-scale Dataset for UAV Visual Localization
von: Xu, Wenjia, et al.
Veröffentlicht: (2024)
von: Xu, Wenjia, et al.
Veröffentlicht: (2024)
PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
von: Zhou, Weijie, et al.
Veröffentlicht: (2025)
von: Zhou, Weijie, et al.
Veröffentlicht: (2025)
Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions
von: Chen, Lin, et al.
Veröffentlicht: (2026)
von: Chen, Lin, et al.
Veröffentlicht: (2026)
Simulated Ensemble Attack: Transferring Jailbreaks Across Fine-tuned Vision-Language Models
von: Wang, Ruofan, et al.
Veröffentlicht: (2025)
von: Wang, Ruofan, et al.
Veröffentlicht: (2025)
Multimodal Chain-of-Thought Reasoning in Language Models
von: Zhang, Zhuosheng, et al.
Veröffentlicht: (2023)
von: Zhang, Zhuosheng, et al.
Veröffentlicht: (2023)
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
von: Zhang, Wenqi, et al.
Veröffentlicht: (2024)
von: Zhang, Wenqi, et al.
Veröffentlicht: (2024)
Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
von: Ning, Zhenhua, et al.
Veröffentlicht: (2025)
von: Ning, Zhenhua, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack
von: Zhao, Shiji, et al.
Veröffentlicht: (2025) -
VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning
von: Li, Lingxiao, et al.
Veröffentlicht: (2025) -
Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
von: Li, Yifan, et al.
Veröffentlicht: (2024) -
Jailbreaking Attack against Multimodal Large Language Model
von: Niu, Zhenxing, et al.
Veröffentlicht: (2024) -
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
von: Dong, Yuhao, et al.
Veröffentlicht: (2024)