:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Sima, Bingrui, Cong, Linhua, Wang, Wenxuan, He, Kun
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2505.19684
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack
von: Zhao, Shiji, et al.
Veröffentlicht: (2025)

VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning
von: Li, Lingxiao, et al.
Veröffentlicht: (2025)

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
von: Li, Yifan, et al.
Veröffentlicht: (2024)

Jailbreaking Attack against Multimodal Large Language Model
von: Niu, Zhenxing, et al.
Veröffentlicht: (2024)

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
von: Dong, Yuhao, et al.
Veröffentlicht: (2024)

VisNumBench: Evaluating Number Sense of Multimodal Large Language Models
von: Weng, Tengjin, et al.
Veröffentlicht: (2025)

Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step
von: Wang, Wenxuan, et al.
Veröffentlicht: (2024)

KidVis: Do Multimodal Large Language Models Possess the Visual Perceptual Capabilities of a 6-Year-Old?
von: Wang, Xianfeng, et al.
Veröffentlicht: (2026)

Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey
von: Liu, Xuannan, et al.
Veröffentlicht: (2024)

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing
von: Zhang, Honglu, et al.
Veröffentlicht: (2025)

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
von: Fang, Rongyao, et al.
Veröffentlicht: (2025)

Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models
von: Jiang, Lei, et al.
Veröffentlicht: (2025)

Jailbreaks on Vision Language Model via Multimodal Reasoning
von: Noheria, Aarush, et al.
Veröffentlicht: (2026)

Attention-guided Fine-tuning of Multimodal Large Language Models Improves Chain-of-Thought Reasoning
von: Sinha, Sanchit, et al.
Veröffentlicht: (2026)

GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models
von: Hu, Xiangdong, et al.
Veröffentlicht: (2026)

FC-Attack: Jailbreaking Multimodal Large Language Models via Auto-Generated Flowcharts
von: Zhang, Ziyi, et al.
Veröffentlicht: (2025)

Autonomous Imagination: Closed-Loop Decomposition of Visual-to-Textual Conversion in Visual Reasoning for Multimodal Large Language Models
von: Liu, Jingming, et al.
Veröffentlicht: (2024)

VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models
von: Huang, Jen-tse, et al.
Veröffentlicht: (2025)

Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models
von: Liang, Shuang, et al.
Veröffentlicht: (2025)

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning
von: Jiang, Jingjing, et al.
Veröffentlicht: (2025)

Distraction is All You Need for Multimodal Large Language Model Jailbreaking
von: Yang, Zuopeng, et al.
Veröffentlicht: (2025)

Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
von: Wang, Yu, et al.
Veröffentlicht: (2024)

DUALVISION: RGB-Infrared Multimodal Large Language Models for Robust Visual Reasoning
von: Majeedi, Abrar, et al.
Veröffentlicht: (2026)

ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models
von: Park, Yeji, et al.
Veröffentlicht: (2024)

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning
von: Yang, Jiacheng, et al.
Veröffentlicht: (2026)

White-box Multimodal Jailbreaks Against Large Vision-Language Models
von: Wang, Ruofan, et al.
Veröffentlicht: (2024)

VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs
von: Törtei, Brigitta Malagurski, et al.
Veröffentlicht: (2025)

When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
von: Hou, Jiacheng, et al.
Veröffentlicht: (2026)

Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
von: Zhan, Xiaoyu, et al.
Veröffentlicht: (2025)

Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning
von: Guo, Longteng, et al.
Veröffentlicht: (2026)

Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models
von: Dong, Yuhao, et al.
Veröffentlicht: (2026)

Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
von: Yu, Mingyu, et al.
Veröffentlicht: (2026)

Learning to Detect Unseen Jailbreak Attacks in Large Vision-Language Models
von: Liang, Shuang, et al.
Veröffentlicht: (2025)

UAV-VisLoc: A Large-scale Dataset for UAV Visual Localization
von: Xu, Wenjia, et al.
Veröffentlicht: (2024)

PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
von: Zhou, Weijie, et al.
Veröffentlicht: (2025)

Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions
von: Chen, Lin, et al.
Veröffentlicht: (2026)

Simulated Ensemble Attack: Transferring Jailbreaks Across Fine-tuned Vision-Language Models
von: Wang, Ruofan, et al.
Veröffentlicht: (2025)

Multimodal Chain-of-Thought Reasoning in Language Models
von: Zhang, Zhuosheng, et al.
Veröffentlicht: (2023)

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
von: Zhang, Wenqi, et al.
Veröffentlicht: (2024)

Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
von: Ning, Zhenhua, et al.
Veröffentlicht: (2025)