Gespeichert in:
| Hauptverfasser: | Zhou, Yuxuan, Bai, Yang, Gao, Kuofeng, Dai, Tao, Xia, Shu-Tao |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2511.07315 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Why does weak-OOD help? A Further Step Towards Understanding Jailbreaking VLMs
von: Zhou, Yuxuan, et al.
Veröffentlicht: (2025)
von: Zhou, Yuxuan, et al.
Veröffentlicht: (2025)
Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations
von: Liu, Haitong, et al.
Veröffentlicht: (2025)
von: Liu, Haitong, et al.
Veröffentlicht: (2025)
Imperceptible Jailbreaking against Large Language Models
von: Gao, Kuofeng, et al.
Veröffentlicht: (2025)
von: Gao, Kuofeng, et al.
Veröffentlicht: (2025)
Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs
von: Li, Jinmin, et al.
Veröffentlicht: (2024)
von: Li, Jinmin, et al.
Veröffentlicht: (2024)
Denial-of-Service Poisoning Attacks against Large Language Models
von: Gao, Kuofeng, et al.
Veröffentlicht: (2024)
von: Gao, Kuofeng, et al.
Veröffentlicht: (2024)
Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images
von: Gao, Kuofeng, et al.
Veröffentlicht: (2024)
von: Gao, Kuofeng, et al.
Veröffentlicht: (2024)
Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models
von: Gao, Kuofeng, et al.
Veröffentlicht: (2025)
von: Gao, Kuofeng, et al.
Veröffentlicht: (2025)
Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation
von: Zhou, Yuxuan, et al.
Veröffentlicht: (2025)
von: Zhou, Yuxuan, et al.
Veröffentlicht: (2025)
Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision Transformers
von: Yang, Sheng, et al.
Veröffentlicht: (2024)
von: Yang, Sheng, et al.
Veröffentlicht: (2024)
SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism
von: Chen, Beitao, et al.
Veröffentlicht: (2025)
von: Chen, Beitao, et al.
Veröffentlicht: (2025)
SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents
von: Liang, Siyuan, et al.
Veröffentlicht: (2025)
von: Liang, Siyuan, et al.
Veröffentlicht: (2025)
DMN: A Compositional Framework for Jailbreaking Multimodal LLMs with Multi-Image Inputs
von: Xu, Wenzhuo, et al.
Veröffentlicht: (2026)
von: Xu, Wenzhuo, et al.
Veröffentlicht: (2026)
Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography
von: Li, Songze, et al.
Veröffentlicht: (2025)
von: Li, Songze, et al.
Veröffentlicht: (2025)
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue
von: Wang, Fengxiang, et al.
Veröffentlicht: (2024)
von: Wang, Fengxiang, et al.
Veröffentlicht: (2024)
Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency
von: Zhao, Shiji, et al.
Veröffentlicht: (2025)
von: Zhao, Shiji, et al.
Veröffentlicht: (2025)
PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs
von: Wang, Xinkai, et al.
Veröffentlicht: (2025)
von: Wang, Xinkai, et al.
Veröffentlicht: (2025)
QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language
von: Zou, Qingsong, et al.
Veröffentlicht: (2025)
von: Zou, Qingsong, et al.
Veröffentlicht: (2025)
Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy
von: Jeong, Joonhyun, et al.
Veröffentlicht: (2025)
von: Jeong, Joonhyun, et al.
Veröffentlicht: (2025)
ASTRA: An Automated Framework for Strategy Discovery, Retrieval, and Evolution for Jailbreaking LLMs
von: Liu, Xu, et al.
Veröffentlicht: (2025)
von: Liu, Xu, et al.
Veröffentlicht: (2025)
Enabling Regulatory Multi-Agent Collaboration: Architecture, Challenges, and Solutions
von: Hu, Qinnan, et al.
Veröffentlicht: (2025)
von: Hu, Qinnan, et al.
Veröffentlicht: (2025)
Jailbreaking LLMs via Calibration
von: Lu, Yuxuan, et al.
Veröffentlicht: (2026)
von: Lu, Yuxuan, et al.
Veröffentlicht: (2026)
MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots
von: Deng, Gelei, et al.
Veröffentlicht: (2023)
von: Deng, Gelei, et al.
Veröffentlicht: (2023)
WATER-GS: Toward Copyright Protection for 3D Gaussian Splatting via Universal Watermarking
von: Tan, Yuqi, et al.
Veröffentlicht: (2024)
von: Tan, Yuqi, et al.
Veröffentlicht: (2024)
JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring
von: Chu, Junjie, et al.
Veröffentlicht: (2025)
von: Chu, Junjie, et al.
Veröffentlicht: (2025)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models
von: Ying, Zonghao, et al.
Veröffentlicht: (2024)
von: Ying, Zonghao, et al.
Veröffentlicht: (2024)
SkillProbe: Security Auditing for Emerging Agent Skill Marketplaces via Multi-Agent Collaboration
von: Guo, Zihan, et al.
Veröffentlicht: (2026)
von: Guo, Zihan, et al.
Veröffentlicht: (2026)
Malicious Agent Detection for Robust Multi-Agent Collaborative Perception
von: Zhao, Yangheng, et al.
Veröffentlicht: (2023)
von: Zhao, Yangheng, et al.
Veröffentlicht: (2023)
From CVE Entries to Verifiable Exploits: An Automated Multi-Agent Framework for Reproducing CVEs
von: Ullah, Saad, et al.
Veröffentlicht: (2025)
von: Ullah, Saad, et al.
Veröffentlicht: (2025)
PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization
von: Liu, Aofan, et al.
Veröffentlicht: (2025)
von: Liu, Aofan, et al.
Veröffentlicht: (2025)
SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance
von: Huang, Caishuang, et al.
Veröffentlicht: (2024)
von: Huang, Caishuang, et al.
Veröffentlicht: (2024)
ACF: A Collaborative Framework for Agent Covert Communication under Cognitive Asymmetry
von: Wu, Wansheng, et al.
Veröffentlicht: (2026)
von: Wu, Wansheng, et al.
Veröffentlicht: (2026)
Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storytelling
von: Zhang, Deyue, et al.
Veröffentlicht: (2025)
von: Zhang, Deyue, et al.
Veröffentlicht: (2025)
MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs
von: Chen, Boyuan, et al.
Veröffentlicht: (2025)
von: Chen, Boyuan, et al.
Veröffentlicht: (2025)
Detection of Crowdsourcing Cryptocurrency Laundering via Multi-Task Collaboration
von: Li, Guang, et al.
Veröffentlicht: (2025)
von: Li, Guang, et al.
Veröffentlicht: (2025)
AgentGuard: A Multi-Agent Framework for Robust Package Confusion Detection via Hybrid Search and Metadata-Content Fusion
von: Li, Yu, et al.
Veröffentlicht: (2026)
von: Li, Yu, et al.
Veröffentlicht: (2026)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens
von: Lu, Lin, et al.
Veröffentlicht: (2024)
von: Lu, Lin, et al.
Veröffentlicht: (2024)
Towards Robust Multimodal Large Language Models Against Jailbreak Attacks
von: Yin, Ziyi, et al.
Veröffentlicht: (2025)
von: Yin, Ziyi, et al.
Veröffentlicht: (2025)
AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models
von: Reddy, Aashray, et al.
Veröffentlicht: (2025)
von: Reddy, Aashray, et al.
Veröffentlicht: (2025)
Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models
von: Hong, Wenjing, et al.
Veröffentlicht: (2026)
von: Hong, Wenjing, et al.
Veröffentlicht: (2026)
Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models
von: Dong, Yingkai, et al.
Veröffentlicht: (2024)
von: Dong, Yingkai, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Why does weak-OOD help? A Further Step Towards Understanding Jailbreaking VLMs
von: Zhou, Yuxuan, et al.
Veröffentlicht: (2025) -
Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations
von: Liu, Haitong, et al.
Veröffentlicht: (2025) -
Imperceptible Jailbreaking against Large Language Models
von: Gao, Kuofeng, et al.
Veröffentlicht: (2025) -
Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs
von: Li, Jinmin, et al.
Veröffentlicht: (2024) -
Denial-of-Service Poisoning Attacks against Large Language Models
von: Gao, Kuofeng, et al.
Veröffentlicht: (2024)