Gespeichert in:
| Hauptverfasser: | Chen, Yu, Liu, Yuanhao, Cao, Qi |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2605.08878 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks
von: Andriushchenko, Maksym, et al.
Veröffentlicht: (2024)
von: Andriushchenko, Maksym, et al.
Veröffentlicht: (2024)
Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?
von: Yin, Qingyu, et al.
Veröffentlicht: (2025)
von: Yin, Qingyu, et al.
Veröffentlicht: (2025)
Tracing the Dynamics of Refusal: Exploiting Latent Refusal Trajectories for Robust Jailbreak Detection
von: Hu, Xulin, et al.
Veröffentlicht: (2026)
von: Hu, Xulin, et al.
Veröffentlicht: (2026)
Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal Direction
von: Xie, Yuanbo, et al.
Veröffentlicht: (2025)
von: Xie, Yuanbo, et al.
Veröffentlicht: (2025)
Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs
von: Ferrand, Jean-Charles Noirot, et al.
Veröffentlicht: (2025)
von: Ferrand, Jean-Charles Noirot, et al.
Veröffentlicht: (2025)
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes
von: Hu, Xiaomeng, et al.
Veröffentlicht: (2024)
von: Hu, Xiaomeng, et al.
Veröffentlicht: (2024)
Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders
von: Campbell, David, et al.
Veröffentlicht: (2026)
von: Campbell, David, et al.
Veröffentlicht: (2026)
JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs
von: Li, Hongyi, et al.
Veröffentlicht: (2024)
von: Li, Hongyi, et al.
Veröffentlicht: (2024)
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense
von: Zhang, Jiawen, et al.
Veröffentlicht: (2025)
von: Zhang, Jiawen, et al.
Veröffentlicht: (2025)
A Unified Learn-to-Distort-Data Framework for Privacy-Utility Trade-off in Trustworthy Federated Learning
von: Zhang, Xiaojin, et al.
Veröffentlicht: (2024)
von: Zhang, Xiaojin, et al.
Veröffentlicht: (2024)
FlipAttack: Jailbreak LLMs via Flipping
von: Liu, Yue, et al.
Veröffentlicht: (2024)
von: Liu, Yue, et al.
Veröffentlicht: (2024)
Clients Collaborate: Flexible Differentially Private Federated Learning with Guaranteed Improvement of Utility-Privacy Trade-off
von: Li, Yuecheng, et al.
Veröffentlicht: (2024)
von: Li, Yuecheng, et al.
Veröffentlicht: (2024)
Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling
von: Wang, Ziwei, et al.
Veröffentlicht: (2026)
von: Wang, Ziwei, et al.
Veröffentlicht: (2026)
Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs
von: Rando, Javier, et al.
Veröffentlicht: (2024)
von: Rando, Javier, et al.
Veröffentlicht: (2024)
The Privacy-Utility Trade-off in the Topics API
von: Alvim, Mário S., et al.
Veröffentlicht: (2024)
von: Alvim, Mário S., et al.
Veröffentlicht: (2024)
PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs
von: Gong, Xueluan, et al.
Veröffentlicht: (2024)
von: Gong, Xueluan, et al.
Veröffentlicht: (2024)
Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion
von: Cui, Tiehan, et al.
Veröffentlicht: (2025)
von: Cui, Tiehan, et al.
Veröffentlicht: (2025)
ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models
von: Cheng, Siyang, et al.
Veröffentlicht: (2025)
von: Cheng, Siyang, et al.
Veröffentlicht: (2025)
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models
von: Wang, Youze, et al.
Veröffentlicht: (2025)
von: Wang, Youze, et al.
Veröffentlicht: (2025)
Evaluating Jailbreaking Vulnerabilities in LLMs Deployed as Assistants for Smart Grid Operations: A Benchmark Against NERC Standards
von: Hammadia, Taha, et al.
Veröffentlicht: (2026)
von: Hammadia, Taha, et al.
Veröffentlicht: (2026)
Unlearning with Asymmetric Sources: Improved Unlearning-Utility Trade-off with Public Data
von: Inane, Ahmed Mehdi, et al.
Veröffentlicht: (2026)
von: Inane, Ahmed Mehdi, et al.
Veröffentlicht: (2026)
Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations
von: Collu, Matteo Gioele, et al.
Veröffentlicht: (2026)
von: Collu, Matteo Gioele, et al.
Veröffentlicht: (2026)
Do Reasoning LLMs Refuse What They Infer in Long Contexts?
von: Fu, Yu, et al.
Veröffentlicht: (2026)
von: Fu, Yu, et al.
Veröffentlicht: (2026)
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs
von: Xu, Zhao, et al.
Veröffentlicht: (2024)
von: Xu, Zhao, et al.
Veröffentlicht: (2024)
Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs
von: Yan, Yu, et al.
Veröffentlicht: (2025)
von: Yan, Yu, et al.
Veröffentlicht: (2025)
Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning
von: Yang, Xianglin, et al.
Veröffentlicht: (2025)
von: Yang, Xianglin, et al.
Veröffentlicht: (2025)
Mitigating the Safety-utility Trade-off in LLM Alignment via Adaptive Safe Context Learning
von: Wang, Yanbo, et al.
Veröffentlicht: (2026)
von: Wang, Yanbo, et al.
Veröffentlicht: (2026)
Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads
von: Wu, Jinman, et al.
Veröffentlicht: (2026)
von: Wu, Jinman, et al.
Veröffentlicht: (2026)
Data to Defense: The Role of Curation in Customizing LLMs Against Jailbreaking Attacks
von: Liu, Xiaoqun, et al.
Veröffentlicht: (2024)
von: Liu, Xiaoqun, et al.
Veröffentlicht: (2024)
Privacy-Utility Trade-off in Data Publication: A Bilevel Optimization Framework with Curvature-Guided Perturbation
von: Yin, Yi, et al.
Veröffentlicht: (2025)
von: Yin, Yi, et al.
Veröffentlicht: (2025)
Analysis of LLMs Against Prompt Injection and Jailbreak Attacks
von: Jaiswal, Piyush, et al.
Veröffentlicht: (2026)
von: Jaiswal, Piyush, et al.
Veröffentlicht: (2026)
Re-Triggering Safeguards within LLMs for Jailbreak Detection
von: Lin, Zheng, et al.
Veröffentlicht: (2026)
von: Lin, Zheng, et al.
Veröffentlicht: (2026)
PUZZLED: Jailbreaking LLMs through Word-Based Puzzles
von: Ahn, Yelim, et al.
Veröffentlicht: (2025)
von: Ahn, Yelim, et al.
Veröffentlicht: (2025)
Enhancing Jailbreak Attacks on LLMs via Persona Prompts
von: Zhang, Zheng, et al.
Veröffentlicht: (2025)
von: Zhang, Zheng, et al.
Veröffentlicht: (2025)
LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges
von: Li, Haoyang, et al.
Veröffentlicht: (2025)
von: Li, Haoyang, et al.
Veröffentlicht: (2025)
Do Not Merge My Model! Safeguarding Open-Source LLMs Against Unauthorized Model Merging
von: Li, Qinfeng, et al.
Veröffentlicht: (2025)
von: Li, Qinfeng, et al.
Veröffentlicht: (2025)
Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning
von: Hasan, Adib, et al.
Veröffentlicht: (2024)
von: Hasan, Adib, et al.
Veröffentlicht: (2024)
Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs
von: Hu, Xiaomeng, et al.
Veröffentlicht: (2025)
von: Hu, Xiaomeng, et al.
Veröffentlicht: (2025)
Injecting Universal Jailbreak Backdoors into LLMs in Minutes
von: Chen, Zhuowei, et al.
Veröffentlicht: (2025)
von: Chen, Zhuowei, et al.
Veröffentlicht: (2025)
Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs
von: Liu, Fan, et al.
Veröffentlicht: (2024)
von: Liu, Fan, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks
von: Andriushchenko, Maksym, et al.
Veröffentlicht: (2024) -
Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?
von: Yin, Qingyu, et al.
Veröffentlicht: (2025) -
Tracing the Dynamics of Refusal: Exploiting Latent Refusal Trajectories for Robust Jailbreak Detection
von: Hu, Xulin, et al.
Veröffentlicht: (2026) -
Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal Direction
von: Xie, Yuanbo, et al.
Veröffentlicht: (2025) -
Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs
von: Ferrand, Jean-Charles Noirot, et al.
Veröffentlicht: (2025)