:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Chen, Yu, Liu, Yuanhao, Cao, Qi
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Cryptography and Security Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2605.08878
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks
von: Andriushchenko, Maksym, et al.
Veröffentlicht: (2024)

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?
von: Yin, Qingyu, et al.
Veröffentlicht: (2025)

Tracing the Dynamics of Refusal: Exploiting Latent Refusal Trajectories for Robust Jailbreak Detection
von: Hu, Xulin, et al.
Veröffentlicht: (2026)

Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal Direction
von: Xie, Yuanbo, et al.
Veröffentlicht: (2025)

Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs
von: Ferrand, Jean-Charles Noirot, et al.
Veröffentlicht: (2025)

Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes
von: Hu, Xiaomeng, et al.
Veröffentlicht: (2024)

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders
von: Campbell, David, et al.
Veröffentlicht: (2026)

JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs
von: Li, Hongyi, et al.
Veröffentlicht: (2024)

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense
von: Zhang, Jiawen, et al.
Veröffentlicht: (2025)

A Unified Learn-to-Distort-Data Framework for Privacy-Utility Trade-off in Trustworthy Federated Learning
von: Zhang, Xiaojin, et al.
Veröffentlicht: (2024)

FlipAttack: Jailbreak LLMs via Flipping
von: Liu, Yue, et al.
Veröffentlicht: (2024)

Clients Collaborate: Flexible Differentially Private Federated Learning with Guaranteed Improvement of Utility-Privacy Trade-off
von: Li, Yuecheng, et al.
Veröffentlicht: (2024)

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling
von: Wang, Ziwei, et al.
Veröffentlicht: (2026)

Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs
von: Rando, Javier, et al.
Veröffentlicht: (2024)

The Privacy-Utility Trade-off in the Topics API
von: Alvim, Mário S., et al.
Veröffentlicht: (2024)

PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs
von: Gong, Xueluan, et al.
Veröffentlicht: (2024)

Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion
von: Cui, Tiehan, et al.
Veröffentlicht: (2025)

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models
von: Cheng, Siyang, et al.
Veröffentlicht: (2025)

Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models
von: Wang, Youze, et al.
Veröffentlicht: (2025)

Evaluating Jailbreaking Vulnerabilities in LLMs Deployed as Assistants for Smart Grid Operations: A Benchmark Against NERC Standards
von: Hammadia, Taha, et al.
Veröffentlicht: (2026)

Unlearning with Asymmetric Sources: Improved Unlearning-Utility Trade-off with Public Data
von: Inane, Ahmed Mehdi, et al.
Veröffentlicht: (2026)

Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations
von: Collu, Matteo Gioele, et al.
Veröffentlicht: (2026)

Do Reasoning LLMs Refuse What They Infer in Long Contexts?
von: Fu, Yu, et al.
Veröffentlicht: (2026)

Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs
von: Xu, Zhao, et al.
Veröffentlicht: (2024)

Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs
von: Yan, Yu, et al.
Veröffentlicht: (2025)

Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning
von: Yang, Xianglin, et al.
Veröffentlicht: (2025)

Mitigating the Safety-utility Trade-off in LLM Alignment via Adaptive Safe Context Learning
von: Wang, Yanbo, et al.
Veröffentlicht: (2026)

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads
von: Wu, Jinman, et al.
Veröffentlicht: (2026)

Data to Defense: The Role of Curation in Customizing LLMs Against Jailbreaking Attacks
von: Liu, Xiaoqun, et al.
Veröffentlicht: (2024)

Privacy-Utility Trade-off in Data Publication: A Bilevel Optimization Framework with Curvature-Guided Perturbation
von: Yin, Yi, et al.
Veröffentlicht: (2025)

Analysis of LLMs Against Prompt Injection and Jailbreak Attacks
von: Jaiswal, Piyush, et al.
Veröffentlicht: (2026)

Re-Triggering Safeguards within LLMs for Jailbreak Detection
von: Lin, Zheng, et al.
Veröffentlicht: (2026)

PUZZLED: Jailbreaking LLMs through Word-Based Puzzles
von: Ahn, Yelim, et al.
Veröffentlicht: (2025)

Enhancing Jailbreak Attacks on LLMs via Persona Prompts
von: Zhang, Zheng, et al.
Veröffentlicht: (2025)

LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges
von: Li, Haoyang, et al.
Veröffentlicht: (2025)

Do Not Merge My Model! Safeguarding Open-Source LLMs Against Unauthorized Model Merging
von: Li, Qinfeng, et al.
Veröffentlicht: (2025)

Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning
von: Hasan, Adib, et al.
Veröffentlicht: (2024)

Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs
von: Hu, Xiaomeng, et al.
Veröffentlicht: (2025)

Injecting Universal Jailbreak Backdoors into LLMs in Minutes
von: Chen, Zhuowei, et al.
Veröffentlicht: (2025)

Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs
von: Liu, Fan, et al.
Veröffentlicht: (2024)