Gespeichert in:
| Hauptverfasser: | Fu, Yu, Xiao, Wen, Chen, Jia, Li, Jiachen, Papalexakis, Evangelos, Chien, Aichi, Dong, Yue |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2405.15202 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models
von: Kadali, Sri Durga Sai Sowmya, et al.
Veröffentlicht: (2026)
von: Kadali, Sri Durga Sai Sowmya, et al.
Veröffentlicht: (2026)
Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models
von: Ye, Rui, et al.
Veröffentlicht: (2024)
von: Ye, Rui, et al.
Veröffentlicht: (2024)
TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning
von: He, Xuanli, et al.
Veröffentlicht: (2024)
von: He, Xuanli, et al.
Veröffentlicht: (2024)
DataShield: Safety-degrading Data Filtering for LLM Benign Instruction Fine-Tuning
von: Zhang, Junbo, et al.
Veröffentlicht: (2026)
von: Zhang, Junbo, et al.
Veröffentlicht: (2026)
Adversarial Attacks on Parts of Speech: An Empirical Study in Text-to-Image Generation
von: Shahariar, G M, et al.
Veröffentlicht: (2024)
von: Shahariar, G M, et al.
Veröffentlicht: (2024)
SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models
von: Afane, Mohamed, et al.
Veröffentlicht: (2025)
von: Afane, Mohamed, et al.
Veröffentlicht: (2025)
Generalization-Enhanced Code Vulnerability Detection via Multi-Task Instruction Fine-Tuning
von: Du, Xiaohu, et al.
Veröffentlicht: (2024)
von: Du, Xiaohu, et al.
Veröffentlicht: (2024)
Do Reasoning LLMs Refuse What They Infer in Long Contexts?
von: Fu, Yu, et al.
Veröffentlicht: (2026)
von: Fu, Yu, et al.
Veröffentlicht: (2026)
Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy
von: Fu, Yu, et al.
Veröffentlicht: (2023)
von: Fu, Yu, et al.
Veröffentlicht: (2023)
Model-Agnostic Lifelong LLM Safety via Externalized Attack-Defense Co-Evolution
von: Zhang, Xiaozhe, et al.
Veröffentlicht: (2026)
von: Zhang, Xiaozhe, et al.
Veröffentlicht: (2026)
MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs
von: Kan, Chun Yan Ryan, et al.
Veröffentlicht: (2026)
von: Kan, Chun Yan Ryan, et al.
Veröffentlicht: (2026)
Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs
von: Hu, Xiaomeng, et al.
Veröffentlicht: (2025)
von: Hu, Xiaomeng, et al.
Veröffentlicht: (2025)
EvoDefense: Co-Evolving Black-Box Defense with Large Language Models
von: Li, Yu, et al.
Veröffentlicht: (2026)
von: Li, Yu, et al.
Veröffentlicht: (2026)
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions
von: Wallace, Eric, et al.
Veröffentlicht: (2024)
von: Wallace, Eric, et al.
Veröffentlicht: (2024)
Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs
von: Yan, Dong, et al.
Veröffentlicht: (2026)
von: Yan, Dong, et al.
Veröffentlicht: (2026)
Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models
von: Xu, Jiashu, et al.
Veröffentlicht: (2023)
von: Xu, Jiashu, et al.
Veröffentlicht: (2023)
Jatmo: Prompt Injection Defense by Task-Specific Finetuning
von: Piet, Julien, et al.
Veröffentlicht: (2023)
von: Piet, Julien, et al.
Veröffentlicht: (2023)
FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks
von: Chen, Bocheng, et al.
Veröffentlicht: (2024)
von: Chen, Bocheng, et al.
Veröffentlicht: (2024)
One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue
von: Shen, Xinjie, et al.
Veröffentlicht: (2026)
von: Shen, Xinjie, et al.
Veröffentlicht: (2026)
FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks
von: Xu, Naen, et al.
Veröffentlicht: (2026)
von: Xu, Naen, et al.
Veröffentlicht: (2026)
P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs
von: Zhao, Shuai, et al.
Veröffentlicht: (2025)
von: Zhao, Shuai, et al.
Veröffentlicht: (2025)
Cross-Modal Safety Alignment: Is textual unlearning all you need?
von: Chakraborty, Trishna, et al.
Veröffentlicht: (2024)
von: Chakraborty, Trishna, et al.
Veröffentlicht: (2024)
FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks
von: Wang, Jiongxiao, et al.
Veröffentlicht: (2024)
von: Wang, Jiongxiao, et al.
Veröffentlicht: (2024)
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models
von: Gu, Haoran, et al.
Veröffentlicht: (2025)
von: Gu, Haoran, et al.
Veröffentlicht: (2025)
Fun-tuning: Characterizing the Vulnerability of Proprietary LLMs to Optimization-based Prompt Injection Attacks via the Fine-Tuning Interface
von: Labunets, Andrey, et al.
Veröffentlicht: (2025)
von: Labunets, Andrey, et al.
Veröffentlicht: (2025)
BadActs: A Universal Backdoor Defense in the Activation Space
von: Yi, Biao, et al.
Veröffentlicht: (2024)
von: Yi, Biao, et al.
Veröffentlicht: (2024)
Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval
von: Chen, Taiye, et al.
Veröffentlicht: (2025)
von: Chen, Taiye, et al.
Veröffentlicht: (2025)
Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs
von: Sekar, Anirudh, et al.
Veröffentlicht: (2026)
von: Sekar, Anirudh, et al.
Veröffentlicht: (2026)
Removal Attack and Defense on AI-generated Content Latent-based Watermarking
von: Lee, De Zhang, et al.
Veröffentlicht: (2025)
von: Lee, De Zhang, et al.
Veröffentlicht: (2025)
Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection
von: Yan, Jun, et al.
Veröffentlicht: (2023)
von: Yan, Jun, et al.
Veröffentlicht: (2023)
Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning
von: Zhao, Shuai, et al.
Veröffentlicht: (2024)
von: Zhao, Shuai, et al.
Veröffentlicht: (2024)
AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
von: Zeng, Yifan, et al.
Veröffentlicht: (2024)
von: Zeng, Yifan, et al.
Veröffentlicht: (2024)
Self-Evaluation as a Defense Against Adversarial Attacks on LLMs
von: Brown, Hannah, et al.
Veröffentlicht: (2024)
von: Brown, Hannah, et al.
Veröffentlicht: (2024)
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs
von: Liu, Songyang, et al.
Veröffentlicht: (2025)
von: Liu, Songyang, et al.
Veröffentlicht: (2025)
Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment
von: Wang, Jiongxiao, et al.
Veröffentlicht: (2024)
von: Wang, Jiongxiao, et al.
Veröffentlicht: (2024)
Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)
Privacy in Large Language Models: Attacks, Defenses and Future Directions
von: Li, Haoran, et al.
Veröffentlicht: (2023)
von: Li, Haoran, et al.
Veröffentlicht: (2023)
ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs
von: Ni, Ziyi, et al.
Veröffentlicht: (2025)
von: Ni, Ziyi, et al.
Veröffentlicht: (2025)
Self and Cross-Model Distillation for LLMs: Effective Methods for Refusal Pattern Alignment
von: Li, Jie, et al.
Veröffentlicht: (2024)
von: Li, Jie, et al.
Veröffentlicht: (2024)
Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?
von: Xin, Yuan, et al.
Veröffentlicht: (2025)
von: Xin, Yuan, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models
von: Kadali, Sri Durga Sai Sowmya, et al.
Veröffentlicht: (2026) -
Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models
von: Ye, Rui, et al.
Veröffentlicht: (2024) -
TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning
von: He, Xuanli, et al.
Veröffentlicht: (2024) -
DataShield: Safety-degrading Data Filtering for LLM Benign Instruction Fine-Tuning
von: Zhang, Junbo, et al.
Veröffentlicht: (2026) -
Adversarial Attacks on Parts of Speech: An Empirical Study in Text-to-Image Generation
von: Shahariar, G M, et al.
Veröffentlicht: (2024)