:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Fu, Yu, Xiao, Wen, Chen, Jia, Li, Jiachen, Papalexakis, Evangelos, Chien, Aichi, Dong, Yue
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Computation and Language Cryptography and Security
Online-Zugang:	https://arxiv.org/abs/2405.15202
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models
von: Kadali, Sri Durga Sai Sowmya, et al.
Veröffentlicht: (2026)

Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models
von: Ye, Rui, et al.
Veröffentlicht: (2024)

TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning
von: He, Xuanli, et al.
Veröffentlicht: (2024)

DataShield: Safety-degrading Data Filtering for LLM Benign Instruction Fine-Tuning
von: Zhang, Junbo, et al.
Veröffentlicht: (2026)

Adversarial Attacks on Parts of Speech: An Empirical Study in Text-to-Image Generation
von: Shahariar, G M, et al.
Veröffentlicht: (2024)

SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models
von: Afane, Mohamed, et al.
Veröffentlicht: (2025)

Generalization-Enhanced Code Vulnerability Detection via Multi-Task Instruction Fine-Tuning
von: Du, Xiaohu, et al.
Veröffentlicht: (2024)

Do Reasoning LLMs Refuse What They Infer in Long Contexts?
von: Fu, Yu, et al.
Veröffentlicht: (2026)

Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy
von: Fu, Yu, et al.
Veröffentlicht: (2023)

Model-Agnostic Lifelong LLM Safety via Externalized Attack-Defense Co-Evolution
von: Zhang, Xiaozhe, et al.
Veröffentlicht: (2026)

MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs
von: Kan, Chun Yan Ryan, et al.
Veröffentlicht: (2026)

Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs
von: Hu, Xiaomeng, et al.
Veröffentlicht: (2025)

EvoDefense: Co-Evolving Black-Box Defense with Large Language Models
von: Li, Yu, et al.
Veröffentlicht: (2026)

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions
von: Wallace, Eric, et al.
Veröffentlicht: (2024)

Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs
von: Yan, Dong, et al.
Veröffentlicht: (2026)

Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models
von: Xu, Jiashu, et al.
Veröffentlicht: (2023)

Jatmo: Prompt Injection Defense by Task-Specific Finetuning
von: Piet, Julien, et al.
Veröffentlicht: (2023)

FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks
von: Chen, Bocheng, et al.
Veröffentlicht: (2024)

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue
von: Shen, Xinjie, et al.
Veröffentlicht: (2026)

FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks
von: Xu, Naen, et al.
Veröffentlicht: (2026)

P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs
von: Zhao, Shuai, et al.
Veröffentlicht: (2025)

Cross-Modal Safety Alignment: Is textual unlearning all you need?
von: Chakraborty, Trishna, et al.
Veröffentlicht: (2024)

FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks
von: Wang, Jiongxiao, et al.
Veröffentlicht: (2024)

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models
von: Gu, Haoran, et al.
Veröffentlicht: (2025)

Fun-tuning: Characterizing the Vulnerability of Proprietary LLMs to Optimization-based Prompt Injection Attacks via the Fine-Tuning Interface
von: Labunets, Andrey, et al.
Veröffentlicht: (2025)

BadActs: A Universal Backdoor Defense in the Activation Space
von: Yi, Biao, et al.
Veröffentlicht: (2024)

Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval
von: Chen, Taiye, et al.
Veröffentlicht: (2025)

Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs
von: Sekar, Anirudh, et al.
Veröffentlicht: (2026)

Removal Attack and Defense on AI-generated Content Latent-based Watermarking
von: Lee, De Zhang, et al.
Veröffentlicht: (2025)

Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection
von: Yan, Jun, et al.
Veröffentlicht: (2023)

Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning
von: Zhao, Shuai, et al.
Veröffentlicht: (2024)

AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
von: Zeng, Yifan, et al.
Veröffentlicht: (2024)

Self-Evaluation as a Defense Against Adversarial Attacks on LLMs
von: Brown, Hannah, et al.
Veröffentlicht: (2024)

The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs
von: Liu, Songyang, et al.
Veröffentlicht: (2025)

Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment
von: Wang, Jiongxiao, et al.
Veröffentlicht: (2024)

Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)

Privacy in Large Language Models: Attacks, Defenses and Future Directions
von: Li, Haoran, et al.
Veröffentlicht: (2023)

ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs
von: Ni, Ziyi, et al.
Veröffentlicht: (2025)

Self and Cross-Model Distillation for LLMs: Effective Methods for Refusal Pattern Alignment
von: Li, Jie, et al.
Veröffentlicht: (2024)

Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?
von: Xin, Yuan, et al.
Veröffentlicht: (2025)