Salvato in:
| Autori principali: | Fu, Hang, Peng, Wanli, Zhou, Yinghan, Wu, Jiaxuan, Wen, Juan, Xue, Yiming |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2601.04261 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
EditMF: Drawing an Invisible Fingerprint for Your Large Language Models
di: Wu, Jiaxuan, et al.
Pubblicazione: (2025)
di: Wu, Jiaxuan, et al.
Pubblicazione: (2025)
BadApex: Backdoor Attack Based on Adaptive Optimization Mechanism of Black-box Large Language Models
di: Wu, Zhengxian, et al.
Pubblicazione: (2025)
di: Wu, Zhengxian, et al.
Pubblicazione: (2025)
SLIP: Soft Label Mechanism and Key-Extraction-Guided CoT-based Defense Against Instruction Backdoor in APIs
di: Wu, Zhengxian, et al.
Pubblicazione: (2025)
di: Wu, Zhengxian, et al.
Pubblicazione: (2025)
BeDKD: Backdoor Defense Based on Directional Mapping Module and Adversarial Knowledge Distillation
di: Wu, Zhengxian, et al.
Pubblicazione: (2025)
di: Wu, Zhengxian, et al.
Pubblicazione: (2025)
Self-Disguise Attack: Induce the LLM to disguise itself for AIGT detection evasion
di: Zhou, Yinghan, et al.
Pubblicazione: (2025)
di: Zhou, Yinghan, et al.
Pubblicazione: (2025)
Retrieval-Confused Generation is a Good Defender for Privacy Violation Attack of Large Language Models
di: Peng, Wanli, et al.
Pubblicazione: (2025)
di: Peng, Wanli, et al.
Pubblicazione: (2025)
Is Your Writing Being Mimicked by AI? Unveiling Imitation with Invisible Watermarks in Creative Writing
di: Zhang, Ziwei, et al.
Pubblicazione: (2025)
di: Zhang, Ziwei, et al.
Pubblicazione: (2025)
GTSD: Generative Text Steganography Based on Diffusion Model
di: Wu, Zhengxian, et al.
Pubblicazione: (2025)
di: Wu, Zhengxian, et al.
Pubblicazione: (2025)
Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models
di: Yuan, Zenghui, et al.
Pubblicazione: (2025)
di: Yuan, Zenghui, et al.
Pubblicazione: (2025)
ImF: Implicit Fingerprint for Large Language Models
di: Wu, Jiaxuan, et al.
Pubblicazione: (2025)
di: Wu, Jiaxuan, et al.
Pubblicazione: (2025)
A Fingerprint for Large Language Models
di: Yang, Zhiguang, et al.
Pubblicazione: (2024)
di: Yang, Zhiguang, et al.
Pubblicazione: (2024)
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
di: Yuan, Zenghui, et al.
Pubblicazione: (2025)
di: Yuan, Zenghui, et al.
Pubblicazione: (2025)
Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models
di: Li, Xi, et al.
Pubblicazione: (2024)
di: Li, Xi, et al.
Pubblicazione: (2024)
Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks
di: Li, Ziqiang, et al.
Pubblicazione: (2024)
di: Li, Ziqiang, et al.
Pubblicazione: (2024)
SteganoBackdoor: Stealthy and Data-Efficient Backdoor Attacks on Language Models
di: Xue, Eric, et al.
Pubblicazione: (2025)
di: Xue, Eric, et al.
Pubblicazione: (2025)
Prompt Inversion Attack against Collaborative Inference of Large Language Models
di: Qu, Wenjie, et al.
Pubblicazione: (2025)
di: Qu, Wenjie, et al.
Pubblicazione: (2025)
A Survey of Recent Backdoor Attacks and Defenses in Large Language Models
di: Zhao, Shuai, et al.
Pubblicazione: (2024)
di: Zhao, Shuai, et al.
Pubblicazione: (2024)
When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations
di: Ge, Huaizhi, et al.
Pubblicazione: (2024)
di: Ge, Huaizhi, et al.
Pubblicazione: (2024)
Physical Backdoor Attack can Jeopardize Driving with Vision-Large-Language Models
di: Ni, Zhenyang, et al.
Pubblicazione: (2024)
di: Ni, Zhenyang, et al.
Pubblicazione: (2024)
Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks
di: Hossen, Md Imran, et al.
Pubblicazione: (2024)
di: Hossen, Md Imran, et al.
Pubblicazione: (2024)
Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning
di: Zhao, Shuai, et al.
Pubblicazione: (2024)
di: Zhao, Shuai, et al.
Pubblicazione: (2024)
Collusion-Driven Impersonation Attack on Channel-Resistant RF Fingerprinting
di: Xu, Zhou, et al.
Pubblicazione: (2025)
di: Xu, Zhou, et al.
Pubblicazione: (2025)
A Survey on Backdoor Threats in Large Language Models (LLMs): Attacks, Defenses, and Evaluations
di: Zhou, Yihe, et al.
Pubblicazione: (2025)
di: Zhou, Yihe, et al.
Pubblicazione: (2025)
Composite Backdoor Attacks Against Large Language Models
di: Huang, Hai, et al.
Pubblicazione: (2023)
di: Huang, Hai, et al.
Pubblicazione: (2023)
Text Steganography with Dynamic Codebook and Multimodal Large Language Model
di: Gao, Jianxin, et al.
Pubblicazione: (2026)
di: Gao, Jianxin, et al.
Pubblicazione: (2026)
Clean-image Backdoor Attacks
di: Rong, Dazhong, et al.
Pubblicazione: (2024)
di: Rong, Dazhong, et al.
Pubblicazione: (2024)
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review
di: Cheng, Pengzhou, et al.
Pubblicazione: (2023)
di: Cheng, Pengzhou, et al.
Pubblicazione: (2023)
Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models
di: Yu, Miao, et al.
Pubblicazione: (2025)
di: Yu, Miao, et al.
Pubblicazione: (2025)
Transferring Backdoors between Large Language Models by Knowledge Distillation
di: Cheng, Pengzhou, et al.
Pubblicazione: (2024)
di: Cheng, Pengzhou, et al.
Pubblicazione: (2024)
Unlearning-Enhanced Website Fingerprinting Attack: Against Backdoor Poisoning in Anonymous Networks
di: Yuan, Yali, et al.
Pubblicazione: (2025)
di: Yuan, Yali, et al.
Pubblicazione: (2025)
ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models
di: Liu, Xuxu, et al.
Pubblicazione: (2025)
di: Liu, Xuxu, et al.
Pubblicazione: (2025)
CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models
di: Li, Yuetai, et al.
Pubblicazione: (2024)
di: Li, Yuetai, et al.
Pubblicazione: (2024)
Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks
di: Yuan, Danni, et al.
Pubblicazione: (2023)
di: Yuan, Danni, et al.
Pubblicazione: (2023)
FFCBA: Feature-based Full-target Clean-label Backdoor Attacks
di: Yin, Yangxu, et al.
Pubblicazione: (2025)
di: Yin, Yangxu, et al.
Pubblicazione: (2025)
TrojanEdit: Multimodal Backdoor Attack Against Image Editing Model
di: Guo, Ji, et al.
Pubblicazione: (2024)
di: Guo, Ji, et al.
Pubblicazione: (2024)
Backdooring Masked Diffusion Language Models
di: Cao, Daniel Yiming, et al.
Pubblicazione: (2026)
di: Cao, Daniel Yiming, et al.
Pubblicazione: (2026)
BadTemplate: A Training-Free Backdoor Attack via Chat Template Against Large Language Models
di: Wang, Zihan, et al.
Pubblicazione: (2026)
di: Wang, Zihan, et al.
Pubblicazione: (2026)
BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger
di: Chen, Yulin, et al.
Pubblicazione: (2024)
di: Chen, Yulin, et al.
Pubblicazione: (2024)
Concept-Guided Backdoor Attack on Vision Language Models
di: Shen, Haoyu, et al.
Pubblicazione: (2025)
di: Shen, Haoyu, et al.
Pubblicazione: (2025)
BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models
di: Wang, Zihan, et al.
Pubblicazione: (2025)
di: Wang, Zihan, et al.
Pubblicazione: (2025)
Documenti analoghi
-
EditMF: Drawing an Invisible Fingerprint for Your Large Language Models
di: Wu, Jiaxuan, et al.
Pubblicazione: (2025) -
BadApex: Backdoor Attack Based on Adaptive Optimization Mechanism of Black-box Large Language Models
di: Wu, Zhengxian, et al.
Pubblicazione: (2025) -
SLIP: Soft Label Mechanism and Key-Extraction-Guided CoT-based Defense Against Instruction Backdoor in APIs
di: Wu, Zhengxian, et al.
Pubblicazione: (2025) -
BeDKD: Backdoor Defense Based on Directional Mapping Module and Adversarial Knowledge Distillation
di: Wu, Zhengxian, et al.
Pubblicazione: (2025) -
Self-Disguise Attack: Induce the LLM to disguise itself for AIGT detection evasion
di: Zhou, Yinghan, et al.
Pubblicazione: (2025)