:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Xu, Zhenhua, Zhao, Xixiang, Yue, Xubin, Tian, Shengwei, Lin, Changting, Han, Meng
Format:	Preprint
Published:	2025
Subjects:	Computation and Language Artificial Intelligence
Online Access:	https://arxiv.org/abs/2509.09703
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

EverTracer: Hunting Stolen Large Language Models via Stealthy and Robust Probabilistic Fingerprint
by: Xu, Zhenhua, et al.
Published: (2025)

Copyright Protection for Large Language Models: A Survey of Methods, Challenges, and Trends
by: Xu, Zhenhua, et al.
Published: (2025)

DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection
by: Xu, Zhenhua, et al.
Published: (2026)

PREE: Towards Harmless and Adaptive Fingerprint Editing in Large Language Models via Knowledge Prefix Enhancement
by: Yue, Xubin, et al.
Published: (2025)

ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models
by: Xu, Zhenhua, et al.
Published: (2026)

Bloodroot: When Watermarking Turns Poisonous For Stealthy Backdoor
by: Chen, Kuan-Yu, et al.
Published: (2025)

Silencing the Guardrails: Inference-Time Jailbreaking via Dynamic Contextual Representation Ablation
by: Xing, Wenpeng, et al.
Published: (2026)

Stealthy Backdoor Attack via Confidence-driven Sampling
by: He, Pengfei, et al.
Published: (2023)

MEraser: An Effective Fingerprint Erasure Approach for Large Language Models
by: Zhang, Jingxuan, et al.
Published: (2025)

Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections
by: Cao, Yuanpu, et al.
Published: (2023)

AttnDiff: Attention-based Differential Fingerprinting for Large Language Models
by: Zhang, Haobo, et al.
Published: (2026)

NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models
by: Zhou, Yi, et al.
Published: (2025)

CoTSRF: Utilize Chain of Thought as Stealthy and Robust Fingerprint of Large Language Models
by: Ren, Zhenzhen, et al.
Published: (2025)

HGMF: A Hierarchical Gaussian Mixture Framework for Scalable Tool Invocation within the Model Context Protocol
by: Xing, Wenpeng, et al.
Published: (2025)

Web Fraud Attacks Against LLM-Driven Multi-Agent Systems
by: Kong, Dezhang, et al.
Published: (2025)

KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing
by: Xu, Zhenhua, et al.
Published: (2026)

Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models
by: Jiang, Peihai, et al.
Published: (2025)

Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs
by: Kong, Jiawei, et al.
Published: (2025)

Fingerprint Vector: Enabling Scalable and Efficient Model Fingerprint Transfer via Vector Addition
by: Xu, Zhenhua, et al.
Published: (2024)

SteganoBackdoor: Stealthy and Data-Efficient Backdoor Attacks on Language Models
by: Xue, Eric, et al.
Published: (2025)

Under-confidence Backdoors Are Resilient and Stealthy Backdoors
by: Peng, Minlong, et al.
Published: (2022)

LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models
by: Lin, Shi, et al.
Published: (2024)

Towards Backdoor Stealthiness in Model Parameter Space
by: Xu, Xiaoyun, et al.
Published: (2025)

Stealthy Targeted Backdoor Attacks against Image Captioning
by: Fan, Wenshu, et al.
Published: (2024)

Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks
by: Li, Ziqiang, et al.
Published: (2024)

AutoLLM-CARD: Towards a Description and Landscape of Large Language Models
by: Tian, Shengwei, et al.
Published: (2024)

Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors
by: Yin, Rui, et al.
Published: (2026)

Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models
by: Chen, Jinwen, et al.
Published: (2025)

Inhibitory Attacks on Backdoor-based Fingerprinting for Large Language Models
by: Fu, Hang, et al.
Published: (2026)

Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation
by: Zhong, Zhiyuan, et al.
Published: (2025)

Planning Stealthy Backdoor Attacks in MDPs with Observation-Based Triggers
by: Wei, Xinyi, et al.
Published: (2025)

SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth
by: Xing, Wenpeng, et al.
Published: (2025)

ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs
by: Zhao, Gejian, et al.
Published: (2025)

Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models
by: Liu, Zhaoyi, et al.
Published: (2025)

Lurking in the shadows: Unveiling Stealthy Backdoor Attacks against Personalized Federated Learning
by: Lyu, Xiaoting, et al.
Published: (2024)

StealthMark: Harmless and Stealthy Ownership Verification for Medical Segmentation via Uncertainty-Guided Backdoors
by: Yu, Qinkai, et al.
Published: (2026)

Turn-Based Structural Triggers: Prompt-Free Backdoors in Multi-Turn LLMs
by: Lu, Yiyang, et al.
Published: (2026)

Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring
by: Mu, Honglin, et al.
Published: (2024)

MIST: Jailbreaking Black-box Large Language Models via Iterative Semantic Tuning
by: Zheng, Muyang, et al.
Published: (2025)

Stealthy and Robust Backdoor Attack against 3D Point Clouds through Additional Point Features
by: Ning, Xiaoyang, et al.
Published: (2024)