:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Author:	Halloran, John T.
Format:	Preprint
Published:	2026
Subjects:	Cryptography and Security Artificial Intelligence Machine Learning
Online Access:	https://arxiv.org/abs/2604.02574
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits
by: Radosevich, Brandon, et al.
Published: (2025)

Leveraging RAG for Training-Free Alignment of LLMs
by: Halloran, John T.
Published: (2026)

Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks
by: Halloran, John T., et al.
Published: (2026)

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models
by: Wu, Jinman, et al.
Published: (2026)

UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models
by: Sun, Yuhao, et al.
Published: (2025)

MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment
by: Halloran, John
Published: (2025)

Pharmacist: Safety Alignment Data Curation for Large Language Models against Harmful Fine-tuning
by: Liu, Guozhi, et al.
Published: (2025)

Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable
by: Huang, Tiansheng, et al.
Published: (2025)

Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing
by: Wahréus, Johan, et al.
Published: (2025)

On the Role of Attention Heads in Large Language Model Safety
by: Zhou, Zhenhong, et al.
Published: (2024)

SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models
by: Fang, Junfeng, et al.
Published: (2025)

Probing the Robustness of Large Language Models Safety to Latent Perturbations
by: Gu, Tianle, et al.
Published: (2025)

Watermark Stealing in Large Language Models
by: Jovanović, Nikola, et al.
Published: (2024)

Privacy Auditing of Large Language Models
by: Panda, Ashwinee, et al.
Published: (2025)

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models
by: Li, Lijun, et al.
Published: (2024)

Model-based Large Language Model Customization as Service
by: Wu, Zhaomin, et al.
Published: (2024)

Jailbreaking and Mitigation of Vulnerabilities in Large Language Models
by: Peng, Benji, et al.
Published: (2024)

Exploring the Secondary Risks of Large Language Models
by: Chen, Jiawei, et al.
Published: (2025)

Finetuning Large Language Models for Vulnerability Detection
by: Shestov, Alexey, et al.
Published: (2024)

Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs
by: Fonseca, Joao, et al.
Published: (2025)

Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections
by: Cao, Yuanpu, et al.
Published: (2023)

Information Theoretic Adversarial Training of Large Language Models
by: Zhang, Yiwei, et al.
Published: (2026)

Prompt Injection Attacks on Large Language Models in Oncology
by: Clusmann, Jan, et al.
Published: (2024)

Towards Characterizing Cyber Networks with Large Language Models
by: Hartsock, Alaric, et al.
Published: (2024)

Adaptive PII Mitigation Framework for Large Language Models
by: Asthana, Shubhi, et al.
Published: (2025)

Large Language Models Are Unreliable for Cyber Threat Intelligence
by: Mezzi, Emanuele, et al.
Published: (2025)

A Survey on Model Extraction Attacks and Defenses for Large Language Models
by: Zhao, Kaixiang, et al.
Published: (2025)

Lifelong Safety Alignment for Language Models
by: Wang, Haoyu, et al.
Published: (2025)

Evaluating Large Language Models for Security Bug Report Prediction
by: Soltaniani, Farnaz, et al.
Published: (2026)

Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices
by: Abdali, Sara, et al.
Published: (2024)

Permissioned LLMs: Enforcing Access Control in Large Language Models
by: Jayaraman, Bargav, et al.
Published: (2025)

Large Language Models in Cybersecurity: Applications, Vulnerabilities, and Defense Techniques
by: Jaffal, Niveen O., et al.
Published: (2025)

DMark: Order-Agnostic Watermarking for Diffusion Large Language Models
by: Wu, Linyu, et al.
Published: (2025)

Model Inversion Attacks on Llama 3: Extracting PII from Large Language Models
by: Sivashanmugam, Sathesh P.
Published: (2025)

Evaluating the Reliability and Fidelity of Automated Judgment Systems of Large Language Models
by: Biskupski, Tom, et al.
Published: (2026)

Differentially Private Preference Data Synthesis for Large Language Model Alignment
by: Gao, Fengyu, et al.
Published: (2026)

Beyond Data Privacy: New Privacy Risks for Large Language Models
by: Du, Yuntao, et al.
Published: (2025)

Reconstruction of Differentially Private Text Sanitization via Large Language Models
by: Pang, Shuchao, et al.
Published: (2024)

Improved Large Language Model Jailbreak Detection via Pretrained Embeddings
by: Galinkin, Erick, et al.
Published: (2024)

PLeak: Prompt Leaking Attacks against Large Language Model Applications
by: Hui, Bo, et al.
Published: (2024)