:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Zhao, Chongwen, Ke, Yutong, Huang, Kaizhu
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2509.01631
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Defending against Jailbreak through Early Exit Generation of Large Language Models
di: Zhao, Chongwen, et al.
Pubblicazione: (2024)

SafeBehavior: Simulating Human-Like Multistage Reasoning to Mitigate Jailbreak Attacks in Large Language Models
di: Zhao, Qinjian, et al.
Pubblicazione: (2025)

Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression
di: Peng, Jingyu, et al.
Pubblicazione: (2025)

Efficient LLM-Jailbreaking via Multimodal-LLM Jailbreak
di: Ji, Haoxuan, et al.
Pubblicazione: (2024)

Partial Differential Equations is All You Need for Generating Neural Architectures -- A Theory for Physical Artificial Intelligence Systems
di: Guo, Ping, et al.
Pubblicazione: (2021)

A generalizable framework for low-rank tensor completion with numerical priors
di: Yuan, Shiran, et al.
Pubblicazione: (2023)

Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron
di: Shen, Sicheng, et al.
Pubblicazione: (2026)

Toward Principled LLM Safety Testing: Solving the Jailbreak Oracle Problem
di: Lin, Shuyi, et al.
Pubblicazione: (2025)

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States
di: Zhou, Zhenhong, et al.
Pubblicazione: (2024)

LLM-Powered Explanations: Unraveling Recommendations Through Subgraph Reasoning
di: Shi, Guangsi, et al.
Pubblicazione: (2024)

Can MLLMs Absorb Math Reasoning Abilities from LLMs as Free Lunch?
di: Hu, Yijie, et al.
Pubblicazione: (2025)

Jailbreaking LLM-Controlled Robots
di: Robey, Alexander, et al.
Pubblicazione: (2024)

Learning from Risk: LLM-Guided Generation of Safety-Critical Scenarios with Prior Knowledge
di: Wang, Yuhang, et al.
Pubblicazione: (2025)

Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models
di: Tu, Shangqing, et al.
Pubblicazione: (2024)

MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue
di: Wang, Fengxiang, et al.
Pubblicazione: (2024)

Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts
di: Zhang, Tianyu, et al.
Pubblicazione: (2024)

Rethinking Multi-domain Generalization with A General Learning Objective
di: Tan, Zhaorui, et al.
Pubblicazione: (2024)

Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety
di: Nair, Variath Madhupal Gautham, et al.
Pubblicazione: (2025)

Adaptive Prompt Embedding Optimization for LLM Jailbreaking
di: Li, Miles Q., et al.
Pubblicazione: (2026)

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads
di: Wu, Jinman, et al.
Pubblicazione: (2026)

Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges
di: Koo, Hamin, et al.
Pubblicazione: (2025)

Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?
di: Xin, Yuan, et al.
Pubblicazione: (2025)

Efficient Safety Retrofitting Against Jailbreaking for LLMs
di: Garcia-Gasulla, Dario, et al.
Pubblicazione: (2025)

Rethinking Information Loss in Medical Image Segmentation with Various-sized Targets
di: Liu, Tianyi, et al.
Pubblicazione: (2024)

Towards Faithful Reasoning in Comics for Small MLLMs
di: Feng, Chengcheng, et al.
Pubblicazione: (2026)

CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence
di: Cheng, Yutong, et al.
Pubblicazione: (2025)

Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning
di: Yang, Xianglin, et al.
Pubblicazione: (2025)

Jailbreaking to Jailbreak
di: Kritz, Jeremy, et al.
Pubblicazione: (2025)

Un-mixing Test-time Adaptation under Heterogeneous Data Streams
di: Su, Zixian, et al.
Pubblicazione: (2024)

Rethinking Spectral Graph Neural Networks with Spatially Adaptive Filtering
di: Guo, Jingwei, et al.
Pubblicazione: (2024)

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing
di: Zhao, Yinzhi, et al.
Pubblicazione: (2026)

The Echo Chamber Multi-Turn LLM Jailbreak
di: Alobaid, Ahmad, et al.
Pubblicazione: (2026)

Bleeding Pathways: Vanishing Discriminability in LLM Hidden States Fuels Jailbreak Attacks
di: Zhang, Yingjie, et al.
Pubblicazione: (2025)

The Art of the Jailbreak: Formulating Jailbreak Attacks for LLM Security Beyond Binary Scoring
di: Hossain, Ismail, et al.
Pubblicazione: (2026)

LLM Jailbreak Detection for (Almost) Free!
di: Chen, Guorui, et al.
Pubblicazione: (2025)

IRCAN: Mitigating Knowledge Conflicts in LLM Generation via Identifying and Reweighting Context-Aware Neurons
di: Shi, Dan, et al.
Pubblicazione: (2024)

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
di: Cao, Chentao, et al.
Pubblicazione: (2025)

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling
di: Wang, Ziwei, et al.
Pubblicazione: (2026)

SafeDream: Safety World Model for Proactive Early Jailbreak Detection
di: Yan, Bo, et al.
Pubblicazione: (2026)

Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models
di: Chen, Yuheng, et al.
Pubblicazione: (2024)