Salvato in:
| Autori principali: | Zhao, Chongwen, Ke, Yutong, Huang, Kaizhu |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2509.01631 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Defending against Jailbreak through Early Exit Generation of Large Language Models
di: Zhao, Chongwen, et al.
Pubblicazione: (2024)
di: Zhao, Chongwen, et al.
Pubblicazione: (2024)
SafeBehavior: Simulating Human-Like Multistage Reasoning to Mitigate Jailbreak Attacks in Large Language Models
di: Zhao, Qinjian, et al.
Pubblicazione: (2025)
di: Zhao, Qinjian, et al.
Pubblicazione: (2025)
Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression
di: Peng, Jingyu, et al.
Pubblicazione: (2025)
di: Peng, Jingyu, et al.
Pubblicazione: (2025)
Efficient LLM-Jailbreaking via Multimodal-LLM Jailbreak
di: Ji, Haoxuan, et al.
Pubblicazione: (2024)
di: Ji, Haoxuan, et al.
Pubblicazione: (2024)
Partial Differential Equations is All You Need for Generating Neural Architectures -- A Theory for Physical Artificial Intelligence Systems
di: Guo, Ping, et al.
Pubblicazione: (2021)
di: Guo, Ping, et al.
Pubblicazione: (2021)
A generalizable framework for low-rank tensor completion with numerical priors
di: Yuan, Shiran, et al.
Pubblicazione: (2023)
di: Yuan, Shiran, et al.
Pubblicazione: (2023)
Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron
di: Shen, Sicheng, et al.
Pubblicazione: (2026)
di: Shen, Sicheng, et al.
Pubblicazione: (2026)
Toward Principled LLM Safety Testing: Solving the Jailbreak Oracle Problem
di: Lin, Shuyi, et al.
Pubblicazione: (2025)
di: Lin, Shuyi, et al.
Pubblicazione: (2025)
How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States
di: Zhou, Zhenhong, et al.
Pubblicazione: (2024)
di: Zhou, Zhenhong, et al.
Pubblicazione: (2024)
LLM-Powered Explanations: Unraveling Recommendations Through Subgraph Reasoning
di: Shi, Guangsi, et al.
Pubblicazione: (2024)
di: Shi, Guangsi, et al.
Pubblicazione: (2024)
Can MLLMs Absorb Math Reasoning Abilities from LLMs as Free Lunch?
di: Hu, Yijie, et al.
Pubblicazione: (2025)
di: Hu, Yijie, et al.
Pubblicazione: (2025)
Jailbreaking LLM-Controlled Robots
di: Robey, Alexander, et al.
Pubblicazione: (2024)
di: Robey, Alexander, et al.
Pubblicazione: (2024)
Learning from Risk: LLM-Guided Generation of Safety-Critical Scenarios with Prior Knowledge
di: Wang, Yuhang, et al.
Pubblicazione: (2025)
di: Wang, Yuhang, et al.
Pubblicazione: (2025)
Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models
di: Tu, Shangqing, et al.
Pubblicazione: (2024)
di: Tu, Shangqing, et al.
Pubblicazione: (2024)
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue
di: Wang, Fengxiang, et al.
Pubblicazione: (2024)
di: Wang, Fengxiang, et al.
Pubblicazione: (2024)
Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts
di: Zhang, Tianyu, et al.
Pubblicazione: (2024)
di: Zhang, Tianyu, et al.
Pubblicazione: (2024)
Rethinking Multi-domain Generalization with A General Learning Objective
di: Tan, Zhaorui, et al.
Pubblicazione: (2024)
di: Tan, Zhaorui, et al.
Pubblicazione: (2024)
Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety
di: Nair, Variath Madhupal Gautham, et al.
Pubblicazione: (2025)
di: Nair, Variath Madhupal Gautham, et al.
Pubblicazione: (2025)
Adaptive Prompt Embedding Optimization for LLM Jailbreaking
di: Li, Miles Q., et al.
Pubblicazione: (2026)
di: Li, Miles Q., et al.
Pubblicazione: (2026)
Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads
di: Wu, Jinman, et al.
Pubblicazione: (2026)
di: Wu, Jinman, et al.
Pubblicazione: (2026)
Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges
di: Koo, Hamin, et al.
Pubblicazione: (2025)
di: Koo, Hamin, et al.
Pubblicazione: (2025)
Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?
di: Xin, Yuan, et al.
Pubblicazione: (2025)
di: Xin, Yuan, et al.
Pubblicazione: (2025)
Efficient Safety Retrofitting Against Jailbreaking for LLMs
di: Garcia-Gasulla, Dario, et al.
Pubblicazione: (2025)
di: Garcia-Gasulla, Dario, et al.
Pubblicazione: (2025)
Rethinking Information Loss in Medical Image Segmentation with Various-sized Targets
di: Liu, Tianyi, et al.
Pubblicazione: (2024)
di: Liu, Tianyi, et al.
Pubblicazione: (2024)
Towards Faithful Reasoning in Comics for Small MLLMs
di: Feng, Chengcheng, et al.
Pubblicazione: (2026)
di: Feng, Chengcheng, et al.
Pubblicazione: (2026)
CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence
di: Cheng, Yutong, et al.
Pubblicazione: (2025)
di: Cheng, Yutong, et al.
Pubblicazione: (2025)
Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning
di: Yang, Xianglin, et al.
Pubblicazione: (2025)
di: Yang, Xianglin, et al.
Pubblicazione: (2025)
Jailbreaking to Jailbreak
di: Kritz, Jeremy, et al.
Pubblicazione: (2025)
di: Kritz, Jeremy, et al.
Pubblicazione: (2025)
Un-mixing Test-time Adaptation under Heterogeneous Data Streams
di: Su, Zixian, et al.
Pubblicazione: (2024)
di: Su, Zixian, et al.
Pubblicazione: (2024)
Rethinking Spectral Graph Neural Networks with Spatially Adaptive Filtering
di: Guo, Jingwei, et al.
Pubblicazione: (2024)
di: Guo, Jingwei, et al.
Pubblicazione: (2024)
Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing
di: Zhao, Yinzhi, et al.
Pubblicazione: (2026)
di: Zhao, Yinzhi, et al.
Pubblicazione: (2026)
The Echo Chamber Multi-Turn LLM Jailbreak
di: Alobaid, Ahmad, et al.
Pubblicazione: (2026)
di: Alobaid, Ahmad, et al.
Pubblicazione: (2026)
Bleeding Pathways: Vanishing Discriminability in LLM Hidden States Fuels Jailbreak Attacks
di: Zhang, Yingjie, et al.
Pubblicazione: (2025)
di: Zhang, Yingjie, et al.
Pubblicazione: (2025)
The Art of the Jailbreak: Formulating Jailbreak Attacks for LLM Security Beyond Binary Scoring
di: Hossain, Ismail, et al.
Pubblicazione: (2026)
di: Hossain, Ismail, et al.
Pubblicazione: (2026)
LLM Jailbreak Detection for (Almost) Free!
di: Chen, Guorui, et al.
Pubblicazione: (2025)
di: Chen, Guorui, et al.
Pubblicazione: (2025)
IRCAN: Mitigating Knowledge Conflicts in LLM Generation via Identifying and Reweighting Context-Aware Neurons
di: Shi, Dan, et al.
Pubblicazione: (2024)
di: Shi, Dan, et al.
Pubblicazione: (2024)
Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
di: Cao, Chentao, et al.
Pubblicazione: (2025)
di: Cao, Chentao, et al.
Pubblicazione: (2025)
Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling
di: Wang, Ziwei, et al.
Pubblicazione: (2026)
di: Wang, Ziwei, et al.
Pubblicazione: (2026)
SafeDream: Safety World Model for Proactive Early Jailbreak Detection
di: Yan, Bo, et al.
Pubblicazione: (2026)
di: Yan, Bo, et al.
Pubblicazione: (2026)
Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models
di: Chen, Yuheng, et al.
Pubblicazione: (2024)
di: Chen, Yuheng, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Defending against Jailbreak through Early Exit Generation of Large Language Models
di: Zhao, Chongwen, et al.
Pubblicazione: (2024) -
SafeBehavior: Simulating Human-Like Multistage Reasoning to Mitigate Jailbreak Attacks in Large Language Models
di: Zhao, Qinjian, et al.
Pubblicazione: (2025) -
Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression
di: Peng, Jingyu, et al.
Pubblicazione: (2025) -
Efficient LLM-Jailbreaking via Multimodal-LLM Jailbreak
di: Ji, Haoxuan, et al.
Pubblicazione: (2024) -
Partial Differential Equations is All You Need for Generating Neural Architectures -- A Theory for Physical Artificial Intelligence Systems
di: Guo, Ping, et al.
Pubblicazione: (2021)