Gespeichert in:
| Hauptverfasser: | Yu, Mingyu, Wang, Wei, Wei, Yanjie, Qin, Sujuan, Gao, Fei, Li, Wenmin |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2505.23404 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
LASH: Adaptive Semantic Hybridization for Black-Box Jailbreaking of Large Language Models
von: Nafi, Abdullah Al Nomaan, et al.
Veröffentlicht: (2026)
von: Nafi, Abdullah Al Nomaan, et al.
Veröffentlicht: (2026)
Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
von: Yu, Mingyu, et al.
Veröffentlicht: (2026)
von: Yu, Mingyu, et al.
Veröffentlicht: (2026)
Open Sesame! Universal Black Box Jailbreaking of Large Language Models
von: Lapid, Raz, et al.
Veröffentlicht: (2023)
von: Lapid, Raz, et al.
Veröffentlicht: (2023)
Black-Box On-Policy Distillation of Large Language Models
von: Ye, Tianzhu, et al.
Veröffentlicht: (2025)
von: Ye, Tianzhu, et al.
Veröffentlicht: (2025)
EvoDefense: Co-Evolving Black-Box Defense with Large Language Models
von: Li, Yu, et al.
Veröffentlicht: (2026)
von: Li, Yu, et al.
Veröffentlicht: (2026)
The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models
von: Liu, Yilun, et al.
Veröffentlicht: (2026)
von: Liu, Yilun, et al.
Veröffentlicht: (2026)
BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models
von: Wang, Xinyuan, et al.
Veröffentlicht: (2024)
von: Wang, Xinyuan, et al.
Veröffentlicht: (2024)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models
von: Zhou, Weikang, et al.
Veröffentlicht: (2024)
von: Zhou, Weikang, et al.
Veröffentlicht: (2024)
TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models
von: Chu, Zheng, et al.
Veröffentlicht: (2023)
von: Chu, Zheng, et al.
Veröffentlicht: (2023)
Persona Jailbreaking in Large Language Models
von: Sandhan, Jivnesh, et al.
Veröffentlicht: (2026)
von: Sandhan, Jivnesh, et al.
Veröffentlicht: (2026)
"Moralized" Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks
von: Wang, Libo
Veröffentlicht: (2024)
von: Wang, Libo
Veröffentlicht: (2024)
Disentangling Memory and Reasoning Ability in Large Language Models
von: Jin, Mingyu, et al.
Veröffentlicht: (2024)
von: Jin, Mingyu, et al.
Veröffentlicht: (2024)
BBox-Adapter: Lightweight Adapting for Black-Box Large Language Models
von: Sun, Haotian, et al.
Veröffentlicht: (2024)
von: Sun, Haotian, et al.
Veröffentlicht: (2024)
JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models
von: Feng, Yingchaojie, et al.
Veröffentlicht: (2024)
von: Feng, Yingchaojie, et al.
Veröffentlicht: (2024)
AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
von: Shu, Dong, et al.
Veröffentlicht: (2024)
von: Shu, Dong, et al.
Veröffentlicht: (2024)
Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models
von: Li, Jiahui, et al.
Veröffentlicht: (2024)
von: Li, Jiahui, et al.
Veröffentlicht: (2024)
Diversity Helps Jailbreak Large Language Models
von: Zhao, Weiliang, et al.
Veröffentlicht: (2024)
von: Zhao, Weiliang, et al.
Veröffentlicht: (2024)
ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models
von: Cheng, Siyang, et al.
Veröffentlicht: (2025)
von: Cheng, Siyang, et al.
Veröffentlicht: (2025)
Weak-to-Strong Jailbreaking on Large Language Models
von: Zhao, Xuandong, et al.
Veröffentlicht: (2024)
von: Zhao, Xuandong, et al.
Veröffentlicht: (2024)
Knowledge Distillation of Black-Box Large Language Models
von: Chen, Hongzhan, et al.
Veröffentlicht: (2024)
von: Chen, Hongzhan, et al.
Veröffentlicht: (2024)
FedDTPT: Federated Discrete and Transferable Prompt Tuning for Black-Box Large Language Models
von: Wu, Jiaqi, et al.
Veröffentlicht: (2024)
von: Wu, Jiaqi, et al.
Veröffentlicht: (2024)
Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations
von: Mo, Wenjie, et al.
Veröffentlicht: (2023)
von: Mo, Wenjie, et al.
Veröffentlicht: (2023)
Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking
von: Xu, Nan, et al.
Veröffentlicht: (2023)
von: Xu, Nan, et al.
Veröffentlicht: (2023)
Beyond the Black Box: A Survey on the Theory and Mechanism of Large Language Models
von: Gan, Zeyu, et al.
Veröffentlicht: (2026)
von: Gan, Zeyu, et al.
Veröffentlicht: (2026)
InFoBench: Evaluating Instruction Following Ability in Large Language Models
von: Qin, Yiwei, et al.
Veröffentlicht: (2024)
von: Qin, Yiwei, et al.
Veröffentlicht: (2024)
Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models
von: Xu, Yue, et al.
Veröffentlicht: (2024)
von: Xu, Yue, et al.
Veröffentlicht: (2024)
Imperceptible Jailbreaking against Large Language Models
von: Gao, Kuofeng, et al.
Veröffentlicht: (2025)
von: Gao, Kuofeng, et al.
Veröffentlicht: (2025)
Unleashing the Unseen: Harnessing Benign Datasets for Jailbreaking Large Language Models
von: Zhao, Wei, et al.
Veröffentlicht: (2024)
von: Zhao, Wei, et al.
Veröffentlicht: (2024)
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models
von: Zhu, Qin, et al.
Veröffentlicht: (2025)
von: Zhu, Qin, et al.
Veröffentlicht: (2025)
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
von: Zhang, Chiyu, et al.
Veröffentlicht: (2025)
von: Zhang, Chiyu, et al.
Veröffentlicht: (2025)
Entropy-Based Adaptive Weighting for Self-Training
von: Wang, Xiaoxuan, et al.
Veröffentlicht: (2025)
von: Wang, Xiaoxuan, et al.
Veröffentlicht: (2025)
TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models
von: Xu, Zhi, et al.
Veröffentlicht: (2026)
von: Xu, Zhi, et al.
Veröffentlicht: (2026)
Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models
von: Tu, Shangqing, et al.
Veröffentlicht: (2024)
von: Tu, Shangqing, et al.
Veröffentlicht: (2024)
TrailBlazer: History-Guided Reinforcement Learning for Black-Box LLM Jailbreaking
von: Yoon, Sung-Hoon, et al.
Veröffentlicht: (2026)
von: Yoon, Sung-Hoon, et al.
Veröffentlicht: (2026)
Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization
von: Zhang, Zhexin, et al.
Veröffentlicht: (2023)
von: Zhang, Zhexin, et al.
Veröffentlicht: (2023)
Self-Evolving Critique Abilities in Large Language Models
von: Tang, Zhengyang, et al.
Veröffentlicht: (2025)
von: Tang, Zhengyang, et al.
Veröffentlicht: (2025)
Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology
von: Wang, Zhenhua, et al.
Veröffentlicht: (2024)
von: Wang, Zhenhua, et al.
Veröffentlicht: (2024)
Jailbreaking Large Language Models with Morality Attacks
von: Su, Ying, et al.
Veröffentlicht: (2026)
von: Su, Ying, et al.
Veröffentlicht: (2026)
Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue
von: Gu, Jia-Chen, et al.
Veröffentlicht: (2024)
von: Gu, Jia-Chen, et al.
Veröffentlicht: (2024)
SODA: Semi On-Policy Black-Box Distillation for Large Language Models
von: Chen, Xiwen, et al.
Veröffentlicht: (2026)
von: Chen, Xiwen, et al.
Veröffentlicht: (2026)
Ähnliche Einträge
-
LASH: Adaptive Semantic Hybridization for Black-Box Jailbreaking of Large Language Models
von: Nafi, Abdullah Al Nomaan, et al.
Veröffentlicht: (2026) -
Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
von: Yu, Mingyu, et al.
Veröffentlicht: (2026) -
Open Sesame! Universal Black Box Jailbreaking of Large Language Models
von: Lapid, Raz, et al.
Veröffentlicht: (2023) -
Black-Box On-Policy Distillation of Large Language Models
von: Ye, Tianzhu, et al.
Veröffentlicht: (2025) -
EvoDefense: Co-Evolving Black-Box Defense with Large Language Models
von: Li, Yu, et al.
Veröffentlicht: (2026)