:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Yu, Mingyu, Wang, Wei, Wei, Yanjie, Qin, Sujuan, Gao, Fei, Li, Wenmin
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computation and Language
Online-Zugang:	https://arxiv.org/abs/2505.23404
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

LASH: Adaptive Semantic Hybridization for Black-Box Jailbreaking of Large Language Models
von: Nafi, Abdullah Al Nomaan, et al.
Veröffentlicht: (2026)

Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
von: Yu, Mingyu, et al.
Veröffentlicht: (2026)

Open Sesame! Universal Black Box Jailbreaking of Large Language Models
von: Lapid, Raz, et al.
Veröffentlicht: (2023)

Black-Box On-Policy Distillation of Large Language Models
von: Ye, Tianzhu, et al.
Veröffentlicht: (2025)

EvoDefense: Co-Evolving Black-Box Defense with Large Language Models
von: Li, Yu, et al.
Veröffentlicht: (2026)

The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models
von: Liu, Yilun, et al.
Veröffentlicht: (2026)

BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models
von: Wang, Xinyuan, et al.
Veröffentlicht: (2024)

EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models
von: Zhou, Weikang, et al.
Veröffentlicht: (2024)

TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models
von: Chu, Zheng, et al.
Veröffentlicht: (2023)

Persona Jailbreaking in Large Language Models
von: Sandhan, Jivnesh, et al.
Veröffentlicht: (2026)

"Moralized" Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks
von: Wang, Libo
Veröffentlicht: (2024)

Disentangling Memory and Reasoning Ability in Large Language Models
von: Jin, Mingyu, et al.
Veröffentlicht: (2024)

BBox-Adapter: Lightweight Adapting for Black-Box Large Language Models
von: Sun, Haotian, et al.
Veröffentlicht: (2024)

JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models
von: Feng, Yingchaojie, et al.
Veröffentlicht: (2024)

AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
von: Shu, Dong, et al.
Veröffentlicht: (2024)

Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models
von: Li, Jiahui, et al.
Veröffentlicht: (2024)

Diversity Helps Jailbreak Large Language Models
von: Zhao, Weiliang, et al.
Veröffentlicht: (2024)

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models
von: Cheng, Siyang, et al.
Veröffentlicht: (2025)

Weak-to-Strong Jailbreaking on Large Language Models
von: Zhao, Xuandong, et al.
Veröffentlicht: (2024)

Knowledge Distillation of Black-Box Large Language Models
von: Chen, Hongzhan, et al.
Veröffentlicht: (2024)

FedDTPT: Federated Discrete and Transferable Prompt Tuning for Black-Box Large Language Models
von: Wu, Jiaqi, et al.
Veröffentlicht: (2024)

Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations
von: Mo, Wenjie, et al.
Veröffentlicht: (2023)

Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking
von: Xu, Nan, et al.
Veröffentlicht: (2023)

Beyond the Black Box: A Survey on the Theory and Mechanism of Large Language Models
von: Gan, Zeyu, et al.
Veröffentlicht: (2026)

InFoBench: Evaluating Instruction Following Ability in Large Language Models
von: Qin, Yiwei, et al.
Veröffentlicht: (2024)

Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models
von: Xu, Yue, et al.
Veröffentlicht: (2024)

Imperceptible Jailbreaking against Large Language Models
von: Gao, Kuofeng, et al.
Veröffentlicht: (2025)

Unleashing the Unseen: Harnessing Benign Datasets for Jailbreaking Large Language Models
von: Zhao, Wei, et al.
Veröffentlicht: (2024)

AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models
von: Zhu, Qin, et al.
Veröffentlicht: (2025)

Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
von: Zhang, Chiyu, et al.
Veröffentlicht: (2025)

Entropy-Based Adaptive Weighting for Self-Training
von: Wang, Xiaoxuan, et al.
Veröffentlicht: (2025)

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models
von: Xu, Zhi, et al.
Veröffentlicht: (2026)

Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models
von: Tu, Shangqing, et al.
Veröffentlicht: (2024)

TrailBlazer: History-Guided Reinforcement Learning for Black-Box LLM Jailbreaking
von: Yoon, Sung-Hoon, et al.
Veröffentlicht: (2026)

Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization
von: Zhang, Zhexin, et al.
Veröffentlicht: (2023)

Self-Evolving Critique Abilities in Large Language Models
von: Tang, Zhengyang, et al.
Veröffentlicht: (2025)

Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology
von: Wang, Zhenhua, et al.
Veröffentlicht: (2024)

Jailbreaking Large Language Models with Morality Attacks
von: Su, Ying, et al.
Veröffentlicht: (2026)

Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue
von: Gu, Jia-Chen, et al.
Veröffentlicht: (2024)

SODA: Semi On-Policy Black-Box Distillation for Large Language Models
von: Chen, Xiwen, et al.
Veröffentlicht: (2026)