Gespeichert in:
| Hauptverfasser: | Yang, Zhenning, Krawec, Ryan, Wu, Liang-Yuan |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2405.00289 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Defensive Dual Masking for Robust Adversarial Defense
von: Yang, Wangli, et al.
Veröffentlicht: (2024)
von: Yang, Wangli, et al.
Veröffentlicht: (2024)
Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey
von: Dong, Zhichen, et al.
Veröffentlicht: (2024)
von: Dong, Zhichen, et al.
Veröffentlicht: (2024)
PatentEdits: Framing Patent Novelty as Textual Entailment
von: Lee, Ryan, et al.
Veröffentlicht: (2024)
von: Lee, Ryan, et al.
Veröffentlicht: (2024)
Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation
von: Kim, Minkyoung, et al.
Veröffentlicht: (2024)
von: Kim, Minkyoung, et al.
Veröffentlicht: (2024)
A Logical Pattern Memory Pre-trained Model for Entailment Tree Generation
von: Yuan, Li, et al.
Veröffentlicht: (2024)
von: Yuan, Li, et al.
Veröffentlicht: (2024)
Reframing Tax Law Entailment as Analogical Reasoning
von: Zou, Xinrui, et al.
Veröffentlicht: (2024)
von: Zou, Xinrui, et al.
Veröffentlicht: (2024)
Fast Adversarial Training against Textual Adversarial Attacks
von: Yang, Yichen, et al.
Veröffentlicht: (2024)
von: Yang, Yichen, et al.
Veröffentlicht: (2024)
Enhancing Transformers for Generalizable First-Order Logical Entailment
von: Zheng, Tianshi, et al.
Veröffentlicht: (2025)
von: Zheng, Tianshi, et al.
Veröffentlicht: (2025)
UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models
von: Lin, Huawei, et al.
Veröffentlicht: (2025)
von: Lin, Huawei, et al.
Veröffentlicht: (2025)
Harnessing Chain-of-Thought Metadata for Task Routing and Adversarial Prompt Detection
von: Marinelli, Ryan, et al.
Veröffentlicht: (2025)
von: Marinelli, Ryan, et al.
Veröffentlicht: (2025)
Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks
von: Patel, Het, et al.
Veröffentlicht: (2025)
von: Patel, Het, et al.
Veröffentlicht: (2025)
Hyperbolic sentence representations for solving Textual Entailment
von: Petrovski, Igor
Veröffentlicht: (2024)
von: Petrovski, Igor
Veröffentlicht: (2024)
Integrating Hierarchical Semantic into Iterative Generation Model for Entailment Tree Explanation
von: Wang, Qin, et al.
Veröffentlicht: (2024)
von: Wang, Qin, et al.
Veröffentlicht: (2024)
Textual Entailment Recognition with Semantic Features from Empirical Text Representation
von: Shajalal, Md, et al.
Veröffentlicht: (2022)
von: Shajalal, Md, et al.
Veröffentlicht: (2022)
Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs
von: Yan, Dong, et al.
Veröffentlicht: (2026)
von: Yan, Dong, et al.
Veröffentlicht: (2026)
Textual Entailment for Effective Triple Validation in Object Prediction
von: García-Silva, Andrés, et al.
Veröffentlicht: (2024)
von: García-Silva, Andrés, et al.
Veröffentlicht: (2024)
A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models
von: Liang, Yuhan, et al.
Veröffentlicht: (2024)
von: Liang, Yuhan, et al.
Veröffentlicht: (2024)
FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench (Automated Multi-shot Jailbreaks)
von: Priyanshu, Aman, et al.
Veröffentlicht: (2024)
von: Priyanshu, Aman, et al.
Veröffentlicht: (2024)
Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification
von: Sanyal, Soumya, et al.
Veröffentlicht: (2024)
von: Sanyal, Soumya, et al.
Veröffentlicht: (2024)
AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph
von: Wang, Zhaowei, et al.
Veröffentlicht: (2023)
von: Wang, Zhaowei, et al.
Veröffentlicht: (2023)
Understanding Figurative Meaning through Explainable Visual Entailment
von: Saakyan, Arkadiy, et al.
Veröffentlicht: (2024)
von: Saakyan, Arkadiy, et al.
Veröffentlicht: (2024)
The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs
von: Berezin, Sergey, et al.
Veröffentlicht: (2025)
von: Berezin, Sergey, et al.
Veröffentlicht: (2025)
Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations
von: Kim, Hyunjun
Veröffentlicht: (2026)
von: Kim, Hyunjun
Veröffentlicht: (2026)
Combating Adversarial Attacks with Multi-Agent Debate
von: Chern, Steffi, et al.
Veröffentlicht: (2024)
von: Chern, Steffi, et al.
Veröffentlicht: (2024)
STACK: Adversarial Attacks on LLM Safeguard Pipelines
von: McKenzie, Ian R., et al.
Veröffentlicht: (2025)
von: McKenzie, Ian R., et al.
Veröffentlicht: (2025)
REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations
von: Liang, Buyun, et al.
Veröffentlicht: (2026)
von: Liang, Buyun, et al.
Veröffentlicht: (2026)
Proactive Defense: Compound AI for Detecting Persuasion Attacks and Measuring Inoculation Effectiveness
von: Volkova, Svitlana, et al.
Veröffentlicht: (2025)
von: Volkova, Svitlana, et al.
Veröffentlicht: (2025)
Adversarial Attacks Against Automated Fact-Checking: A Survey
von: Liu, Fanzhen, et al.
Veröffentlicht: (2025)
von: Liu, Fanzhen, et al.
Veröffentlicht: (2025)
A Survey of Recent Backdoor Attacks and Defenses in Large Language Models
von: Zhao, Shuai, et al.
Veröffentlicht: (2024)
von: Zhao, Shuai, et al.
Veröffentlicht: (2024)
Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation
von: Feng, Bo-Han, et al.
Veröffentlicht: (2026)
von: Feng, Bo-Han, et al.
Veröffentlicht: (2026)
Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks
von: Joshi, Ratnesh Kumar, et al.
Veröffentlicht: (2024)
von: Joshi, Ratnesh Kumar, et al.
Veröffentlicht: (2024)
An Embarrassingly Simple Defense Against LLM Abliteration Attacks
von: Shairah, Harethah Abu, et al.
Veröffentlicht: (2025)
von: Shairah, Harethah Abu, et al.
Veröffentlicht: (2025)
SEP-Attack: A Simple and Effective Paradigm for Transfer-Based Textual Adversarial Attack
von: Liu, Han, et al.
Veröffentlicht: (2026)
von: Liu, Han, et al.
Veröffentlicht: (2026)
A Generative Adversarial Attack for Multilingual Text Classifiers
von: Roth, Tom, et al.
Veröffentlicht: (2024)
von: Roth, Tom, et al.
Veröffentlicht: (2024)
Revisiting Character-level Adversarial Attacks for Language Models
von: Rocamora, Elias Abad, et al.
Veröffentlicht: (2024)
von: Rocamora, Elias Abad, et al.
Veröffentlicht: (2024)
HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text
von: Liu, Han, et al.
Veröffentlicht: (2024)
von: Liu, Han, et al.
Veröffentlicht: (2024)
An Entailment Tree Generation Approach for Multimodal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback Mechanism
von: Zhang, Qing, et al.
Veröffentlicht: (2024)
von: Zhang, Qing, et al.
Veröffentlicht: (2024)
Bypassing DARCY Defense: Indistinguishable Universal Adversarial Triggers
von: Peng, Zuquan, et al.
Veröffentlicht: (2024)
von: Peng, Zuquan, et al.
Veröffentlicht: (2024)
A Graph-Enhanced Defense Framework for Explainable Fake News Detection with LLM
von: Wang, Bo, et al.
Veröffentlicht: (2026)
von: Wang, Bo, et al.
Veröffentlicht: (2026)
Defenses & Enablers For Skill Injection Attacks on Terminal Based Agents
von: Fujinuma, Yoshinari, et al.
Veröffentlicht: (2026)
von: Fujinuma, Yoshinari, et al.
Veröffentlicht: (2026)
Ähnliche Einträge
-
Defensive Dual Masking for Robust Adversarial Defense
von: Yang, Wangli, et al.
Veröffentlicht: (2024) -
Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey
von: Dong, Zhichen, et al.
Veröffentlicht: (2024) -
PatentEdits: Framing Patent Novelty as Textual Entailment
von: Lee, Ryan, et al.
Veröffentlicht: (2024) -
Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation
von: Kim, Minkyoung, et al.
Veröffentlicht: (2024) -
A Logical Pattern Memory Pre-trained Model for Entailment Tree Generation
von: Yuan, Li, et al.
Veröffentlicht: (2024)