:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Yang, Zhenning, Krawec, Ryan, Wu, Liang-Yuan
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Computation and Language Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2405.00289
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Defensive Dual Masking for Robust Adversarial Defense
von: Yang, Wangli, et al.
Veröffentlicht: (2024)

Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey
von: Dong, Zhichen, et al.
Veröffentlicht: (2024)

PatentEdits: Framing Patent Novelty as Textual Entailment
von: Lee, Ryan, et al.
Veröffentlicht: (2024)

Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation
von: Kim, Minkyoung, et al.
Veröffentlicht: (2024)

A Logical Pattern Memory Pre-trained Model for Entailment Tree Generation
von: Yuan, Li, et al.
Veröffentlicht: (2024)

Reframing Tax Law Entailment as Analogical Reasoning
von: Zou, Xinrui, et al.
Veröffentlicht: (2024)

Fast Adversarial Training against Textual Adversarial Attacks
von: Yang, Yichen, et al.
Veröffentlicht: (2024)

Enhancing Transformers for Generalizable First-Order Logical Entailment
von: Zheng, Tianshi, et al.
Veröffentlicht: (2025)

UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models
von: Lin, Huawei, et al.
Veröffentlicht: (2025)

Harnessing Chain-of-Thought Metadata for Task Routing and Adversarial Prompt Detection
von: Marinelli, Ryan, et al.
Veröffentlicht: (2025)

Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks
von: Patel, Het, et al.
Veröffentlicht: (2025)

Hyperbolic sentence representations for solving Textual Entailment
von: Petrovski, Igor
Veröffentlicht: (2024)

Integrating Hierarchical Semantic into Iterative Generation Model for Entailment Tree Explanation
von: Wang, Qin, et al.
Veröffentlicht: (2024)

Textual Entailment Recognition with Semantic Features from Empirical Text Representation
von: Shajalal, Md, et al.
Veröffentlicht: (2022)

Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs
von: Yan, Dong, et al.
Veröffentlicht: (2026)

Textual Entailment for Effective Triple Validation in Object Prediction
von: García-Silva, Andrés, et al.
Veröffentlicht: (2024)

A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models
von: Liang, Yuhan, et al.
Veröffentlicht: (2024)

FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench (Automated Multi-shot Jailbreaks)
von: Priyanshu, Aman, et al.
Veröffentlicht: (2024)

Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification
von: Sanyal, Soumya, et al.
Veröffentlicht: (2024)

AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph
von: Wang, Zhaowei, et al.
Veröffentlicht: (2023)

Understanding Figurative Meaning through Explainable Visual Entailment
von: Saakyan, Arkadiy, et al.
Veröffentlicht: (2024)

The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs
von: Berezin, Sergey, et al.
Veröffentlicht: (2025)

Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations
von: Kim, Hyunjun
Veröffentlicht: (2026)

Combating Adversarial Attacks with Multi-Agent Debate
von: Chern, Steffi, et al.
Veröffentlicht: (2024)

STACK: Adversarial Attacks on LLM Safeguard Pipelines
von: McKenzie, Ian R., et al.
Veröffentlicht: (2025)

REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations
von: Liang, Buyun, et al.
Veröffentlicht: (2026)

Proactive Defense: Compound AI for Detecting Persuasion Attacks and Measuring Inoculation Effectiveness
von: Volkova, Svitlana, et al.
Veröffentlicht: (2025)

Adversarial Attacks Against Automated Fact-Checking: A Survey
von: Liu, Fanzhen, et al.
Veröffentlicht: (2025)

A Survey of Recent Backdoor Attacks and Defenses in Large Language Models
von: Zhao, Shuai, et al.
Veröffentlicht: (2024)

Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation
von: Feng, Bo-Han, et al.
Veröffentlicht: (2026)

Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks
von: Joshi, Ratnesh Kumar, et al.
Veröffentlicht: (2024)

An Embarrassingly Simple Defense Against LLM Abliteration Attacks
von: Shairah, Harethah Abu, et al.
Veröffentlicht: (2025)

SEP-Attack: A Simple and Effective Paradigm for Transfer-Based Textual Adversarial Attack
von: Liu, Han, et al.
Veröffentlicht: (2026)

A Generative Adversarial Attack for Multilingual Text Classifiers
von: Roth, Tom, et al.
Veröffentlicht: (2024)

Revisiting Character-level Adversarial Attacks for Language Models
von: Rocamora, Elias Abad, et al.
Veröffentlicht: (2024)

HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text
von: Liu, Han, et al.
Veröffentlicht: (2024)

An Entailment Tree Generation Approach for Multimodal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback Mechanism
von: Zhang, Qing, et al.
Veröffentlicht: (2024)

Bypassing DARCY Defense: Indistinguishable Universal Adversarial Triggers
von: Peng, Zuquan, et al.
Veröffentlicht: (2024)

A Graph-Enhanced Defense Framework for Explainable Fake News Detection with LLM
von: Wang, Bo, et al.
Veröffentlicht: (2026)

Defenses & Enablers For Skill Injection Attacks on Terminal Based Agents
von: Fujinuma, Yoshinari, et al.
Veröffentlicht: (2026)