:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Chen, Si, Yu, Xiao, Mehrabi, Ninareh, Gupta, Rahul, Yu, Zhou, Jia, Ruoxi
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2504.01278
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Kaleidoscopic Teaming in Multi Agent Simulations
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2025)

FERRET: Framework for Expansion Reliant Red Teaming
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2026)

FLIRT: Feedback Loop In-context Red Teaming
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2023)

Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time
di: Li, Huihan, et al.
Pubblicazione: (2025)

Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models
di: Wang, Fei, et al.
Pubblicazione: (2024)

RedCoder: Automated Multi-Turn Red Teaming for Code LLMs
di: Mo, Wenjie Jacky, et al.
Pubblicazione: (2025)

Co-Evolving Agents: Learning from Failures as Hard Negatives
di: Jung, Yeonsung, et al.
Pubblicazione: (2025)

K-Edit: Language Model Editing with Contextual Knowledge Awareness
di: Markowitz, Elan, et al.
Pubblicazione: (2025)

Tree-of-Traversals: A Zero-Shot Reasoning Algorithm for Augmenting Black-box Language Models with Knowledge Graphs
di: Markowitz, Elan, et al.
Pubblicazione: (2024)

Profit is the Red Team: Stress-Testing Agents in Strategic Economic Interactions
di: Wang, Shouqiao, et al.
Pubblicazione: (2026)

Red Teaming AI Red Teaming
di: Majumdar, Subhabrata, et al.
Pubblicazione: (2025)

Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation
di: Kumarage, Tharindu, et al.
Pubblicazione: (2025)

Rethinking and Red-Teaming Protective Perturbation in Personalized Diffusion Models
di: Liu, Yixin, et al.
Pubblicazione: (2024)

FASTTRACK: Fast and Accurate Fact Tracing for LLMs
di: Chen, Si, et al.
Pubblicazione: (2024)

Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies
di: Ovalle, Anaelia, et al.
Pubblicazione: (2023)

Red-Team Multi-Agent Reinforcement Learning for Emergency Braking Scenario
di: Chen, Yinsong, et al.
Pubblicazione: (2025)

DiCoRe: Enhancing Zero-shot Event Detection via Divergent-Convergent LLM Reasoning
di: Parekh, Tanmay, et al.
Pubblicazione: (2025)

Asking Back: Interaction-Layer Antidistillation Watermarks
di: Yang, Guang, et al.
Pubblicazione: (2026)

Embodied Red Teaming for Auditing Robotic Foundation Models
di: Karnik, Sathwik, et al.
Pubblicazione: (2024)

STARK: Strategic Team of Agents for Refining Kernels
di: Dong, Juncheng, et al.
Pubblicazione: (2025)

Graph Based Deep Reinforcement Learning Aided by Transformers for Multi-Agent Cooperation
di: Elrod, Michael, et al.
Pubblicazione: (2025)

SWAN: Semantic Watermarking with Abstract Meaning Representation
di: Ye, Ziping, et al.
Pubblicazione: (2026)

Red Teaming Large Reasoning Models
di: Chen, Jiawei, et al.
Pubblicazione: (2025)

Whispers of Wealth: Red-Teaming Google's Agent Payments Protocol via Prompt Injection
di: Debi, Tanusree, et al.
Pubblicazione: (2026)

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling
di: Wang, Qian, et al.
Pubblicazione: (2025)

Proteus: A Self-Evolving Red Team for Agent Skill Ecosystems
di: Zhou, Zhaojiacheng
Pubblicazione: (2026)

AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration
di: Zhou, Andy, et al.
Pubblicazione: (2025)

A Safe Harbor for AI Evaluation and Red Teaming
di: Longpre, Shayne, et al.
Pubblicazione: (2024)

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
di: Rahman, Salman, et al.
Pubblicazione: (2025)

Mind the Gap: Comparing Model- vs Agentic-Level Red Teaming with Action-Graph Observability on GPT-OSS-20B
di: Wicaksono, Ilham, et al.
Pubblicazione: (2025)

MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models
di: Yan, Siyu, et al.
Pubblicazione: (2025)

RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent
di: Xu, Huiyu, et al.
Pubblicazione: (2024)

Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team
di: Yu, Weilun, et al.
Pubblicazione: (2025)

MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs
di: Yuan, Huining, et al.
Pubblicazione: (2025)

Detecting Scarce and Sparse Anomalous: Solving Dual Imbalance in Multi-Instance Learning
di: Jia, Lin-Han, et al.
Pubblicazione: (2025)

GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts
di: Yu, Jiahao, et al.
Pubblicazione: (2023)

VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments
di: Xu, Zelai, et al.
Pubblicazione: (2025)

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System
di: Liang, Jiacheng, et al.
Pubblicazione: (2026)

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents
di: Chen, Zhaorun, et al.
Pubblicazione: (2026)

Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning
di: Beutel, Alex, et al.
Pubblicazione: (2024)