Salvato in:
| Autori principali: | Chen, Si, Yu, Xiao, Mehrabi, Ninareh, Gupta, Rahul, Yu, Zhou, Jia, Ruoxi |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2504.01278 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Kaleidoscopic Teaming in Multi Agent Simulations
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2025)
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2025)
FERRET: Framework for Expansion Reliant Red Teaming
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2026)
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2026)
FLIRT: Feedback Loop In-context Red Teaming
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2023)
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2023)
Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time
di: Li, Huihan, et al.
Pubblicazione: (2025)
di: Li, Huihan, et al.
Pubblicazione: (2025)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models
di: Wang, Fei, et al.
Pubblicazione: (2024)
di: Wang, Fei, et al.
Pubblicazione: (2024)
RedCoder: Automated Multi-Turn Red Teaming for Code LLMs
di: Mo, Wenjie Jacky, et al.
Pubblicazione: (2025)
di: Mo, Wenjie Jacky, et al.
Pubblicazione: (2025)
Co-Evolving Agents: Learning from Failures as Hard Negatives
di: Jung, Yeonsung, et al.
Pubblicazione: (2025)
di: Jung, Yeonsung, et al.
Pubblicazione: (2025)
K-Edit: Language Model Editing with Contextual Knowledge Awareness
di: Markowitz, Elan, et al.
Pubblicazione: (2025)
di: Markowitz, Elan, et al.
Pubblicazione: (2025)
Tree-of-Traversals: A Zero-Shot Reasoning Algorithm for Augmenting Black-box Language Models with Knowledge Graphs
di: Markowitz, Elan, et al.
Pubblicazione: (2024)
di: Markowitz, Elan, et al.
Pubblicazione: (2024)
Profit is the Red Team: Stress-Testing Agents in Strategic Economic Interactions
di: Wang, Shouqiao, et al.
Pubblicazione: (2026)
di: Wang, Shouqiao, et al.
Pubblicazione: (2026)
Red Teaming AI Red Teaming
di: Majumdar, Subhabrata, et al.
Pubblicazione: (2025)
di: Majumdar, Subhabrata, et al.
Pubblicazione: (2025)
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation
di: Kumarage, Tharindu, et al.
Pubblicazione: (2025)
di: Kumarage, Tharindu, et al.
Pubblicazione: (2025)
Rethinking and Red-Teaming Protective Perturbation in Personalized Diffusion Models
di: Liu, Yixin, et al.
Pubblicazione: (2024)
di: Liu, Yixin, et al.
Pubblicazione: (2024)
FASTTRACK: Fast and Accurate Fact Tracing for LLMs
di: Chen, Si, et al.
Pubblicazione: (2024)
di: Chen, Si, et al.
Pubblicazione: (2024)
Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies
di: Ovalle, Anaelia, et al.
Pubblicazione: (2023)
di: Ovalle, Anaelia, et al.
Pubblicazione: (2023)
Red-Team Multi-Agent Reinforcement Learning for Emergency Braking Scenario
di: Chen, Yinsong, et al.
Pubblicazione: (2025)
di: Chen, Yinsong, et al.
Pubblicazione: (2025)
DiCoRe: Enhancing Zero-shot Event Detection via Divergent-Convergent LLM Reasoning
di: Parekh, Tanmay, et al.
Pubblicazione: (2025)
di: Parekh, Tanmay, et al.
Pubblicazione: (2025)
Asking Back: Interaction-Layer Antidistillation Watermarks
di: Yang, Guang, et al.
Pubblicazione: (2026)
di: Yang, Guang, et al.
Pubblicazione: (2026)
Embodied Red Teaming for Auditing Robotic Foundation Models
di: Karnik, Sathwik, et al.
Pubblicazione: (2024)
di: Karnik, Sathwik, et al.
Pubblicazione: (2024)
STARK: Strategic Team of Agents for Refining Kernels
di: Dong, Juncheng, et al.
Pubblicazione: (2025)
di: Dong, Juncheng, et al.
Pubblicazione: (2025)
Graph Based Deep Reinforcement Learning Aided by Transformers for Multi-Agent Cooperation
di: Elrod, Michael, et al.
Pubblicazione: (2025)
di: Elrod, Michael, et al.
Pubblicazione: (2025)
SWAN: Semantic Watermarking with Abstract Meaning Representation
di: Ye, Ziping, et al.
Pubblicazione: (2026)
di: Ye, Ziping, et al.
Pubblicazione: (2026)
Red Teaming Large Reasoning Models
di: Chen, Jiawei, et al.
Pubblicazione: (2025)
di: Chen, Jiawei, et al.
Pubblicazione: (2025)
Whispers of Wealth: Red-Teaming Google's Agent Payments Protocol via Prompt Injection
di: Debi, Tanusree, et al.
Pubblicazione: (2026)
di: Debi, Tanusree, et al.
Pubblicazione: (2026)
MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling
di: Wang, Qian, et al.
Pubblicazione: (2025)
di: Wang, Qian, et al.
Pubblicazione: (2025)
Proteus: A Self-Evolving Red Team for Agent Skill Ecosystems
di: Zhou, Zhaojiacheng
Pubblicazione: (2026)
di: Zhou, Zhaojiacheng
Pubblicazione: (2026)
AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration
di: Zhou, Andy, et al.
Pubblicazione: (2025)
di: Zhou, Andy, et al.
Pubblicazione: (2025)
A Safe Harbor for AI Evaluation and Red Teaming
di: Longpre, Shayne, et al.
Pubblicazione: (2024)
di: Longpre, Shayne, et al.
Pubblicazione: (2024)
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
di: Rahman, Salman, et al.
Pubblicazione: (2025)
di: Rahman, Salman, et al.
Pubblicazione: (2025)
Mind the Gap: Comparing Model- vs Agentic-Level Red Teaming with Action-Graph Observability on GPT-OSS-20B
di: Wicaksono, Ilham, et al.
Pubblicazione: (2025)
di: Wicaksono, Ilham, et al.
Pubblicazione: (2025)
MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models
di: Yan, Siyu, et al.
Pubblicazione: (2025)
di: Yan, Siyu, et al.
Pubblicazione: (2025)
RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent
di: Xu, Huiyu, et al.
Pubblicazione: (2024)
di: Xu, Huiyu, et al.
Pubblicazione: (2024)
Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team
di: Yu, Weilun, et al.
Pubblicazione: (2025)
di: Yu, Weilun, et al.
Pubblicazione: (2025)
MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs
di: Yuan, Huining, et al.
Pubblicazione: (2025)
di: Yuan, Huining, et al.
Pubblicazione: (2025)
Detecting Scarce and Sparse Anomalous: Solving Dual Imbalance in Multi-Instance Learning
di: Jia, Lin-Han, et al.
Pubblicazione: (2025)
di: Jia, Lin-Han, et al.
Pubblicazione: (2025)
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts
di: Yu, Jiahao, et al.
Pubblicazione: (2023)
di: Yu, Jiahao, et al.
Pubblicazione: (2023)
VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments
di: Xu, Zelai, et al.
Pubblicazione: (2025)
di: Xu, Zelai, et al.
Pubblicazione: (2025)
ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System
di: Liang, Jiacheng, et al.
Pubblicazione: (2026)
di: Liang, Jiacheng, et al.
Pubblicazione: (2026)
DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents
di: Chen, Zhaorun, et al.
Pubblicazione: (2026)
di: Chen, Zhaorun, et al.
Pubblicazione: (2026)
Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning
di: Beutel, Alex, et al.
Pubblicazione: (2024)
di: Beutel, Alex, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Kaleidoscopic Teaming in Multi Agent Simulations
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2025) -
FERRET: Framework for Expansion Reliant Red Teaming
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2026) -
FLIRT: Feedback Loop In-context Red Teaming
di: Mehrabi, Ninareh, et al.
Pubblicazione: (2023) -
Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time
di: Li, Huihan, et al.
Pubblicazione: (2025) -
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models
di: Wang, Fei, et al.
Pubblicazione: (2024)