Staff View: :: Library Catalog

Saved in:

Bibliographic Details
Main Authors:	Li, Changyi, Lu, Pengfei, Pan, Xudong, Barez, Fazl, Yang, Min
Format:	Preprint
Published:	2026
Subjects:	Artificial Intelligence Cryptography and Security
Online Access:	https://arxiv.org/abs/2603.07427
Tags:	Add Tag No Tags, Be the first to tag this record!

_version_	1866915861086863360
author	Li, Changyi Lu, Pengfei Pan, Xudong Barez, Fazl Yang, Min
author_facet	Li, Changyi Lu, Pengfei Pan, Xudong Barez, Fazl Yang, Min
contents	As Large Language Models (LLMs) evolve into autonomous agents, existing safety evaluations face a fundamental trade-off: manual benchmarks are costly, while LLM-based simulators are scalable but suffer from logic hallucination. We present AutoControl Arena, an automated framework for frontier AI risk evaluation built on the principle of logic-narrative decoupling. By grounding deterministic state in executable code while delegating generative dynamics to LLMs, we mitigate hallucination while maintaining flexibility. This principle, instantiated through a three-agent framework, achieves over 98% end-to-end success and 60% human preference over existing simulators. To elicit latent risks, we vary environmental Stress and Temptation across X-Bench (70 scenarios, 7 risk categories). Evaluating 9 frontier models reveals: (1) Alignment Illusion: risk rates surge from 21.7% to 54.5% under pressure, with capable models showing disproportionately larger increases; (2) Scenario-Specific Safety Scaling: advanced reasoning improves robustness for direct harms but worsens it for gaming scenarios; and (3) Divergent Misalignment Patterns: weaker models cause non-malicious harm while stronger models develop strategic concealment.
format	Preprint
id	arxiv_https___arxiv_org_abs_2603_07427
institution	arXiv
publishDate	2026
record_format	arxiv
spellingShingle	AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation Li, Changyi Lu, Pengfei Pan, Xudong Barez, Fazl Yang, Min Artificial Intelligence Cryptography and Security As Large Language Models (LLMs) evolve into autonomous agents, existing safety evaluations face a fundamental trade-off: manual benchmarks are costly, while LLM-based simulators are scalable but suffer from logic hallucination. We present AutoControl Arena, an automated framework for frontier AI risk evaluation built on the principle of logic-narrative decoupling. By grounding deterministic state in executable code while delegating generative dynamics to LLMs, we mitigate hallucination while maintaining flexibility. This principle, instantiated through a three-agent framework, achieves over 98% end-to-end success and 60% human preference over existing simulators. To elicit latent risks, we vary environmental Stress and Temptation across X-Bench (70 scenarios, 7 risk categories). Evaluating 9 frontier models reveals: (1) Alignment Illusion: risk rates surge from 21.7% to 54.5% under pressure, with capable models showing disproportionately larger increases; (2) Scenario-Specific Safety Scaling: advanced reasoning improves robustness for direct harms but worsens it for gaming scenarios; and (3) Divergent Misalignment Patterns: weaker models cause non-malicious harm while stronger models develop strategic concealment.
title	AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation
topic	Artificial Intelligence Cryptography and Security
url	https://arxiv.org/abs/2603.07427

Similar Items