Staff View: :: Library Catalog

Saved in:

Bibliographic Details
Main Authors:	Zhu, Kaijie, Nie, Yuzhou, Li, Yijiang, Huang, Yiming, Wu, Jialian, Liu, Jiang, Sun, Ximeng, Yin, Zhenfei, Wang, Lun, Liu, Zicheng, Barsoum, Emad, Wang, William Yang, Guo, Wenbo
Format:	Preprint
Published:	2026
Subjects:	Artificial Intelligence
Online Access:	https://arxiv.org/abs/2602.07274
Tags:	Add Tag No Tags, Be the first to tag this record!

_version_	1866908818453037056
author	Zhu, Kaijie Nie, Yuzhou Li, Yijiang Huang, Yiming Wu, Jialian Liu, Jiang Sun, Ximeng Yin, Zhenfei Wang, Lun Liu, Zicheng Barsoum, Emad Wang, William Yang Guo, Wenbo
author_facet	Zhu, Kaijie Nie, Yuzhou Li, Yijiang Huang, Yiming Wu, Jialian Liu, Jiang Sun, Ximeng Yin, Zhenfei Wang, Lun Liu, Zicheng Barsoum, Emad Wang, William Yang Guo, Wenbo
contents	Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.
format	Preprint
id	arxiv_https___arxiv_org_abs_2602_07274
institution	arXiv
publishDate	2026
record_format	arxiv
spellingShingle	TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents Zhu, Kaijie Nie, Yuzhou Li, Yijiang Huang, Yiming Wu, Jialian Liu, Jiang Sun, Ximeng Yin, Zhenfei Wang, Lun Liu, Zicheng Barsoum, Emad Wang, William Yang Guo, Wenbo Artificial Intelligence Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.
title	TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents
topic	Artificial Intelligence
url	https://arxiv.org/abs/2602.07274

Similar Items