:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Tang, Sizhe, Chen, Rongqian, Lan, Tian
Format:	Preprint
Publié:	2026
Sujets:	Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2602.02995
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents
par: Chen, Rongqian, et autres
Publié: (2026)

MALinZero: Efficient Low-Dimensional Search for Mastering Complex Multi-Agent Planning
par: Tang, Sizhe, et autres
Publié: (2025)

Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization
par: Li, Yu, et autres
Publié: (2026)

Metric-Gradient Projection for Stable Multi-Agent Policy Learning
par: Zhang, Zuyuan, et autres
Publié: (2026)

AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration to Counteract Alpha Decay
par: Tang, Ziyi, et autres
Publié: (2025)

Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics
par: Zhang, Zuyuan, et autres
Publié: (2026)

NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search
par: Tang, Sizhe, et autres
Publié: (2026)

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration
par: Liu, Jiateng, et autres
Publié: (2026)

Disclosing Generative AI Use in Digital Humanities Research
par: Ma, Rongqian, et autres
Publié: (2025)

AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents
par: Feng, Yunhao, et autres
Publié: (2026)

MCPWorld: A Unified Benchmarking Testbed for API, GUI, and Hybrid Computer Use Agents
par: Yan, Yunhe, et autres
Publié: (2025)

On the Reliability of Computer Use Agents
par: Gonzalez-Pumariega, Gonzalo, et autres
Publié: (2026)

UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents
par: Liang, Yijuan, et autres
Publié: (2026)

Perception Graph for Cognitive Attack Reasoning in Augmented Reality
par: Chen, Rongqian, et autres
Publié: (2025)

AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
par: Toledo, Edan, et autres
Publié: (2025)

Evaluating the Search Agent in a Parallel World
par: Chen, Jiawei, et autres
Publié: (2026)

Surfer 2: The Next Generation of Cross-Platform Computer Use Agents
par: Andreux, Mathieu, et autres
Publié: (2025)

HealthAdminBench: Evaluating Computer-Use Agents on Healthcare Administration Tasks
par: Bedi, Suhana, et autres
Publié: (2026)

Large Language Models as User-Agents for Evaluating Task-Oriented-Dialogue Systems
par: Kazi, Taaha, et autres
Publié: (2024)

Intrinsic Memory Agents: Heterogeneous Multi-Agent LLM Systems through Structured Contextual Memory
par: Yuen, Sizhe, et autres
Publié: (2025)

ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents
par: Lai, Hanyu, et autres
Publié: (2025)

AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions
par: Sun, Jingwei, et autres
Publié: (2026)

Agent-as-a-Judge: Evaluate Agents with Agents
par: Zhuge, Mingchen, et autres
Publié: (2024)

InteractComp: Evaluating Search Agents With Ambiguous Queries
par: Deng, Mingyi, et autres
Publié: (2025)

WESE: Weak Exploration to Strong Exploitation for LLM Agents
par: Huang, Xu, et autres
Publié: (2024)

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
par: Lu, Jiaxuan, et autres
Publié: (2026)

Demonstrating ViviDoc: Generating Interactive Documents through Human-Agent Collaboration
par: Tang, Yinghao, et autres
Publié: (2026)

Scaling Synthetic Task Generation for Agents via Exploration
par: Ramrakhya, Ram, et autres
Publié: (2025)

General Agent Evaluation
par: Bandel, Elron, et autres
Publié: (2026)

Grounding Computer Use Agents on Human Demonstrations
par: Feizi, Aarash, et autres
Publié: (2025)

A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation
par: Li, Jiulin, et autres
Publié: (2025)

Evolving in Tasks: Empowering the Multi-modality Large Language Model as the Computer Use Agent
par: Cheng, Yuhao, et autres
Publié: (2025)

Efficient Agent Training for Computer Use
par: He, Yanheng, et autres
Publié: (2025)

RUMAD: Reinforcement-Unifying Multi-Agent Debate
par: Wang, Chao, et autres
Publié: (2026)

Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks
par: Zhang, Zuyuan, et autres
Publié: (2025)

OpenComputer: Verifiable Software Worlds for Computer-Use Agents
par: Wei, Jinbiao, et autres
Publié: (2026)

Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning
par: Liu, Zeyang, et autres
Publié: (2024)

Joint Agent Memory and Exploration Learning via Novelty Signals
par: Tian, Shizuo, et autres
Publié: (2026)

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents
par: Foerster, Hanna, et autres
Publié: (2026)

PRO-CUA: Process-Reward Optimization for Computer Use Agents
par: He, Yifei, et autres
Publié: (2026)