Enregistré dans:
| Auteurs principaux: | Tang, Sizhe, Chen, Rongqian, Lan, Tian |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2602.02995 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents
par: Chen, Rongqian, et autres
Publié: (2026)
par: Chen, Rongqian, et autres
Publié: (2026)
MALinZero: Efficient Low-Dimensional Search for Mastering Complex Multi-Agent Planning
par: Tang, Sizhe, et autres
Publié: (2025)
par: Tang, Sizhe, et autres
Publié: (2025)
Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization
par: Li, Yu, et autres
Publié: (2026)
par: Li, Yu, et autres
Publié: (2026)
Metric-Gradient Projection for Stable Multi-Agent Policy Learning
par: Zhang, Zuyuan, et autres
Publié: (2026)
par: Zhang, Zuyuan, et autres
Publié: (2026)
AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration to Counteract Alpha Decay
par: Tang, Ziyi, et autres
Publié: (2025)
par: Tang, Ziyi, et autres
Publié: (2025)
Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics
par: Zhang, Zuyuan, et autres
Publié: (2026)
par: Zhang, Zuyuan, et autres
Publié: (2026)
NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search
par: Tang, Sizhe, et autres
Publié: (2026)
par: Tang, Sizhe, et autres
Publié: (2026)
OSExpert: Computer-Use Agents Learning Professional Skills via Exploration
par: Liu, Jiateng, et autres
Publié: (2026)
par: Liu, Jiateng, et autres
Publié: (2026)
Disclosing Generative AI Use in Digital Humanities Research
par: Ma, Rongqian, et autres
Publié: (2025)
par: Ma, Rongqian, et autres
Publié: (2025)
AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents
par: Feng, Yunhao, et autres
Publié: (2026)
par: Feng, Yunhao, et autres
Publié: (2026)
MCPWorld: A Unified Benchmarking Testbed for API, GUI, and Hybrid Computer Use Agents
par: Yan, Yunhe, et autres
Publié: (2025)
par: Yan, Yunhe, et autres
Publié: (2025)
On the Reliability of Computer Use Agents
par: Gonzalez-Pumariega, Gonzalo, et autres
Publié: (2026)
par: Gonzalez-Pumariega, Gonzalo, et autres
Publié: (2026)
UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents
par: Liang, Yijuan, et autres
Publié: (2026)
par: Liang, Yijuan, et autres
Publié: (2026)
Perception Graph for Cognitive Attack Reasoning in Augmented Reality
par: Chen, Rongqian, et autres
Publié: (2025)
par: Chen, Rongqian, et autres
Publié: (2025)
AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
par: Toledo, Edan, et autres
Publié: (2025)
par: Toledo, Edan, et autres
Publié: (2025)
Evaluating the Search Agent in a Parallel World
par: Chen, Jiawei, et autres
Publié: (2026)
par: Chen, Jiawei, et autres
Publié: (2026)
Surfer 2: The Next Generation of Cross-Platform Computer Use Agents
par: Andreux, Mathieu, et autres
Publié: (2025)
par: Andreux, Mathieu, et autres
Publié: (2025)
HealthAdminBench: Evaluating Computer-Use Agents on Healthcare Administration Tasks
par: Bedi, Suhana, et autres
Publié: (2026)
par: Bedi, Suhana, et autres
Publié: (2026)
Large Language Models as User-Agents for Evaluating Task-Oriented-Dialogue Systems
par: Kazi, Taaha, et autres
Publié: (2024)
par: Kazi, Taaha, et autres
Publié: (2024)
Intrinsic Memory Agents: Heterogeneous Multi-Agent LLM Systems through Structured Contextual Memory
par: Yuen, Sizhe, et autres
Publié: (2025)
par: Yuen, Sizhe, et autres
Publié: (2025)
ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents
par: Lai, Hanyu, et autres
Publié: (2025)
par: Lai, Hanyu, et autres
Publié: (2025)
AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions
par: Sun, Jingwei, et autres
Publié: (2026)
par: Sun, Jingwei, et autres
Publié: (2026)
Agent-as-a-Judge: Evaluate Agents with Agents
par: Zhuge, Mingchen, et autres
Publié: (2024)
par: Zhuge, Mingchen, et autres
Publié: (2024)
InteractComp: Evaluating Search Agents With Ambiguous Queries
par: Deng, Mingyi, et autres
Publié: (2025)
par: Deng, Mingyi, et autres
Publié: (2025)
WESE: Weak Exploration to Strong Exploitation for LLM Agents
par: Huang, Xu, et autres
Publié: (2024)
par: Huang, Xu, et autres
Publié: (2024)
FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
par: Lu, Jiaxuan, et autres
Publié: (2026)
par: Lu, Jiaxuan, et autres
Publié: (2026)
Demonstrating ViviDoc: Generating Interactive Documents through Human-Agent Collaboration
par: Tang, Yinghao, et autres
Publié: (2026)
par: Tang, Yinghao, et autres
Publié: (2026)
Scaling Synthetic Task Generation for Agents via Exploration
par: Ramrakhya, Ram, et autres
Publié: (2025)
par: Ramrakhya, Ram, et autres
Publié: (2025)
General Agent Evaluation
par: Bandel, Elron, et autres
Publié: (2026)
par: Bandel, Elron, et autres
Publié: (2026)
Grounding Computer Use Agents on Human Demonstrations
par: Feizi, Aarash, et autres
Publié: (2025)
par: Feizi, Aarash, et autres
Publié: (2025)
A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation
par: Li, Jiulin, et autres
Publié: (2025)
par: Li, Jiulin, et autres
Publié: (2025)
Evolving in Tasks: Empowering the Multi-modality Large Language Model as the Computer Use Agent
par: Cheng, Yuhao, et autres
Publié: (2025)
par: Cheng, Yuhao, et autres
Publié: (2025)
Efficient Agent Training for Computer Use
par: He, Yanheng, et autres
Publié: (2025)
par: He, Yanheng, et autres
Publié: (2025)
RUMAD: Reinforcement-Unifying Multi-Agent Debate
par: Wang, Chao, et autres
Publié: (2026)
par: Wang, Chao, et autres
Publié: (2026)
Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks
par: Zhang, Zuyuan, et autres
Publié: (2025)
par: Zhang, Zuyuan, et autres
Publié: (2025)
OpenComputer: Verifiable Software Worlds for Computer-Use Agents
par: Wei, Jinbiao, et autres
Publié: (2026)
par: Wei, Jinbiao, et autres
Publié: (2026)
Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning
par: Liu, Zeyang, et autres
Publié: (2024)
par: Liu, Zeyang, et autres
Publié: (2024)
Joint Agent Memory and Exploration Learning via Novelty Signals
par: Tian, Shizuo, et autres
Publié: (2026)
par: Tian, Shizuo, et autres
Publié: (2026)
CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents
par: Foerster, Hanna, et autres
Publié: (2026)
par: Foerster, Hanna, et autres
Publié: (2026)
PRO-CUA: Process-Reward Optimization for Computer Use Agents
par: He, Yifei, et autres
Publié: (2026)
par: He, Yifei, et autres
Publié: (2026)
Documents similaires
-
IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents
par: Chen, Rongqian, et autres
Publié: (2026) -
MALinZero: Efficient Low-Dimensional Search for Mastering Complex Multi-Agent Planning
par: Tang, Sizhe, et autres
Publié: (2025) -
Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization
par: Li, Yu, et autres
Publié: (2026) -
Metric-Gradient Projection for Stable Multi-Agent Policy Learning
par: Zhang, Zuyuan, et autres
Publié: (2026) -
AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration to Counteract Alpha Decay
par: Tang, Ziyi, et autres
Publié: (2025)