Gespeichert in:
| Hauptverfasser: | Zhao, Xuhua, Xie, Yuxuan, Chen, Caihua, Sun, Yuxiang |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2508.11416 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
PortBench: A Correlation-Aware, Full-Pipeline Benchmark for LLM-Driven Portfolio Management
von: Zhao, Yuxuan, et al.
Veröffentlicht: (2026)
von: Zhao, Yuxuan, et al.
Veröffentlicht: (2026)
DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy
von: Xu, Kaixuan, et al.
Veröffentlicht: (2025)
von: Xu, Kaixuan, et al.
Veröffentlicht: (2025)
DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
von: Gao, Yuxuan, et al.
Veröffentlicht: (2026)
von: Gao, Yuxuan, et al.
Veröffentlicht: (2026)
AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
von: Zhao, Yujie, et al.
Veröffentlicht: (2026)
von: Zhao, Yujie, et al.
Veröffentlicht: (2026)
Decision-making with Speculative Opponent Models
von: Sun, Jing, et al.
Veröffentlicht: (2022)
von: Sun, Jing, et al.
Veröffentlicht: (2022)
Agentic LLM Framework for Adaptive Decision Discourse
von: Dolant, Antoine, et al.
Veröffentlicht: (2025)
von: Dolant, Antoine, et al.
Veröffentlicht: (2025)
RoadmapBench: Evaluating Long-Horizon Agentic Software Development Across Version Upgrades
von: Xu, Xinbo, et al.
Veröffentlicht: (2026)
von: Xu, Xinbo, et al.
Veröffentlicht: (2026)
Agentic AI Framework for Smart Inventory Replenishment
von: Syed, Toqeer Ali, et al.
Veröffentlicht: (2025)
von: Syed, Toqeer Ali, et al.
Veröffentlicht: (2025)
Large Language Newsvendor: Decision Biases and Cognitive Mechanisms
von: Liu, Jifei, et al.
Veröffentlicht: (2025)
von: Liu, Jifei, et al.
Veröffentlicht: (2025)
Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models
von: Li, Yuxuan, et al.
Veröffentlicht: (2025)
von: Li, Yuxuan, et al.
Veröffentlicht: (2025)
A Unified Framework for the Evaluation of LLM Agentic Capabilities
von: Zhu, Pengyu, et al.
Veröffentlicht: (2026)
von: Zhu, Pengyu, et al.
Veröffentlicht: (2026)
Agent^2 RL-Bench: Can LLM Agents Engineer Agentic RL Post-Training?
von: Chen, Wanyi, et al.
Veröffentlicht: (2026)
von: Chen, Wanyi, et al.
Veröffentlicht: (2026)
StarBench: A Turn-Based RPG Benchmark for Agentic Multimodal Decision-Making and Information Seeking
von: Zhang, Haoran, et al.
Veröffentlicht: (2025)
von: Zhang, Haoran, et al.
Veröffentlicht: (2025)
Gender and Positional Biases in LLM-Based Hiring Decisions: Evidence from Comparative CV/Résumé Evaluations
von: Rozado, David
Veröffentlicht: (2025)
von: Rozado, David
Veröffentlicht: (2025)
GameDevBench: Evaluating Agentic Capabilities Through Game Development
von: Chi, Wayne, et al.
Veröffentlicht: (2026)
von: Chi, Wayne, et al.
Veröffentlicht: (2026)
TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use
von: He, Pengfei, et al.
Veröffentlicht: (2025)
von: He, Pengfei, et al.
Veröffentlicht: (2025)
ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines
von: Jin, Tengjun, et al.
Veröffentlicht: (2025)
von: Jin, Tengjun, et al.
Veröffentlicht: (2025)
CivBench: Progress-Based Evaluation for LLMs' Strategic Decision-Making in Civilization V
von: Chen, John, et al.
Veröffentlicht: (2026)
von: Chen, John, et al.
Veröffentlicht: (2026)
LLM Biases
von: Han, Jinhui, et al.
Veröffentlicht: (2026)
von: Han, Jinhui, et al.
Veröffentlicht: (2026)
ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces
von: Li, Xiangyi, et al.
Veröffentlicht: (2026)
von: Li, Xiangyi, et al.
Veröffentlicht: (2026)
FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
von: Lu, Jiaxuan, et al.
Veröffentlicht: (2026)
von: Lu, Jiaxuan, et al.
Veröffentlicht: (2026)
RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments
von: Zhang, Linghua, et al.
Veröffentlicht: (2026)
von: Zhang, Linghua, et al.
Veröffentlicht: (2026)
DeepStock: Reinforcement Learning with Policy Regularizations for Inventory Management
von: Xie, Yaqi, et al.
Veröffentlicht: (2026)
von: Xie, Yaqi, et al.
Veröffentlicht: (2026)
From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness
von: Cao, Linbo, et al.
Veröffentlicht: (2026)
von: Cao, Linbo, et al.
Veröffentlicht: (2026)
FAIRGAMER: Evaluating Social Biases in LLM-Based Video Game NPCs
von: Shi, Bingkang, et al.
Veröffentlicht: (2025)
von: Shi, Bingkang, et al.
Veröffentlicht: (2025)
Prune 'n Predict: Optimizing LLM Decision-making with Conformal Prediction
von: Vishwakarma, Harit, et al.
Veröffentlicht: (2024)
von: Vishwakarma, Harit, et al.
Veröffentlicht: (2024)
ORPilot: A Production-Oriented Agentic LLM-for-OR Tool for Optimization Modeling
von: Xie, Guangrui
Veröffentlicht: (2026)
von: Xie, Guangrui
Veröffentlicht: (2026)
VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
von: Zhu, Xuanyu, et al.
Veröffentlicht: (2026)
von: Zhu, Xuanyu, et al.
Veröffentlicht: (2026)
Evaluating Small Language Models for Agentic On-Farm Decision Support Systems
von: Liu, Enhong, et al.
Veröffentlicht: (2025)
von: Liu, Enhong, et al.
Veröffentlicht: (2025)
CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs
von: Liu, Yuxuan, et al.
Veröffentlicht: (2026)
von: Liu, Yuxuan, et al.
Veröffentlicht: (2026)
AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems
von: Wang, Weiyi, et al.
Veröffentlicht: (2026)
von: Wang, Weiyi, et al.
Veröffentlicht: (2026)
Evaluating Scenario-based Decision-making for Interactive Autonomous Driving Using Rational Criteria: A Survey
von: Tian, Zhen, et al.
Veröffentlicht: (2025)
von: Tian, Zhen, et al.
Veröffentlicht: (2025)
InnovatorBench: Evaluating Agents' Ability to Conduct Innovative LLM Research
von: Wu, Yunze, et al.
Veröffentlicht: (2025)
von: Wu, Yunze, et al.
Veröffentlicht: (2025)
AIM: Attributing, Interpreting, Mitigating Data Unfairness
von: Liu, Zhining, et al.
Veröffentlicht: (2024)
von: Liu, Zhining, et al.
Veröffentlicht: (2024)
Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents
von: Xu, Rongwu, et al.
Veröffentlicht: (2025)
von: Xu, Rongwu, et al.
Veröffentlicht: (2025)
Split and Merge: Aligning Position Biases in LLM-based Evaluators
von: Li, Zongjie, et al.
Veröffentlicht: (2023)
von: Li, Zongjie, et al.
Veröffentlicht: (2023)
Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents
von: Deng, Shihan, et al.
Veröffentlicht: (2024)
von: Deng, Shihan, et al.
Veröffentlicht: (2024)
Fairness Shields: Safeguarding against Biased Decision Makers
von: Cano, Filip, et al.
Veröffentlicht: (2024)
von: Cano, Filip, et al.
Veröffentlicht: (2024)
GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git
von: Lindenbauer, Tobias, et al.
Veröffentlicht: (2025)
von: Lindenbauer, Tobias, et al.
Veröffentlicht: (2025)
EnvSimBench: A Benchmark for Evaluating and Improving LLM-Based Environment Simulation
von: Liu, Yi, et al.
Veröffentlicht: (2026)
von: Liu, Yi, et al.
Veröffentlicht: (2026)
Ähnliche Einträge
-
PortBench: A Correlation-Aware, Full-Pipeline Benchmark for LLM-Driven Portfolio Management
von: Zhao, Yuxuan, et al.
Veröffentlicht: (2026) -
DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy
von: Xu, Kaixuan, et al.
Veröffentlicht: (2025) -
DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
von: Gao, Yuxuan, et al.
Veröffentlicht: (2026) -
AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
von: Zhao, Yujie, et al.
Veröffentlicht: (2026) -
Decision-making with Speculative Opponent Models
von: Sun, Jing, et al.
Veröffentlicht: (2022)