:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Zhao, Xuhua, Xie, Yuxuan, Chen, Caihua, Sun, Yuxiang
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2508.11416
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

PortBench: A Correlation-Aware, Full-Pipeline Benchmark for LLM-Driven Portfolio Management
von: Zhao, Yuxuan, et al.
Veröffentlicht: (2026)

DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy
von: Xu, Kaixuan, et al.
Veröffentlicht: (2025)

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
von: Gao, Yuxuan, et al.
Veröffentlicht: (2026)

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
von: Zhao, Yujie, et al.
Veröffentlicht: (2026)

Decision-making with Speculative Opponent Models
von: Sun, Jing, et al.
Veröffentlicht: (2022)

Agentic LLM Framework for Adaptive Decision Discourse
von: Dolant, Antoine, et al.
Veröffentlicht: (2025)

RoadmapBench: Evaluating Long-Horizon Agentic Software Development Across Version Upgrades
von: Xu, Xinbo, et al.
Veröffentlicht: (2026)

Agentic AI Framework for Smart Inventory Replenishment
von: Syed, Toqeer Ali, et al.
Veröffentlicht: (2025)

Large Language Newsvendor: Decision Biases and Cognitive Mechanisms
von: Liu, Jifei, et al.
Veröffentlicht: (2025)

Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models
von: Li, Yuxuan, et al.
Veröffentlicht: (2025)

A Unified Framework for the Evaluation of LLM Agentic Capabilities
von: Zhu, Pengyu, et al.
Veröffentlicht: (2026)

Agent^2 RL-Bench: Can LLM Agents Engineer Agentic RL Post-Training?
von: Chen, Wanyi, et al.
Veröffentlicht: (2026)

StarBench: A Turn-Based RPG Benchmark for Agentic Multimodal Decision-Making and Information Seeking
von: Zhang, Haoran, et al.
Veröffentlicht: (2025)

Gender and Positional Biases in LLM-Based Hiring Decisions: Evidence from Comparative CV/Résumé Evaluations
von: Rozado, David
Veröffentlicht: (2025)

GameDevBench: Evaluating Agentic Capabilities Through Game Development
von: Chi, Wayne, et al.
Veröffentlicht: (2026)

TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use
von: He, Pengfei, et al.
Veröffentlicht: (2025)

ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines
von: Jin, Tengjun, et al.
Veröffentlicht: (2025)

CivBench: Progress-Based Evaluation for LLMs' Strategic Decision-Making in Civilization V
von: Chen, John, et al.
Veröffentlicht: (2026)

LLM Biases
von: Han, Jinhui, et al.
Veröffentlicht: (2026)

ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces
von: Li, Xiangyi, et al.
Veröffentlicht: (2026)

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
von: Lu, Jiaxuan, et al.
Veröffentlicht: (2026)

RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments
von: Zhang, Linghua, et al.
Veröffentlicht: (2026)

DeepStock: Reinforcement Learning with Policy Regularizations for Inventory Management
von: Xie, Yaqi, et al.
Veröffentlicht: (2026)

From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness
von: Cao, Linbo, et al.
Veröffentlicht: (2026)

FAIRGAMER: Evaluating Social Biases in LLM-Based Video Game NPCs
von: Shi, Bingkang, et al.
Veröffentlicht: (2025)

Prune 'n Predict: Optimizing LLM Decision-making with Conformal Prediction
von: Vishwakarma, Harit, et al.
Veröffentlicht: (2024)

ORPilot: A Production-Oriented Agentic LLM-for-OR Tool for Optimization Modeling
von: Xie, Guangrui
Veröffentlicht: (2026)

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
von: Zhu, Xuanyu, et al.
Veröffentlicht: (2026)

Evaluating Small Language Models for Agentic On-Farm Decision Support Systems
von: Liu, Enhong, et al.
Veröffentlicht: (2025)

CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs
von: Liu, Yuxuan, et al.
Veröffentlicht: (2026)

AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems
von: Wang, Weiyi, et al.
Veröffentlicht: (2026)

Evaluating Scenario-based Decision-making for Interactive Autonomous Driving Using Rational Criteria: A Survey
von: Tian, Zhen, et al.
Veröffentlicht: (2025)

InnovatorBench: Evaluating Agents' Ability to Conduct Innovative LLM Research
von: Wu, Yunze, et al.
Veröffentlicht: (2025)

AIM: Attributing, Interpreting, Mitigating Data Unfairness
von: Liu, Zhining, et al.
Veröffentlicht: (2024)

Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents
von: Xu, Rongwu, et al.
Veröffentlicht: (2025)

Split and Merge: Aligning Position Biases in LLM-based Evaluators
von: Li, Zongjie, et al.
Veröffentlicht: (2023)

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents
von: Deng, Shihan, et al.
Veröffentlicht: (2024)

Fairness Shields: Safeguarding against Biased Decision Makers
von: Cano, Filip, et al.
Veröffentlicht: (2024)

GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git
von: Lindenbauer, Tobias, et al.
Veröffentlicht: (2025)

EnvSimBench: A Benchmark for Evaluating and Improving LLM-Based Environment Simulation
von: Liu, Yi, et al.
Veröffentlicht: (2026)