:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Sun, Rui, Bai, Zuo, Zhang, Wentao, Zhang, Yuxiang, Zhao, Li, Sun, Shan, Qiu, Zhengwen
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computation and Language
Online-Zugang:	https://arxiv.org/abs/2507.16248
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis
von: Zhu, Fengbin, et al.
Veröffentlicht: (2025)

FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol
von: Zhu, Jie, et al.
Veröffentlicht: (2026)

FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation
von: Jin, Song, et al.
Veröffentlicht: (2025)

FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
von: Hou, Yutao, et al.
Veröffentlicht: (2026)

FinDebate: Multi-Agent Collaborative Intelligence for Financial Analysis
von: Cai, Tianshi, et al.
Veröffentlicht: (2025)

FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering
von: Choi, Chanyeol, et al.
Veröffentlicht: (2025)

AgentBench: Evaluating LLMs as Agents
von: Liu, Xiao, et al.
Veröffentlicht: (2023)

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents
von: Deng, Shihan, et al.
Veröffentlicht: (2024)

DR-Arena: an Automated Evaluation Framework for Deep Research Agents
von: Gao, Yiwen, et al.
Veröffentlicht: (2026)

Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports
von: Yao, Yang, et al.
Veröffentlicht: (2025)

FinGAIA: A Chinese Benchmark for AI Agents in Real-World Financial Domain
von: Zeng, Lingfeng, et al.
Veröffentlicht: (2025)

dzFinNlp at AraFinNLP: Improving Intent Detection in Financial Conversational Agents
von: Lichouri, Mohamed, et al.
Veröffentlicht: (2024)

Agent-SafetyBench: Evaluating the Safety of LLM Agents
von: Zhang, Zhexin, et al.
Veröffentlicht: (2024)

FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents
von: Xiao, Ruixuan, et al.
Veröffentlicht: (2024)

BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs
von: Lu, Guilong, et al.
Veröffentlicht: (2025)

FinSight: Towards Real-World Financial Deep Research
von: Jin, Jiajie, et al.
Veröffentlicht: (2025)

ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks
von: Li, Minghao, et al.
Veröffentlicht: (2025)

Agent-as-a-Judge
von: You, Runyang, et al.
Veröffentlicht: (2026)

ContestTrade: A Multi-Agent Trading System Based on Internal Contest Mechanism
von: Zhao, Li, et al.
Veröffentlicht: (2025)

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
von: Guo, Zikang, et al.
Veröffentlicht: (2025)

SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents
von: Zhao, Bingchen, et al.
Veröffentlicht: (2026)

ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents
von: Wang, Jiangyuan, et al.
Veröffentlicht: (2025)

JudgeBench: A Benchmark for Evaluating LLM-based Judges
von: Tan, Sijun, et al.
Veröffentlicht: (2024)

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents
von: Kim, Eric Y., et al.
Veröffentlicht: (2026)

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
von: Wang, Leyao, et al.
Veröffentlicht: (2026)

MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
von: Chen, Hui, et al.
Veröffentlicht: (2025)

Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research
von: Zhang, Qianqian, et al.
Veröffentlicht: (2025)

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
von: Lu, Jiaxuan, et al.
Veröffentlicht: (2026)

FinLLM-B: When Large Language Models Meet Financial Breakout Trading
von: Zhang, Kang, et al.
Veröffentlicht: (2024)

FinReasoning: A Hierarchical Benchmark for Reliable Financial Research Reporting
von: Zhu, Yiyun, et al.
Veröffentlicht: (2026)

FinVet: A Collaborative Framework of RAG and External Fact-Checking Agents for Financial Misinformation Detection
von: Araya, Daniel Berhane, et al.
Veröffentlicht: (2025)

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
von: Du, Mingxuan, et al.
Veröffentlicht: (2025)

EpiBench: Benchmarking Multi-turn Research Workflows for Multimodal Agents
von: Dong, Xuan, et al.
Veröffentlicht: (2026)

GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents
von: Diao, Lingxiao, et al.
Veröffentlicht: (2025)

RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises
von: Zhai, Zenan, et al.
Veröffentlicht: (2025)

ReportLogic: Evaluating Logical Quality in Deep Research Reports
von: Zhao, Jujia, et al.
Veröffentlicht: (2026)

ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agents
von: Fu, Xing, et al.
Veröffentlicht: (2026)

Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training
von: Fang, Tianqing, et al.
Veröffentlicht: (2025)

FinRobot: An Open-Source AI Agent Platform for Financial Applications using Large Language Models
von: Yang, Hongyang, et al.
Veröffentlicht: (2024)

FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making
von: Yu, Yangyang, et al.
Veröffentlicht: (2024)