Gespeichert in:
| Hauptverfasser: | Sun, Rui, Bai, Zuo, Zhang, Wentao, Zhang, Yuxiang, Zhao, Li, Sun, Shan, Qiu, Zhengwen |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2507.16248 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis
von: Zhu, Fengbin, et al.
Veröffentlicht: (2025)
von: Zhu, Fengbin, et al.
Veröffentlicht: (2025)
FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol
von: Zhu, Jie, et al.
Veröffentlicht: (2026)
von: Zhu, Jie, et al.
Veröffentlicht: (2026)
FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation
von: Jin, Song, et al.
Veröffentlicht: (2025)
von: Jin, Song, et al.
Veröffentlicht: (2025)
FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
von: Hou, Yutao, et al.
Veröffentlicht: (2026)
von: Hou, Yutao, et al.
Veröffentlicht: (2026)
FinDebate: Multi-Agent Collaborative Intelligence for Financial Analysis
von: Cai, Tianshi, et al.
Veröffentlicht: (2025)
von: Cai, Tianshi, et al.
Veröffentlicht: (2025)
FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering
von: Choi, Chanyeol, et al.
Veröffentlicht: (2025)
von: Choi, Chanyeol, et al.
Veröffentlicht: (2025)
AgentBench: Evaluating LLMs as Agents
von: Liu, Xiao, et al.
Veröffentlicht: (2023)
von: Liu, Xiao, et al.
Veröffentlicht: (2023)
Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents
von: Deng, Shihan, et al.
Veröffentlicht: (2024)
von: Deng, Shihan, et al.
Veröffentlicht: (2024)
DR-Arena: an Automated Evaluation Framework for Deep Research Agents
von: Gao, Yiwen, et al.
Veröffentlicht: (2026)
von: Gao, Yiwen, et al.
Veröffentlicht: (2026)
Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports
von: Yao, Yang, et al.
Veröffentlicht: (2025)
von: Yao, Yang, et al.
Veröffentlicht: (2025)
FinGAIA: A Chinese Benchmark for AI Agents in Real-World Financial Domain
von: Zeng, Lingfeng, et al.
Veröffentlicht: (2025)
von: Zeng, Lingfeng, et al.
Veröffentlicht: (2025)
dzFinNlp at AraFinNLP: Improving Intent Detection in Financial Conversational Agents
von: Lichouri, Mohamed, et al.
Veröffentlicht: (2024)
von: Lichouri, Mohamed, et al.
Veröffentlicht: (2024)
Agent-SafetyBench: Evaluating the Safety of LLM Agents
von: Zhang, Zhexin, et al.
Veröffentlicht: (2024)
von: Zhang, Zhexin, et al.
Veröffentlicht: (2024)
FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents
von: Xiao, Ruixuan, et al.
Veröffentlicht: (2024)
von: Xiao, Ruixuan, et al.
Veröffentlicht: (2024)
BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs
von: Lu, Guilong, et al.
Veröffentlicht: (2025)
von: Lu, Guilong, et al.
Veröffentlicht: (2025)
FinSight: Towards Real-World Financial Deep Research
von: Jin, Jiajie, et al.
Veröffentlicht: (2025)
von: Jin, Jiajie, et al.
Veröffentlicht: (2025)
ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks
von: Li, Minghao, et al.
Veröffentlicht: (2025)
von: Li, Minghao, et al.
Veröffentlicht: (2025)
Agent-as-a-Judge
von: You, Runyang, et al.
Veröffentlicht: (2026)
von: You, Runyang, et al.
Veröffentlicht: (2026)
ContestTrade: A Multi-Agent Trading System Based on Internal Contest Mechanism
von: Zhao, Li, et al.
Veröffentlicht: (2025)
von: Zhao, Li, et al.
Veröffentlicht: (2025)
MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
von: Guo, Zikang, et al.
Veröffentlicht: (2025)
von: Guo, Zikang, et al.
Veröffentlicht: (2025)
SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents
von: Zhao, Bingchen, et al.
Veröffentlicht: (2026)
von: Zhao, Bingchen, et al.
Veröffentlicht: (2026)
ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents
von: Wang, Jiangyuan, et al.
Veröffentlicht: (2025)
von: Wang, Jiangyuan, et al.
Veröffentlicht: (2025)
JudgeBench: A Benchmark for Evaluating LLM-based Judges
von: Tan, Sijun, et al.
Veröffentlicht: (2024)
von: Tan, Sijun, et al.
Veröffentlicht: (2024)
FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents
von: Kim, Eric Y., et al.
Veröffentlicht: (2026)
von: Kim, Eric Y., et al.
Veröffentlicht: (2026)
Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
von: Wang, Leyao, et al.
Veröffentlicht: (2026)
von: Wang, Leyao, et al.
Veröffentlicht: (2026)
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
von: Chen, Hui, et al.
Veröffentlicht: (2025)
von: Chen, Hui, et al.
Veröffentlicht: (2025)
Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research
von: Zhang, Qianqian, et al.
Veröffentlicht: (2025)
von: Zhang, Qianqian, et al.
Veröffentlicht: (2025)
FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
von: Lu, Jiaxuan, et al.
Veröffentlicht: (2026)
von: Lu, Jiaxuan, et al.
Veröffentlicht: (2026)
FinLLM-B: When Large Language Models Meet Financial Breakout Trading
von: Zhang, Kang, et al.
Veröffentlicht: (2024)
von: Zhang, Kang, et al.
Veröffentlicht: (2024)
FinReasoning: A Hierarchical Benchmark for Reliable Financial Research Reporting
von: Zhu, Yiyun, et al.
Veröffentlicht: (2026)
von: Zhu, Yiyun, et al.
Veröffentlicht: (2026)
FinVet: A Collaborative Framework of RAG and External Fact-Checking Agents for Financial Misinformation Detection
von: Araya, Daniel Berhane, et al.
Veröffentlicht: (2025)
von: Araya, Daniel Berhane, et al.
Veröffentlicht: (2025)
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
von: Du, Mingxuan, et al.
Veröffentlicht: (2025)
von: Du, Mingxuan, et al.
Veröffentlicht: (2025)
EpiBench: Benchmarking Multi-turn Research Workflows for Multimodal Agents
von: Dong, Xuan, et al.
Veröffentlicht: (2026)
von: Dong, Xuan, et al.
Veröffentlicht: (2026)
GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents
von: Diao, Lingxiao, et al.
Veröffentlicht: (2025)
von: Diao, Lingxiao, et al.
Veröffentlicht: (2025)
RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises
von: Zhai, Zenan, et al.
Veröffentlicht: (2025)
von: Zhai, Zenan, et al.
Veröffentlicht: (2025)
ReportLogic: Evaluating Logical Quality in Deep Research Reports
von: Zhao, Jujia, et al.
Veröffentlicht: (2026)
von: Zhao, Jujia, et al.
Veröffentlicht: (2026)
ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agents
von: Fu, Xing, et al.
Veröffentlicht: (2026)
von: Fu, Xing, et al.
Veröffentlicht: (2026)
Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training
von: Fang, Tianqing, et al.
Veröffentlicht: (2025)
von: Fang, Tianqing, et al.
Veröffentlicht: (2025)
FinRobot: An Open-Source AI Agent Platform for Financial Applications using Large Language Models
von: Yang, Hongyang, et al.
Veröffentlicht: (2024)
von: Yang, Hongyang, et al.
Veröffentlicht: (2024)
FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making
von: Yu, Yangyang, et al.
Veröffentlicht: (2024)
von: Yu, Yangyang, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis
von: Zhu, Fengbin, et al.
Veröffentlicht: (2025) -
FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol
von: Zhu, Jie, et al.
Veröffentlicht: (2026) -
FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation
von: Jin, Song, et al.
Veröffentlicht: (2025) -
FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
von: Hou, Yutao, et al.
Veröffentlicht: (2026) -
FinDebate: Multi-Agent Collaborative Intelligence for Financial Analysis
von: Cai, Tianshi, et al.
Veröffentlicht: (2025)