Salvato in:
| Autori principali: | Yao, Xuan, Wang, Qianteng, Liu, Xinbo, Huang, Ke-Wei |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2509.04468 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III
di: Shetty, Pranam, et al.
Pubblicazione: (2025)
di: Shetty, Pranam, et al.
Pubblicazione: (2025)
Reasoning Models Ace the CFA Exams
di: Patel, Jaisal, et al.
Pubblicazione: (2025)
di: Patel, Jaisal, et al.
Pubblicazione: (2025)
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models
di: Zhu, Yakun, et al.
Pubblicazione: (2025)
di: Zhu, Yakun, et al.
Pubblicazione: (2025)
LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models
di: Gui, Jiayi, et al.
Pubblicazione: (2024)
di: Gui, Jiayi, et al.
Pubblicazione: (2024)
Reasoning or Overthinking: Evaluating Large Language Models on Financial Sentiment Analysis
di: Vamvourellis, Dimitris, et al.
Pubblicazione: (2025)
di: Vamvourellis, Dimitris, et al.
Pubblicazione: (2025)
JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation
di: Bi, Zhenyu, et al.
Pubblicazione: (2025)
di: Bi, Zhenyu, et al.
Pubblicazione: (2025)
Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset
di: Zhu, Jie, et al.
Pubblicazione: (2024)
di: Zhu, Jie, et al.
Pubblicazione: (2024)
Evaluating the Translation Performance of Large Language Models Based on Euas-20
di: Huang, Yan, et al.
Pubblicazione: (2024)
di: Huang, Yan, et al.
Pubblicazione: (2024)
FinBen: A Holistic Financial Benchmark for Large Language Models
di: Xie, Qianqian, et al.
Pubblicazione: (2024)
di: Xie, Qianqian, et al.
Pubblicazione: (2024)
TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models
di: Li, Ce, et al.
Pubblicazione: (2025)
di: Li, Ce, et al.
Pubblicazione: (2025)
LongReasonArena: A Long Reasoning Benchmark for Large Language Models
di: Ding, Jiayu, et al.
Pubblicazione: (2025)
di: Ding, Jiayu, et al.
Pubblicazione: (2025)
Evaluating Large Language Models on Financial Report Summarization: An Empirical Study
di: Yang, Xinqi, et al.
Pubblicazione: (2024)
di: Yang, Xinqi, et al.
Pubblicazione: (2024)
LTLBench: Towards Benchmarks for Evaluating Temporal Reasoning in Large Language Models
di: Tang, Weizhi, et al.
Pubblicazione: (2024)
di: Tang, Weizhi, et al.
Pubblicazione: (2024)
Large Language Models are Contrastive Reasoners
di: Yao, Liang
Pubblicazione: (2024)
di: Yao, Liang
Pubblicazione: (2024)
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models
di: Liu, Yan, et al.
Pubblicazione: (2024)
di: Liu, Yan, et al.
Pubblicazione: (2024)
FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models
di: Liu, Shu, et al.
Pubblicazione: (2024)
di: Liu, Shu, et al.
Pubblicazione: (2024)
Mathematical Reasoning in Large Language Models: Benchmarks, Architectures, Evaluation, and Open Challenges
di: Amjad, Husnain, et al.
Pubblicazione: (2026)
di: Amjad, Husnain, et al.
Pubblicazione: (2026)
EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering and Reasoning
di: Wei, Mingyang, et al.
Pubblicazione: (2026)
di: Wei, Mingyang, et al.
Pubblicazione: (2026)
SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models
di: Yang, Wanqi, et al.
Pubblicazione: (2025)
di: Yang, Wanqi, et al.
Pubblicazione: (2025)
Structured Chemistry Reasoning with Large Language Models
di: Ouyang, Siru, et al.
Pubblicazione: (2023)
di: Ouyang, Siru, et al.
Pubblicazione: (2023)
Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items
di: Zou, Minjie, et al.
Pubblicazione: (2025)
di: Zou, Minjie, et al.
Pubblicazione: (2025)
Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs
di: Huang, Yuxuan
Pubblicazione: (2023)
di: Huang, Yuxuan
Pubblicazione: (2023)
EmotionQueen: A Benchmark for Evaluating Empathy of Large Language Models
di: Chen, Yuyan, et al.
Pubblicazione: (2024)
di: Chen, Yuyan, et al.
Pubblicazione: (2024)
Are Large Language Models Good In-context Learners for Financial Sentiment Analysis?
di: Wei, Xinyu, et al.
Pubblicazione: (2025)
di: Wei, Xinyu, et al.
Pubblicazione: (2025)
CMoralEval: A Moral Evaluation Benchmark for Chinese Large Language Models
di: Yu, Linhao, et al.
Pubblicazione: (2024)
di: Yu, Linhao, et al.
Pubblicazione: (2024)
CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models
di: Chun, Jon, et al.
Pubblicazione: (2026)
di: Chun, Jon, et al.
Pubblicazione: (2026)
TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine
di: Yue, Wenjing, et al.
Pubblicazione: (2024)
di: Yue, Wenjing, et al.
Pubblicazione: (2024)
A Comprehensive Evaluation of Quantization Strategies for Large Language Models
di: Jin, Renren, et al.
Pubblicazione: (2024)
di: Jin, Renren, et al.
Pubblicazione: (2024)
GraCoRe: Benchmarking Graph Comprehension and Complex Reasoning in Large Language Models
di: Yuan, Zike, et al.
Pubblicazione: (2024)
di: Yuan, Zike, et al.
Pubblicazione: (2024)
League of LLMs: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models
di: Guo, Qianhong, et al.
Pubblicazione: (2025)
di: Guo, Qianhong, et al.
Pubblicazione: (2025)
Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models
di: Zhang, Qingjie, et al.
Pubblicazione: (2025)
di: Zhang, Qingjie, et al.
Pubblicazione: (2025)
Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs
di: Zheng, Xiang, et al.
Pubblicazione: (2026)
di: Zheng, Xiang, et al.
Pubblicazione: (2026)
AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field
di: Liang, Chen, et al.
Pubblicazione: (2025)
di: Liang, Chen, et al.
Pubblicazione: (2025)
QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models
di: Wu, Yao, et al.
Pubblicazione: (2026)
di: Wu, Yao, et al.
Pubblicazione: (2026)
Bridging the Arithmetic Gap: The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning
di: Zhao, Boxiang, et al.
Pubblicazione: (2026)
di: Zhao, Boxiang, et al.
Pubblicazione: (2026)
METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models
di: Li, Pengfeng, et al.
Pubblicazione: (2026)
di: Li, Pengfeng, et al.
Pubblicazione: (2026)
DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models
di: Chung, Tsz Ting, et al.
Pubblicazione: (2025)
di: Chung, Tsz Ting, et al.
Pubblicazione: (2025)
LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
di: Wang, Jingyuan, et al.
Pubblicazione: (2025)
di: Wang, Jingyuan, et al.
Pubblicazione: (2025)
VLegal-Bench: Cognitively Grounded Benchmark for Vietnamese Legal Reasoning of Large Language Models
di: Dong, Nguyen Tien, et al.
Pubblicazione: (2025)
di: Dong, Nguyen Tien, et al.
Pubblicazione: (2025)
Pre-trained Large Language Models for Financial Sentiment Analysis
di: Luo, Wei, et al.
Pubblicazione: (2024)
di: Luo, Wei, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III
di: Shetty, Pranam, et al.
Pubblicazione: (2025) -
Reasoning Models Ace the CFA Exams
di: Patel, Jaisal, et al.
Pubblicazione: (2025) -
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models
di: Zhu, Yakun, et al.
Pubblicazione: (2025) -
LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models
di: Gui, Jiayi, et al.
Pubblicazione: (2024) -
Reasoning or Overthinking: Evaluating Large Language Models on Financial Sentiment Analysis
di: Vamvourellis, Dimitris, et al.
Pubblicazione: (2025)