:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Yao, Xuan, Wang, Qianteng, Liu, Xinbo, Huang, Ke-Wei
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computation and Language Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2509.04468
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III
di: Shetty, Pranam, et al.
Pubblicazione: (2025)

Reasoning Models Ace the CFA Exams
di: Patel, Jaisal, et al.
Pubblicazione: (2025)

DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models
di: Zhu, Yakun, et al.
Pubblicazione: (2025)

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models
di: Gui, Jiayi, et al.
Pubblicazione: (2024)

Reasoning or Overthinking: Evaluating Large Language Models on Financial Sentiment Analysis
di: Vamvourellis, Dimitris, et al.
Pubblicazione: (2025)

JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation
di: Bi, Zhenyu, et al.
Pubblicazione: (2025)

Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset
di: Zhu, Jie, et al.
Pubblicazione: (2024)

Evaluating the Translation Performance of Large Language Models Based on Euas-20
di: Huang, Yan, et al.
Pubblicazione: (2024)

FinBen: A Holistic Financial Benchmark for Large Language Models
di: Xie, Qianqian, et al.
Pubblicazione: (2024)

TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models
di: Li, Ce, et al.
Pubblicazione: (2025)

LongReasonArena: A Long Reasoning Benchmark for Large Language Models
di: Ding, Jiayu, et al.
Pubblicazione: (2025)

Evaluating Large Language Models on Financial Report Summarization: An Empirical Study
di: Yang, Xinqi, et al.
Pubblicazione: (2024)

LTLBench: Towards Benchmarks for Evaluating Temporal Reasoning in Large Language Models
di: Tang, Weizhi, et al.
Pubblicazione: (2024)

Large Language Models are Contrastive Reasoners
di: Yao, Liang
Pubblicazione: (2024)

FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models
di: Liu, Yan, et al.
Pubblicazione: (2024)

FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models
di: Liu, Shu, et al.
Pubblicazione: (2024)

Mathematical Reasoning in Large Language Models: Benchmarks, Architectures, Evaluation, and Open Challenges
di: Amjad, Husnain, et al.
Pubblicazione: (2026)

EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering and Reasoning
di: Wei, Mingyang, et al.
Pubblicazione: (2026)

SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models
di: Yang, Wanqi, et al.
Pubblicazione: (2025)

Structured Chemistry Reasoning with Large Language Models
di: Ouyang, Siru, et al.
Pubblicazione: (2023)

Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items
di: Zou, Minjie, et al.
Pubblicazione: (2025)

Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs
di: Huang, Yuxuan
Pubblicazione: (2023)

EmotionQueen: A Benchmark for Evaluating Empathy of Large Language Models
di: Chen, Yuyan, et al.
Pubblicazione: (2024)

Are Large Language Models Good In-context Learners for Financial Sentiment Analysis?
di: Wei, Xinyu, et al.
Pubblicazione: (2025)

CMoralEval: A Moral Evaluation Benchmark for Chinese Large Language Models
di: Yu, Linhao, et al.
Pubblicazione: (2024)

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models
di: Chun, Jon, et al.
Pubblicazione: (2026)

TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine
di: Yue, Wenjing, et al.
Pubblicazione: (2024)

A Comprehensive Evaluation of Quantization Strategies for Large Language Models
di: Jin, Renren, et al.
Pubblicazione: (2024)

GraCoRe: Benchmarking Graph Comprehension and Complex Reasoning in Large Language Models
di: Yuan, Zike, et al.
Pubblicazione: (2024)

League of LLMs: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models
di: Guo, Qianhong, et al.
Pubblicazione: (2025)

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models
di: Zhang, Qingjie, et al.
Pubblicazione: (2025)

Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs
di: Zheng, Xiang, et al.
Pubblicazione: (2026)

AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field
di: Liang, Chen, et al.
Pubblicazione: (2025)

QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models
di: Wu, Yao, et al.
Pubblicazione: (2026)

Bridging the Arithmetic Gap: The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning
di: Zhao, Boxiang, et al.
Pubblicazione: (2026)

METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models
di: Li, Pengfeng, et al.
Pubblicazione: (2026)

DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models
di: Chung, Tsz Ting, et al.
Pubblicazione: (2025)

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
di: Wang, Jingyuan, et al.
Pubblicazione: (2025)

VLegal-Bench: Cognitively Grounded Benchmark for Vietnamese Legal Reasoning of Large Language Models
di: Dong, Nguyen Tien, et al.
Pubblicazione: (2025)

Pre-trained Large Language Models for Financial Sentiment Analysis
di: Luo, Wei, et al.
Pubblicazione: (2024)