:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Zhou, Hua, Ma, Bing, Zhang, Yufei, Zhao, Yi
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computation and Language
Online-Zugang:	https://arxiv.org/abs/2511.07794
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

INSEva: A Comprehensive Chinese Benchmark for Large Language Models in Insurance
von: Chen, Shisong, et al.
Veröffentlicht: (2025)

MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark
von: Yi, Dongyi, et al.
Veröffentlicht: (2025)

Enterprise Benchmarks for Large Language Model Evaluation
von: Zhang, Bing, et al.
Veröffentlicht: (2024)

InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models
von: Ding, Jing, et al.
Veröffentlicht: (2025)

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation
von: Beauchemin, David, et al.
Veröffentlicht: (2026)

Mitigating the Bias of Large Language Model Evaluation
von: Zhou, Hongli, et al.
Veröffentlicht: (2024)

Evaluating the Performance of Large Language Models on GAOKAO Benchmark
von: Zhang, Xiaotian, et al.
Veröffentlicht: (2023)

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory
von: Zhou, Hongli, et al.
Veröffentlicht: (2025)

CMoralEval: A Moral Evaluation Benchmark for Chinese Large Language Models
von: Yu, Linhao, et al.
Veröffentlicht: (2024)

WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code
von: Lin, Zhiyu, et al.
Veröffentlicht: (2025)

ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models
von: Zhang, Hengxiang, et al.
Veröffentlicht: (2024)

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models
von: Kwan, Wai-Chung, et al.
Veröffentlicht: (2024)

Kuaiji: the First Chinese Accounting Large Language Model
von: Luo, Jiayuan, et al.
Veröffentlicht: (2024)

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models
von: Jiao, Cathy, et al.
Veröffentlicht: (2025)

IndustryCode: A Benchmark for Industry Code Generation
von: Zeng, Puyu, et al.
Veröffentlicht: (2026)

EmotionQueen: A Benchmark for Evaluating Empathy of Large Language Models
von: Chen, Yuyan, et al.
Veröffentlicht: (2024)

QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models
von: Wu, Yao, et al.
Veröffentlicht: (2026)

SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models
von: Xu, Zixiang, et al.
Veröffentlicht: (2025)

A User-Centric Multi-Intent Benchmark for Evaluating Large Language Models
von: Wang, Jiayin, et al.
Veröffentlicht: (2024)

Com$^2$: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models
von: Xiong, Kai, et al.
Veröffentlicht: (2025)

CLIMB: A Benchmark of Clinical Bias in Large Language Models
von: Zhang, Yubo, et al.
Veröffentlicht: (2024)

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts
von: Liang, Hao, et al.
Veröffentlicht: (2024)

RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models
von: Wang, Yuqing, et al.
Veröffentlicht: (2024)

Evaluating Ill-Defined Tasks in Large Language Models
von: Zhou, Yi, et al.
Veröffentlicht: (2026)

Bias in Large Language Models: Origin, Evaluation, and Mitigation
von: Guo, Yufei, et al.
Veröffentlicht: (2024)

Large Language Models in the Clinic: A Comprehensive Benchmark
von: Liu, Fenglin, et al.
Veröffentlicht: (2024)

KoLA: Carefully Benchmarking World Knowledge of Large Language Models
von: Yu, Jifan, et al.
Veröffentlicht: (2023)

EffiVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models
von: Wang, Zekun, et al.
Veröffentlicht: (2025)

SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research
von: Sun, Liangtai, et al.
Veröffentlicht: (2023)

Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
von: Hu, Mengkang, et al.
Veröffentlicht: (2025)

A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry
von: Huang, Yining, et al.
Veröffentlicht: (2024)

GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models
von: Zhang, Yue, et al.
Veröffentlicht: (2025)

AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials
von: Lv, Taoyuze, et al.
Veröffentlicht: (2025)

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
von: Ye, Junjie, et al.
Veröffentlicht: (2025)

II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models
von: Liu, Ziqiang, et al.
Veröffentlicht: (2024)

NILE: Internal Consistency Alignment in Large Language Models
von: Hu, Minda, et al.
Veröffentlicht: (2024)

CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models
von: Wang, Song, et al.
Veröffentlicht: (2024)

Pardon? Evaluating Conversational Repair in Large Audio-Language Models
von: Huang, Shuanghong, et al.
Veröffentlicht: (2026)

CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models
von: LI, Yizhi, et al.
Veröffentlicht: (2024)

Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines
von: Deng, Guifeng, et al.
Veröffentlicht: (2025)