Gespeichert in:
| Hauptverfasser: | Zhou, Hua, Ma, Bing, Zhang, Yufei, Zhao, Yi |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2511.07794 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
INSEva: A Comprehensive Chinese Benchmark for Large Language Models in Insurance
von: Chen, Shisong, et al.
Veröffentlicht: (2025)
von: Chen, Shisong, et al.
Veröffentlicht: (2025)
MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark
von: Yi, Dongyi, et al.
Veröffentlicht: (2025)
von: Yi, Dongyi, et al.
Veröffentlicht: (2025)
Enterprise Benchmarks for Large Language Model Evaluation
von: Zhang, Bing, et al.
Veröffentlicht: (2024)
von: Zhang, Bing, et al.
Veröffentlicht: (2024)
InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models
von: Ding, Jing, et al.
Veröffentlicht: (2025)
von: Ding, Jing, et al.
Veröffentlicht: (2025)
Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation
von: Beauchemin, David, et al.
Veröffentlicht: (2026)
von: Beauchemin, David, et al.
Veröffentlicht: (2026)
Mitigating the Bias of Large Language Model Evaluation
von: Zhou, Hongli, et al.
Veröffentlicht: (2024)
von: Zhou, Hongli, et al.
Veröffentlicht: (2024)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark
von: Zhang, Xiaotian, et al.
Veröffentlicht: (2023)
von: Zhang, Xiaotian, et al.
Veröffentlicht: (2023)
Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory
von: Zhou, Hongli, et al.
Veröffentlicht: (2025)
von: Zhou, Hongli, et al.
Veröffentlicht: (2025)
CMoralEval: A Moral Evaluation Benchmark for Chinese Large Language Models
von: Yu, Linhao, et al.
Veröffentlicht: (2024)
von: Yu, Linhao, et al.
Veröffentlicht: (2024)
WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code
von: Lin, Zhiyu, et al.
Veröffentlicht: (2025)
von: Lin, Zhiyu, et al.
Veröffentlicht: (2025)
ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models
von: Zhang, Hengxiang, et al.
Veröffentlicht: (2024)
von: Zhang, Hengxiang, et al.
Veröffentlicht: (2024)
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models
von: Kwan, Wai-Chung, et al.
Veröffentlicht: (2024)
von: Kwan, Wai-Chung, et al.
Veröffentlicht: (2024)
Kuaiji: the First Chinese Accounting Large Language Model
von: Luo, Jiayuan, et al.
Veröffentlicht: (2024)
von: Luo, Jiayuan, et al.
Veröffentlicht: (2024)
DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models
von: Jiao, Cathy, et al.
Veröffentlicht: (2025)
von: Jiao, Cathy, et al.
Veröffentlicht: (2025)
IndustryCode: A Benchmark for Industry Code Generation
von: Zeng, Puyu, et al.
Veröffentlicht: (2026)
von: Zeng, Puyu, et al.
Veröffentlicht: (2026)
EmotionQueen: A Benchmark for Evaluating Empathy of Large Language Models
von: Chen, Yuyan, et al.
Veröffentlicht: (2024)
von: Chen, Yuyan, et al.
Veröffentlicht: (2024)
QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models
von: Wu, Yao, et al.
Veröffentlicht: (2026)
von: Wu, Yao, et al.
Veröffentlicht: (2026)
SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models
von: Xu, Zixiang, et al.
Veröffentlicht: (2025)
von: Xu, Zixiang, et al.
Veröffentlicht: (2025)
A User-Centric Multi-Intent Benchmark for Evaluating Large Language Models
von: Wang, Jiayin, et al.
Veröffentlicht: (2024)
von: Wang, Jiayin, et al.
Veröffentlicht: (2024)
Com$^2$: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models
von: Xiong, Kai, et al.
Veröffentlicht: (2025)
von: Xiong, Kai, et al.
Veröffentlicht: (2025)
CLIMB: A Benchmark of Clinical Bias in Large Language Models
von: Zhang, Yubo, et al.
Veröffentlicht: (2024)
von: Zhang, Yubo, et al.
Veröffentlicht: (2024)
MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts
von: Liang, Hao, et al.
Veröffentlicht: (2024)
von: Liang, Hao, et al.
Veröffentlicht: (2024)
RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models
von: Wang, Yuqing, et al.
Veröffentlicht: (2024)
von: Wang, Yuqing, et al.
Veröffentlicht: (2024)
Evaluating Ill-Defined Tasks in Large Language Models
von: Zhou, Yi, et al.
Veröffentlicht: (2026)
von: Zhou, Yi, et al.
Veröffentlicht: (2026)
Bias in Large Language Models: Origin, Evaluation, and Mitigation
von: Guo, Yufei, et al.
Veröffentlicht: (2024)
von: Guo, Yufei, et al.
Veröffentlicht: (2024)
Large Language Models in the Clinic: A Comprehensive Benchmark
von: Liu, Fenglin, et al.
Veröffentlicht: (2024)
von: Liu, Fenglin, et al.
Veröffentlicht: (2024)
KoLA: Carefully Benchmarking World Knowledge of Large Language Models
von: Yu, Jifan, et al.
Veröffentlicht: (2023)
von: Yu, Jifan, et al.
Veröffentlicht: (2023)
EffiVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models
von: Wang, Zekun, et al.
Veröffentlicht: (2025)
von: Wang, Zekun, et al.
Veröffentlicht: (2025)
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research
von: Sun, Liangtai, et al.
Veröffentlicht: (2023)
von: Sun, Liangtai, et al.
Veröffentlicht: (2023)
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
von: Hu, Mengkang, et al.
Veröffentlicht: (2025)
von: Hu, Mengkang, et al.
Veröffentlicht: (2025)
A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry
von: Huang, Yining, et al.
Veröffentlicht: (2024)
von: Huang, Yining, et al.
Veröffentlicht: (2024)
GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models
von: Zhang, Yue, et al.
Veröffentlicht: (2025)
von: Zhang, Yue, et al.
Veröffentlicht: (2025)
AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials
von: Lv, Taoyuze, et al.
Veröffentlicht: (2025)
von: Lv, Taoyuze, et al.
Veröffentlicht: (2025)
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
von: Ye, Junjie, et al.
Veröffentlicht: (2025)
von: Ye, Junjie, et al.
Veröffentlicht: (2025)
II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models
von: Liu, Ziqiang, et al.
Veröffentlicht: (2024)
von: Liu, Ziqiang, et al.
Veröffentlicht: (2024)
NILE: Internal Consistency Alignment in Large Language Models
von: Hu, Minda, et al.
Veröffentlicht: (2024)
von: Hu, Minda, et al.
Veröffentlicht: (2024)
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models
von: Wang, Song, et al.
Veröffentlicht: (2024)
von: Wang, Song, et al.
Veröffentlicht: (2024)
Pardon? Evaluating Conversational Repair in Large Audio-Language Models
von: Huang, Shuanghong, et al.
Veröffentlicht: (2026)
von: Huang, Shuanghong, et al.
Veröffentlicht: (2026)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models
von: LI, Yizhi, et al.
Veröffentlicht: (2024)
von: LI, Yizhi, et al.
Veröffentlicht: (2024)
Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines
von: Deng, Guifeng, et al.
Veröffentlicht: (2025)
von: Deng, Guifeng, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
INSEva: A Comprehensive Chinese Benchmark for Large Language Models in Insurance
von: Chen, Shisong, et al.
Veröffentlicht: (2025) -
MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark
von: Yi, Dongyi, et al.
Veröffentlicht: (2025) -
Enterprise Benchmarks for Large Language Model Evaluation
von: Zhang, Bing, et al.
Veröffentlicht: (2024) -
InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models
von: Ding, Jing, et al.
Veröffentlicht: (2025) -
Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation
von: Beauchemin, David, et al.
Veröffentlicht: (2026)