Gespeichert in:
| Hauptverfasser: | Huang, Shuai, Zhao, Wenxuan, Gao, Jun |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2510.23182 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors
von: Hu, Tiancheng, et al.
Veröffentlicht: (2025)
von: Hu, Tiancheng, et al.
Veröffentlicht: (2025)
VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents
von: Hu, Jiliang, et al.
Veröffentlicht: (2025)
von: Hu, Jiliang, et al.
Veröffentlicht: (2025)
Pardon? Evaluating Conversational Repair in Large Audio-Language Models
von: Huang, Shuanghong, et al.
Veröffentlicht: (2026)
von: Huang, Shuanghong, et al.
Veröffentlicht: (2026)
EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning
von: Chen, Yi, et al.
Veröffentlicht: (2023)
von: Chen, Yi, et al.
Veröffentlicht: (2023)
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
von: Zhou, Yingjie, et al.
Veröffentlicht: (2024)
von: Zhou, Yingjie, et al.
Veröffentlicht: (2024)
ClarifyMT-Bench: Benchmarking and Improving Multi-Turn Clarification for Conversational Large Language Models
von: Luo, Sichun, et al.
Veröffentlicht: (2025)
von: Luo, Sichun, et al.
Veröffentlicht: (2025)
TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health
von: Xiong, Zixin, et al.
Veröffentlicht: (2026)
von: Xiong, Zixin, et al.
Veröffentlicht: (2026)
LaoBench: A Large-Scale Multidimensional Lao Benchmark for Large Language Models
von: Gao, Jian, et al.
Veröffentlicht: (2025)
von: Gao, Jian, et al.
Veröffentlicht: (2025)
EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models
von: Paech, Samuel J.
Veröffentlicht: (2023)
von: Paech, Samuel J.
Veröffentlicht: (2023)
SocialEval: Evaluating Social Intelligence of Large Language Models
von: Zhou, Jinfeng, et al.
Veröffentlicht: (2025)
von: Zhou, Jinfeng, et al.
Veröffentlicht: (2025)
EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models
von: Hu, He, et al.
Veröffentlicht: (2025)
von: Hu, He, et al.
Veröffentlicht: (2025)
HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns
von: Wang, Xintao, et al.
Veröffentlicht: (2026)
von: Wang, Xintao, et al.
Veröffentlicht: (2026)
SocialBench: Sociality Evaluation of Role-Playing Conversational Agents
von: Chen, Hongzhan, et al.
Veröffentlicht: (2024)
von: Chen, Hongzhan, et al.
Veröffentlicht: (2024)
HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models
von: Kang, Zhaolu, et al.
Veröffentlicht: (2025)
von: Kang, Zhaolu, et al.
Veröffentlicht: (2025)
CharacterBench: Benchmarking Character Customization of Large Language Models
von: Zhou, Jinfeng, et al.
Veröffentlicht: (2024)
von: Zhou, Jinfeng, et al.
Veröffentlicht: (2024)
HealthBench: Evaluating Large Language Models Towards Improved Human Health
von: Arora, Rahul K., et al.
Veröffentlicht: (2025)
von: Arora, Rahul K., et al.
Veröffentlicht: (2025)
SNS-Bench-VL: Benchmarking Multimodal Large Language Models in Social Networking Services
von: Guo, Hongcheng, et al.
Veröffentlicht: (2025)
von: Guo, Hongcheng, et al.
Veröffentlicht: (2025)
SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models
von: Xu, Zixiang, et al.
Veröffentlicht: (2025)
von: Xu, Zixiang, et al.
Veröffentlicht: (2025)
Benchmarking Large Language Models on Reference Extraction and Parsing in the Social Sciences and Humanities
von: Zhu, Yurui, et al.
Veröffentlicht: (2026)
von: Zhu, Yurui, et al.
Veröffentlicht: (2026)
Explainable Ethical Assessment on Human Behaviors by Generating Conflicting Social Norms
von: Sun, Yuxi, et al.
Veröffentlicht: (2025)
von: Sun, Yuxi, et al.
Veröffentlicht: (2025)
Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models
von: Ding, Meidan, et al.
Veröffentlicht: (2025)
von: Ding, Meidan, et al.
Veröffentlicht: (2025)
JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models
von: Jiang, Junfeng, et al.
Veröffentlicht: (2024)
von: Jiang, Junfeng, et al.
Veröffentlicht: (2024)
Can Large Language Models Replace Human Coders? Introducing ContentBench
von: Haman, Michael
Veröffentlicht: (2026)
von: Haman, Michael
Veröffentlicht: (2026)
Pet-Bench: Benchmarking the Abilities of Large Language Models as E-Pets in Social Network Services
von: Guo, Hongcheng, et al.
Veröffentlicht: (2025)
von: Guo, Hongcheng, et al.
Veröffentlicht: (2025)
EmoBench: Evaluating the Emotional Intelligence of Large Language Models
von: Sabour, Sahand, et al.
Veröffentlicht: (2024)
von: Sabour, Sahand, et al.
Veröffentlicht: (2024)
JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models' Detection of Human Self-Destructive Behavior Content in Jirai Community
von: Xiao, Yunze, et al.
Veröffentlicht: (2025)
von: Xiao, Yunze, et al.
Veröffentlicht: (2025)
Chengyu-Bench: Benchmarking Large Language Models for Chinese Idiom Understanding and Use
von: Fu, Yicheng, et al.
Veröffentlicht: (2025)
von: Fu, Yicheng, et al.
Veröffentlicht: (2025)
AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
von: Zbeeb, Mohammad, et al.
Veröffentlicht: (2025)
von: Zbeeb, Mohammad, et al.
Veröffentlicht: (2025)
Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization
von: Ma, Qiyao, et al.
Veröffentlicht: (2026)
von: Ma, Qiyao, et al.
Veröffentlicht: (2026)
SocialGaze: Improving the Integration of Human Social Norms in Large Language Models
von: Vijjini, Anvesh Rao, et al.
Veröffentlicht: (2024)
von: Vijjini, Anvesh Rao, et al.
Veröffentlicht: (2024)
TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators
von: Li, Jianling, et al.
Veröffentlicht: (2025)
von: Li, Jianling, et al.
Veröffentlicht: (2025)
Are Human Conversations Special? A Large Language Model Perspective
von: Jawale, Toshish, et al.
Veröffentlicht: (2024)
von: Jawale, Toshish, et al.
Veröffentlicht: (2024)
KoDialogBench: Evaluating Conversational Understanding of Language Models with Korean Dialogue Benchmark
von: Jang, Seongbo, et al.
Veröffentlicht: (2024)
von: Jang, Seongbo, et al.
Veröffentlicht: (2024)
ProBench: Benchmarking Large Language Models in Competitive Programming
von: Yang, Lei, et al.
Veröffentlicht: (2025)
von: Yang, Lei, et al.
Veröffentlicht: (2025)
EffiReason-Bench: A Unified Benchmark for Evaluating and Advancing Efficient Reasoning in Large Language Models
von: Huang, Junquan, et al.
Veröffentlicht: (2025)
von: Huang, Junquan, et al.
Veröffentlicht: (2025)
FineBench: Benchmarking and Enhancing Vision-Language Models for Fine-grained Human Activity Understanding
von: Faure, Gueter Josmy, et al.
Veröffentlicht: (2026)
von: Faure, Gueter Josmy, et al.
Veröffentlicht: (2026)
OR-Bench: An Over-Refusal Benchmark for Large Language Models
von: Cui, Justin, et al.
Veröffentlicht: (2024)
von: Cui, Justin, et al.
Veröffentlicht: (2024)
Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents
von: Wu, Shiwei, et al.
Veröffentlicht: (2024)
von: Wu, Shiwei, et al.
Veröffentlicht: (2024)
SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning
von: Xu, Mengya, et al.
Veröffentlicht: (2025)
von: Xu, Mengya, et al.
Veröffentlicht: (2025)
AlignBench: Benchmarking Chinese Alignment of Large Language Models
von: Liu, Xiao, et al.
Veröffentlicht: (2023)
von: Liu, Xiao, et al.
Veröffentlicht: (2023)
Ähnliche Einträge
-
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors
von: Hu, Tiancheng, et al.
Veröffentlicht: (2025) -
VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents
von: Hu, Jiliang, et al.
Veröffentlicht: (2025) -
Pardon? Evaluating Conversational Repair in Large Audio-Language Models
von: Huang, Shuanghong, et al.
Veröffentlicht: (2026) -
EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning
von: Chen, Yi, et al.
Veröffentlicht: (2023) -
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
von: Zhou, Yingjie, et al.
Veröffentlicht: (2024)