:: Library Catalog

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Huang, Shuai, Zhao, Wenxuan, Gao, Jun
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computation and Language
Online-Zugang:	https://arxiv.org/abs/2510.23182
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors
von: Hu, Tiancheng, et al.
Veröffentlicht: (2025)

VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents
von: Hu, Jiliang, et al.
Veröffentlicht: (2025)

Pardon? Evaluating Conversational Repair in Large Audio-Language Models
von: Huang, Shuanghong, et al.
Veröffentlicht: (2026)

EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning
von: Chen, Yi, et al.
Veröffentlicht: (2023)

MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
von: Zhou, Yingjie, et al.
Veröffentlicht: (2024)

ClarifyMT-Bench: Benchmarking and Improving Multi-Turn Clarification for Conversational Large Language Models
von: Luo, Sichun, et al.
Veröffentlicht: (2025)

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health
von: Xiong, Zixin, et al.
Veröffentlicht: (2026)

LaoBench: A Large-Scale Multidimensional Lao Benchmark for Large Language Models
von: Gao, Jian, et al.
Veröffentlicht: (2025)

EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models
von: Paech, Samuel J.
Veröffentlicht: (2023)

SocialEval: Evaluating Social Intelligence of Large Language Models
von: Zhou, Jinfeng, et al.
Veröffentlicht: (2025)

EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models
von: Hu, He, et al.
Veröffentlicht: (2025)

HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns
von: Wang, Xintao, et al.
Veröffentlicht: (2026)

SocialBench: Sociality Evaluation of Role-Playing Conversational Agents
von: Chen, Hongzhan, et al.
Veröffentlicht: (2024)

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models
von: Kang, Zhaolu, et al.
Veröffentlicht: (2025)

CharacterBench: Benchmarking Character Customization of Large Language Models
von: Zhou, Jinfeng, et al.
Veröffentlicht: (2024)

HealthBench: Evaluating Large Language Models Towards Improved Human Health
von: Arora, Rahul K., et al.
Veröffentlicht: (2025)

SNS-Bench-VL: Benchmarking Multimodal Large Language Models in Social Networking Services
von: Guo, Hongcheng, et al.
Veröffentlicht: (2025)

SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models
von: Xu, Zixiang, et al.
Veröffentlicht: (2025)

Benchmarking Large Language Models on Reference Extraction and Parsing in the Social Sciences and Humanities
von: Zhu, Yurui, et al.
Veröffentlicht: (2026)

Explainable Ethical Assessment on Human Behaviors by Generating Conflicting Social Norms
von: Sun, Yuxi, et al.
Veröffentlicht: (2025)

Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models
von: Ding, Meidan, et al.
Veröffentlicht: (2025)

JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models
von: Jiang, Junfeng, et al.
Veröffentlicht: (2024)

Can Large Language Models Replace Human Coders? Introducing ContentBench
von: Haman, Michael
Veröffentlicht: (2026)

Pet-Bench: Benchmarking the Abilities of Large Language Models as E-Pets in Social Network Services
von: Guo, Hongcheng, et al.
Veröffentlicht: (2025)

EmoBench: Evaluating the Emotional Intelligence of Large Language Models
von: Sabour, Sahand, et al.
Veröffentlicht: (2024)

JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models' Detection of Human Self-Destructive Behavior Content in Jirai Community
von: Xiao, Yunze, et al.
Veröffentlicht: (2025)

Chengyu-Bench: Benchmarking Large Language Models for Chinese Idiom Understanding and Use
von: Fu, Yicheng, et al.
Veröffentlicht: (2025)

AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
von: Zbeeb, Mohammad, et al.
Veröffentlicht: (2025)

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization
von: Ma, Qiyao, et al.
Veröffentlicht: (2026)

SocialGaze: Improving the Integration of Human Social Norms in Large Language Models
von: Vijjini, Anvesh Rao, et al.
Veröffentlicht: (2024)

TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators
von: Li, Jianling, et al.
Veröffentlicht: (2025)

Are Human Conversations Special? A Large Language Model Perspective
von: Jawale, Toshish, et al.
Veröffentlicht: (2024)

KoDialogBench: Evaluating Conversational Understanding of Language Models with Korean Dialogue Benchmark
von: Jang, Seongbo, et al.
Veröffentlicht: (2024)

ProBench: Benchmarking Large Language Models in Competitive Programming
von: Yang, Lei, et al.
Veröffentlicht: (2025)

EffiReason-Bench: A Unified Benchmark for Evaluating and Advancing Efficient Reasoning in Large Language Models
von: Huang, Junquan, et al.
Veröffentlicht: (2025)

FineBench: Benchmarking and Enhancing Vision-Language Models for Fine-grained Human Activity Understanding
von: Faure, Gueter Josmy, et al.
Veröffentlicht: (2026)

OR-Bench: An Over-Refusal Benchmark for Large Language Models
von: Cui, Justin, et al.
Veröffentlicht: (2024)

Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents
von: Wu, Shiwei, et al.
Veröffentlicht: (2024)

SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning
von: Xu, Mengya, et al.
Veröffentlicht: (2025)

AlignBench: Benchmarking Chinese Alignment of Large Language Models
von: Liu, Xiao, et al.
Veröffentlicht: (2023)