:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Luo, Zhongze, Yin, Zhenshuai, Guo, Yongxin, Wang, Zhichao, Zhu, Jionghao, Tang, Xiaoying
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computation and Language
Accesso online:	https://arxiv.org/abs/2509.15839
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Adaptive Prompt Structure Factorization: A Framework for Self-Discovering and Optimizing Compositional Prompt Programs
di: Liu, Haoyue, et al.
Pubblicazione: (2026)

KG2QA: Knowledge Graph-enhanced Retrieval-augmented Generation for Communication Standards Question Answering
di: Luo, Zhongze, et al.
Pubblicazione: (2025)

LawLuo: A Multi-Agent Collaborative Framework for Multi-Round Chinese Legal Consultation
di: Sun, Jingyun, et al.
Pubblicazione: (2024)

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
di: Zhang, Ge, et al.
Pubblicazione: (2024)

SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese
di: Xu, Liang, et al.
Pubblicazione: (2024)

MTCMB: A Multi-Task Benchmark Framework for Evaluating LLMs on Knowledge, Reasoning, and Safety in Traditional Chinese Medicine
di: Kong, Shufeng, et al.
Pubblicazione: (2025)

PIDP-Attack: Combining Prompt Injection with Database Poisoning Attacks on Retrieval-Augmented Generation Systems
di: Wang, Haozhen, et al.
Pubblicazione: (2026)

C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models
di: Cao, Jiahuan, et al.
Pubblicazione: (2024)

ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems
di: Zhang, Yiming, et al.
Pubblicazione: (2025)

TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
di: Wei, Shaohang, et al.
Pubblicazione: (2025)

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
di: You, Wangjie, et al.
Pubblicazione: (2025)

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
di: He, Zheqi, et al.
Pubblicazione: (2024)

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs
di: Feng, Xiang, et al.
Pubblicazione: (2025)

MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation
di: Li, Xiaoyuan, et al.
Pubblicazione: (2025)

Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations
di: Sun, Jiaxing, et al.
Pubblicazione: (2024)

Advancing AI-Scientist Understanding: Multi-Agent LLMs with Interpretable Physics Reasoning
di: Xu, Yinggan, et al.
Pubblicazione: (2025)

Symbolic or Numerical? Understanding Physics Problem Solving in Reasoning LLMs
di: Dan, Nifu, et al.
Pubblicazione: (2025)

LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening
di: Zhang, Ming, et al.
Pubblicazione: (2026)

MMSciBench: Benchmarking Language Models on Chinese Multimodal Scientific Problems
di: Ye, Xinwu, et al.
Pubblicazione: (2025)

GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving
di: Zhang, Jiaxin, et al.
Pubblicazione: (2024)

Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following
di: He, Yun, et al.
Pubblicazione: (2024)

InspireDebate: Multi-Dimensional Subjective-Objective Evaluation-Guided Reasoning and Optimization for Debating
di: Wang, Fuyu, et al.
Pubblicazione: (2025)

Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs
di: Zhao, Sihang, et al.
Pubblicazione: (2024)

CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs
di: Wu, Chengwei, et al.
Pubblicazione: (2025)

Multi-TW: Benchmarking Multimodal Models on Traditional Chinese Question Answering in Taiwan
di: Yao, Jui-Ming, et al.
Pubblicazione: (2025)

CFBench: A Comprehensive Constraints-Following Benchmark for LLMs
di: Zhang, Tao, et al.
Pubblicazione: (2024)

SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems
di: Guo, Ziyu, et al.
Pubblicazione: (2025)

UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models
di: Xu, Xin, et al.
Pubblicazione: (2025)

MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models
di: Zhang, Yichi, et al.
Pubblicazione: (2024)

AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models
di: Yan, Lian, et al.
Pubblicazione: (2025)

Flames: Benchmarking Value Alignment of LLMs in Chinese
di: Huang, Kexin, et al.
Pubblicazione: (2023)

FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
di: Luo, Junyu, et al.
Pubblicazione: (2025)

CMB: A Comprehensive Medical Benchmark in Chinese
di: Wang, Xidong, et al.
Pubblicazione: (2023)

CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models
di: Nie, Ying, et al.
Pubblicazione: (2024)

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
di: Fu, Chaoyou, et al.
Pubblicazione: (2024)

DeepMEL: A Multi-Agent Collaboration Framework for Multimodal Entity Linking
di: Wang, Fang, et al.
Pubblicazione: (2025)

IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
di: Ma, David, et al.
Pubblicazione: (2025)

INSEva: A Comprehensive Chinese Benchmark for Large Language Models in Insurance
di: Chen, Shisong, et al.
Pubblicazione: (2025)

XCR-Bench: A Multi-Task Benchmark for Evaluating Cultural Reasoning in LLMs
di: Kabir, Mohsinul, et al.
Pubblicazione: (2026)

MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs
di: Kil, Jihyung, et al.
Pubblicazione: (2024)