Salvato in:
| Autori principali: | Luo, Zhongze, Yin, Zhenshuai, Guo, Yongxin, Wang, Zhichao, Zhu, Jionghao, Tang, Xiaoying |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2509.15839 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Adaptive Prompt Structure Factorization: A Framework for Self-Discovering and Optimizing Compositional Prompt Programs
di: Liu, Haoyue, et al.
Pubblicazione: (2026)
di: Liu, Haoyue, et al.
Pubblicazione: (2026)
KG2QA: Knowledge Graph-enhanced Retrieval-augmented Generation for Communication Standards Question Answering
di: Luo, Zhongze, et al.
Pubblicazione: (2025)
di: Luo, Zhongze, et al.
Pubblicazione: (2025)
LawLuo: A Multi-Agent Collaborative Framework for Multi-Round Chinese Legal Consultation
di: Sun, Jingyun, et al.
Pubblicazione: (2024)
di: Sun, Jingyun, et al.
Pubblicazione: (2024)
CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
di: Zhang, Ge, et al.
Pubblicazione: (2024)
di: Zhang, Ge, et al.
Pubblicazione: (2024)
SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese
di: Xu, Liang, et al.
Pubblicazione: (2024)
di: Xu, Liang, et al.
Pubblicazione: (2024)
MTCMB: A Multi-Task Benchmark Framework for Evaluating LLMs on Knowledge, Reasoning, and Safety in Traditional Chinese Medicine
di: Kong, Shufeng, et al.
Pubblicazione: (2025)
di: Kong, Shufeng, et al.
Pubblicazione: (2025)
PIDP-Attack: Combining Prompt Injection with Database Poisoning Attacks on Retrieval-Augmented Generation Systems
di: Wang, Haozhen, et al.
Pubblicazione: (2026)
di: Wang, Haozhen, et al.
Pubblicazione: (2026)
C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models
di: Cao, Jiahuan, et al.
Pubblicazione: (2024)
di: Cao, Jiahuan, et al.
Pubblicazione: (2024)
ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems
di: Zhang, Yiming, et al.
Pubblicazione: (2025)
di: Zhang, Yiming, et al.
Pubblicazione: (2025)
TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
di: Wei, Shaohang, et al.
Pubblicazione: (2025)
di: Wei, Shaohang, et al.
Pubblicazione: (2025)
Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
di: You, Wangjie, et al.
Pubblicazione: (2025)
di: You, Wangjie, et al.
Pubblicazione: (2025)
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
di: He, Zheqi, et al.
Pubblicazione: (2024)
di: He, Zheqi, et al.
Pubblicazione: (2024)
AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs
di: Feng, Xiang, et al.
Pubblicazione: (2025)
di: Feng, Xiang, et al.
Pubblicazione: (2025)
MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation
di: Li, Xiaoyuan, et al.
Pubblicazione: (2025)
di: Li, Xiaoyuan, et al.
Pubblicazione: (2025)
Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations
di: Sun, Jiaxing, et al.
Pubblicazione: (2024)
di: Sun, Jiaxing, et al.
Pubblicazione: (2024)
Advancing AI-Scientist Understanding: Multi-Agent LLMs with Interpretable Physics Reasoning
di: Xu, Yinggan, et al.
Pubblicazione: (2025)
di: Xu, Yinggan, et al.
Pubblicazione: (2025)
Symbolic or Numerical? Understanding Physics Problem Solving in Reasoning LLMs
di: Dan, Nifu, et al.
Pubblicazione: (2025)
di: Dan, Nifu, et al.
Pubblicazione: (2025)
LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening
di: Zhang, Ming, et al.
Pubblicazione: (2026)
di: Zhang, Ming, et al.
Pubblicazione: (2026)
MMSciBench: Benchmarking Language Models on Chinese Multimodal Scientific Problems
di: Ye, Xinwu, et al.
Pubblicazione: (2025)
di: Ye, Xinwu, et al.
Pubblicazione: (2025)
GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving
di: Zhang, Jiaxin, et al.
Pubblicazione: (2024)
di: Zhang, Jiaxin, et al.
Pubblicazione: (2024)
Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following
di: He, Yun, et al.
Pubblicazione: (2024)
di: He, Yun, et al.
Pubblicazione: (2024)
InspireDebate: Multi-Dimensional Subjective-Objective Evaluation-Guided Reasoning and Optimization for Debating
di: Wang, Fuyu, et al.
Pubblicazione: (2025)
di: Wang, Fuyu, et al.
Pubblicazione: (2025)
Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs
di: Zhao, Sihang, et al.
Pubblicazione: (2024)
di: Zhao, Sihang, et al.
Pubblicazione: (2024)
CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs
di: Wu, Chengwei, et al.
Pubblicazione: (2025)
di: Wu, Chengwei, et al.
Pubblicazione: (2025)
Multi-TW: Benchmarking Multimodal Models on Traditional Chinese Question Answering in Taiwan
di: Yao, Jui-Ming, et al.
Pubblicazione: (2025)
di: Yao, Jui-Ming, et al.
Pubblicazione: (2025)
CFBench: A Comprehensive Constraints-Following Benchmark for LLMs
di: Zhang, Tao, et al.
Pubblicazione: (2024)
di: Zhang, Tao, et al.
Pubblicazione: (2024)
SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems
di: Guo, Ziyu, et al.
Pubblicazione: (2025)
di: Guo, Ziyu, et al.
Pubblicazione: (2025)
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models
di: Xu, Xin, et al.
Pubblicazione: (2025)
di: Xu, Xin, et al.
Pubblicazione: (2025)
MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models
di: Zhang, Yichi, et al.
Pubblicazione: (2024)
di: Zhang, Yichi, et al.
Pubblicazione: (2024)
AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models
di: Yan, Lian, et al.
Pubblicazione: (2025)
di: Yan, Lian, et al.
Pubblicazione: (2025)
Flames: Benchmarking Value Alignment of LLMs in Chinese
di: Huang, Kexin, et al.
Pubblicazione: (2023)
di: Huang, Kexin, et al.
Pubblicazione: (2023)
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
di: Luo, Junyu, et al.
Pubblicazione: (2025)
di: Luo, Junyu, et al.
Pubblicazione: (2025)
CMB: A Comprehensive Medical Benchmark in Chinese
di: Wang, Xidong, et al.
Pubblicazione: (2023)
di: Wang, Xidong, et al.
Pubblicazione: (2023)
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models
di: Nie, Ying, et al.
Pubblicazione: (2024)
di: Nie, Ying, et al.
Pubblicazione: (2024)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
di: Fu, Chaoyou, et al.
Pubblicazione: (2024)
di: Fu, Chaoyou, et al.
Pubblicazione: (2024)
DeepMEL: A Multi-Agent Collaboration Framework for Multimodal Entity Linking
di: Wang, Fang, et al.
Pubblicazione: (2025)
di: Wang, Fang, et al.
Pubblicazione: (2025)
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
di: Ma, David, et al.
Pubblicazione: (2025)
di: Ma, David, et al.
Pubblicazione: (2025)
INSEva: A Comprehensive Chinese Benchmark for Large Language Models in Insurance
di: Chen, Shisong, et al.
Pubblicazione: (2025)
di: Chen, Shisong, et al.
Pubblicazione: (2025)
XCR-Bench: A Multi-Task Benchmark for Evaluating Cultural Reasoning in LLMs
di: Kabir, Mohsinul, et al.
Pubblicazione: (2026)
di: Kabir, Mohsinul, et al.
Pubblicazione: (2026)
MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs
di: Kil, Jihyung, et al.
Pubblicazione: (2024)
di: Kil, Jihyung, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Adaptive Prompt Structure Factorization: A Framework for Self-Discovering and Optimizing Compositional Prompt Programs
di: Liu, Haoyue, et al.
Pubblicazione: (2026) -
KG2QA: Knowledge Graph-enhanced Retrieval-augmented Generation for Communication Standards Question Answering
di: Luo, Zhongze, et al.
Pubblicazione: (2025) -
LawLuo: A Multi-Agent Collaborative Framework for Multi-Round Chinese Legal Consultation
di: Sun, Jingyun, et al.
Pubblicazione: (2024) -
CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
di: Zhang, Ge, et al.
Pubblicazione: (2024) -
SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese
di: Xu, Liang, et al.
Pubblicazione: (2024)