Enregistré dans:
| Auteurs principaux: | Chen, Yongrui, Ma, Yangyang, Huang, Xiaoying, Zhang, Shenyu, Chen, Huajun, Wang, Haofen, Qi, Guilin |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2605.01939 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases
par: Chen, Yongrui, et autres
Publié: (2025)
par: Chen, Yongrui, et autres
Publié: (2025)
K-DeCore: Facilitating Knowledge Transfer in Continual Structured Knowledge Reasoning via Knowledge Decoupling
par: Chen, Yongrui, et autres
Publié: (2025)
par: Chen, Yongrui, et autres
Publié: (2025)
Pandora: A Code-Driven Large Language Model Agent for Unified Reasoning Across Diverse Structured Knowledge
par: Chen, Yongrui, et autres
Publié: (2025)
par: Chen, Yongrui, et autres
Publié: (2025)
Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities
par: Ma, Chuangtao, et autres
Publié: (2025)
par: Ma, Chuangtao, et autres
Publié: (2025)
Magic Mushroom: A Customizable Benchmark for Fine-grained Analysis of Retrieval Noise Erosion in RAG Systems
par: Zhang, Yuxin, et autres
Publié: (2025)
par: Zhang, Yuxin, et autres
Publié: (2025)
DEE: Dual-stage Explainable Evaluation Method for Text Generation
par: Zhang, Shenyu, et autres
Publié: (2024)
par: Zhang, Shenyu, et autres
Publié: (2024)
Pandora: Leveraging Code-driven Knowledge Transfer for Unified Structured Knowledge Reasoning
par: Chen, Yongrui, et autres
Publié: (2025)
par: Chen, Yongrui, et autres
Publié: (2025)
MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation
par: Li, Yu, et autres
Publié: (2024)
par: Li, Yu, et autres
Publié: (2024)
DoG-Instruct: Towards Premium Instruction-Tuning Data via Text-Grounded Instruction Wrapping
par: Chen, Yongrui, et autres
Publié: (2023)
par: Chen, Yongrui, et autres
Publié: (2023)
Large Knowledge Model: Perspectives and Challenges
par: Chen, Huajun
Publié: (2023)
par: Chen, Huajun
Publié: (2023)
Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs
par: Hu, Nan, et autres
Publié: (2024)
par: Hu, Nan, et autres
Publié: (2024)
After Retrieval, Before Generation: Enhancing the Trustworthiness of Large Language Models in Retrieval-Augmented Generation
par: Dai, Xinbang, et autres
Publié: (2025)
par: Dai, Xinbang, et autres
Publié: (2025)
MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing
par: Li, Jiaqi, et autres
Publié: (2024)
par: Li, Jiaqi, et autres
Publié: (2024)
Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models
par: Jin, Rihui, et autres
Publié: (2025)
par: Jin, Rihui, et autres
Publié: (2025)
FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning
par: Dou, Shaoyu, et autres
Publié: (2025)
par: Dou, Shaoyu, et autres
Publié: (2025)
Question Answering Over Spatio-Temporal Knowledge Graph
par: Dai, Xinbang, et autres
Publié: (2024)
par: Dai, Xinbang, et autres
Publié: (2024)
AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field
par: Liang, Chen, et autres
Publié: (2025)
par: Liang, Chen, et autres
Publié: (2025)
Reasoning in Action: MCTS-Driven Knowledge Retrieval for Large Language Models
par: Liu, Shuqi, et autres
Publié: (2025)
par: Liu, Shuqi, et autres
Publié: (2025)
Large Language Model Enhanced Knowledge Representation Learning: A Survey
par: Wang, Xin, et autres
Publié: (2024)
par: Wang, Xin, et autres
Publié: (2024)
SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks
par: Li, Tianhao, et autres
Publié: (2024)
par: Li, Tianhao, et autres
Publié: (2024)
FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models
par: Guo, Xin, et autres
Publié: (2023)
par: Guo, Xin, et autres
Publié: (2023)
HeGTa: Leveraging Heterogeneous Graph-enhanced Large Language Models for Few-shot Complex Table Understanding
par: Jin, Rihui, et autres
Publié: (2024)
par: Jin, Rihui, et autres
Publié: (2024)
Making Large Language Models Perform Better in Knowledge Graph Completion
par: Zhang, Yichi, et autres
Publié: (2023)
par: Zhang, Yichi, et autres
Publié: (2023)
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research
par: Sun, Liangtai, et autres
Publié: (2023)
par: Sun, Liangtai, et autres
Publié: (2023)
NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes
par: Fan, Lizhou, et autres
Publié: (2023)
par: Fan, Lizhou, et autres
Publié: (2023)
Dissecting Failure Dynamics in Large Language Model Reasoning
par: Zhu, Wei, et autres
Publié: (2026)
par: Zhu, Wei, et autres
Publié: (2026)
Unveiling the Pitfalls of Knowledge Editing for Large Language Models
par: Li, Zhoubo, et autres
Publié: (2023)
par: Li, Zhoubo, et autres
Publié: (2023)
K-ON: Stacking Knowledge On the Head Layer of Large Language Model
par: Guo, Lingbing, et autres
Publié: (2025)
par: Guo, Lingbing, et autres
Publié: (2025)
CriticEval: Evaluating Large Language Model as Critic
par: Lan, Tian, et autres
Publié: (2024)
par: Lan, Tian, et autres
Publié: (2024)
AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models
par: Yan, Lian, et autres
Publié: (2025)
par: Yan, Lian, et autres
Publié: (2025)
Knowledge in Superposition: Unveiling the Failures of Lifelong Knowledge Editing for Large Language Models
par: Hu, Chenhui, et autres
Publié: (2024)
par: Hu, Chenhui, et autres
Publié: (2024)
QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models
par: Kang, Zhaolu, et autres
Publié: (2026)
par: Kang, Zhaolu, et autres
Publié: (2026)
CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs
par: Liu, Yuanxiang, et autres
Publié: (2026)
par: Liu, Yuanxiang, et autres
Publié: (2026)
ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning
par: Tang, Yuqi, et autres
Publié: (2025)
par: Tang, Yuqi, et autres
Publié: (2025)
Embedding Ontologies via Incorporating Extensional and Intensional Knowledge
par: Wang, Keyu, et autres
Publié: (2024)
par: Wang, Keyu, et autres
Publié: (2024)
LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language Models
par: Li, Haitao, et autres
Publié: (2024)
par: Li, Haitao, et autres
Publié: (2024)
VisEval: A Benchmark for Data Visualization in the Era of Large Language Models
par: Chen, Nan, et autres
Publié: (2024)
par: Chen, Nan, et autres
Publié: (2024)
Large Language Models are Limited in Out-of-Context Knowledge Reasoning
par: Hu, Peng, et autres
Publié: (2024)
par: Hu, Peng, et autres
Publié: (2024)
LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis
par: Cui, Tianyu, et autres
Publié: (2024)
par: Cui, Tianyu, et autres
Publié: (2024)
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
par: Lu, Yuchen, et autres
Publié: (2025)
par: Lu, Yuchen, et autres
Publié: (2025)
Documents similaires
-
OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases
par: Chen, Yongrui, et autres
Publié: (2025) -
K-DeCore: Facilitating Knowledge Transfer in Continual Structured Knowledge Reasoning via Knowledge Decoupling
par: Chen, Yongrui, et autres
Publié: (2025) -
Pandora: A Code-Driven Large Language Model Agent for Unified Reasoning Across Diverse Structured Knowledge
par: Chen, Yongrui, et autres
Publié: (2025) -
Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities
par: Ma, Chuangtao, et autres
Publié: (2025) -
Magic Mushroom: A Customizable Benchmark for Fine-grained Analysis of Retrieval Noise Erosion in RAG Systems
par: Zhang, Yuxin, et autres
Publié: (2025)