:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Chen, Yongrui, Ma, Yangyang, Huang, Xiaoying, Zhang, Shenyu, Chen, Huajun, Wang, Haofen, Qi, Guilin
Format:	Preprint
Publié:	2026
Sujets:	Computation and Language
Accès en ligne:	https://arxiv.org/abs/2605.01939
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases
par: Chen, Yongrui, et autres
Publié: (2025)

K-DeCore: Facilitating Knowledge Transfer in Continual Structured Knowledge Reasoning via Knowledge Decoupling
par: Chen, Yongrui, et autres
Publié: (2025)

Pandora: A Code-Driven Large Language Model Agent for Unified Reasoning Across Diverse Structured Knowledge
par: Chen, Yongrui, et autres
Publié: (2025)

Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities
par: Ma, Chuangtao, et autres
Publié: (2025)

Magic Mushroom: A Customizable Benchmark for Fine-grained Analysis of Retrieval Noise Erosion in RAG Systems
par: Zhang, Yuxin, et autres
Publié: (2025)

DEE: Dual-stage Explainable Evaluation Method for Text Generation
par: Zhang, Shenyu, et autres
Publié: (2024)

Pandora: Leveraging Code-driven Knowledge Transfer for Unified Structured Knowledge Reasoning
par: Chen, Yongrui, et autres
Publié: (2025)

MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation
par: Li, Yu, et autres
Publié: (2024)

DoG-Instruct: Towards Premium Instruction-Tuning Data via Text-Grounded Instruction Wrapping
par: Chen, Yongrui, et autres
Publié: (2023)

Large Knowledge Model: Perspectives and Challenges
par: Chen, Huajun
Publié: (2023)

Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs
par: Hu, Nan, et autres
Publié: (2024)

After Retrieval, Before Generation: Enhancing the Trustworthiness of Large Language Models in Retrieval-Augmented Generation
par: Dai, Xinbang, et autres
Publié: (2025)

MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing
par: Li, Jiaqi, et autres
Publié: (2024)

Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models
par: Jin, Rihui, et autres
Publié: (2025)

FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning
par: Dou, Shaoyu, et autres
Publié: (2025)

Question Answering Over Spatio-Temporal Knowledge Graph
par: Dai, Xinbang, et autres
Publié: (2024)

AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field
par: Liang, Chen, et autres
Publié: (2025)

Reasoning in Action: MCTS-Driven Knowledge Retrieval for Large Language Models
par: Liu, Shuqi, et autres
Publié: (2025)

Large Language Model Enhanced Knowledge Representation Learning: A Survey
par: Wang, Xin, et autres
Publié: (2024)

SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks
par: Li, Tianhao, et autres
Publié: (2024)

FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models
par: Guo, Xin, et autres
Publié: (2023)

HeGTa: Leveraging Heterogeneous Graph-enhanced Large Language Models for Few-shot Complex Table Understanding
par: Jin, Rihui, et autres
Publié: (2024)

Making Large Language Models Perform Better in Knowledge Graph Completion
par: Zhang, Yichi, et autres
Publié: (2023)

SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research
par: Sun, Liangtai, et autres
Publié: (2023)

NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes
par: Fan, Lizhou, et autres
Publié: (2023)

Dissecting Failure Dynamics in Large Language Model Reasoning
par: Zhu, Wei, et autres
Publié: (2026)

Unveiling the Pitfalls of Knowledge Editing for Large Language Models
par: Li, Zhoubo, et autres
Publié: (2023)

K-ON: Stacking Knowledge On the Head Layer of Large Language Model
par: Guo, Lingbing, et autres
Publié: (2025)

CriticEval: Evaluating Large Language Model as Critic
par: Lan, Tian, et autres
Publié: (2024)

AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models
par: Yan, Lian, et autres
Publié: (2025)

Knowledge in Superposition: Unveiling the Failures of Lifelong Knowledge Editing for Large Language Models
par: Hu, Chenhui, et autres
Publié: (2024)

QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models
par: Kang, Zhaolu, et autres
Publié: (2026)

CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs
par: Liu, Yuanxiang, et autres
Publié: (2026)

ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning
par: Tang, Yuqi, et autres
Publié: (2025)

Embedding Ontologies via Incorporating Extensional and Intensional Knowledge
par: Wang, Keyu, et autres
Publié: (2024)

LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language Models
par: Li, Haitao, et autres
Publié: (2024)

VisEval: A Benchmark for Data Visualization in the Era of Large Language Models
par: Chen, Nan, et autres
Publié: (2024)

Large Language Models are Limited in Out-of-Context Knowledge Reasoning
par: Hu, Peng, et autres
Publié: (2024)

LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis
par: Cui, Tianyu, et autres
Publié: (2024)

StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
par: Lu, Yuchen, et autres
Publié: (2025)