:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Dai, Xinbang, Hu, Huikang, Chen, Yongrui, Li, Jiaqi, Jin, Rihui, Zhang, Yuyang, Li, Xiaoguang, Shang, Lifeng, Qi, Guilin
Format:	Preprint
Published:	2025
Subjects:	Artificial Intelligence
Online Access:	https://arxiv.org/abs/2510.10549
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Question Answering Over Spatio-Temporal Knowledge Graph
by: Dai, Xinbang, et al.
Published: (2024)

After Retrieval, Before Generation: Enhancing the Trustworthiness of Large Language Models in Retrieval-Augmented Generation
by: Dai, Xinbang, et al.
Published: (2025)

Pandora: A Code-Driven Large Language Model Agent for Unified Reasoning Across Diverse Structured Knowledge
by: Chen, Yongrui, et al.
Published: (2025)

Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models
by: Jin, Rihui, et al.
Published: (2025)

HeGTa: Leveraging Heterogeneous Graph-enhanced Large Language Models for Few-shot Complex Table Understanding
by: Jin, Rihui, et al.
Published: (2024)

Magic Mushroom: A Customizable Benchmark for Fine-grained Analysis of Retrieval Noise Erosion in RAG Systems
by: Zhang, Yuxin, et al.
Published: (2025)

Pandora: Leveraging Code-driven Knowledge Transfer for Unified Structured Knowledge Reasoning
by: Chen, Yongrui, et al.
Published: (2025)

Large Language Models Can Better Understand Knowledge Graphs Than We Thought
by: Dai, Xinbang, et al.
Published: (2024)

MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing
by: Li, Jiaqi, et al.
Published: (2024)

Can Large Language Models Understand DL-Lite Ontologies? An Empirical Study
by: Wang, Keyu, et al.
Published: (2024)

Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models
by: Li, Jiaqi, et al.
Published: (2024)

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
by: Zuo, Yuxin, et al.
Published: (2025)

DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities
by: Zhuang, Tianyi, et al.
Published: (2025)

Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data
by: Min, Dehai, et al.
Published: (2024)

MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation
by: Li, Yu, et al.
Published: (2024)

Retrieval-based Disentangled Representation Learning with Natural Language Supervision
by: Zhou, Jiawei, et al.
Published: (2022)

Harnessing Diverse Perspectives: A Multi-Agent Framework for Enhanced Error Detection in Knowledge Graphs
by: Li, Yu, et al.
Published: (2025)

Same Signal, Opposite Meaning: Direction-Informed Adaptive Learning for LLM Agents
by: Li, Ziming, et al.
Published: (2026)

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking
by: Liu, Chang, et al.
Published: (2026)

Deep-Sea A*+: An Advanced Path Planning Method Integrating Enhanced A* and Dynamic Window Approach for Autonomous Underwater Vehicles
by: Lai, Yinyi, et al.
Published: (2024)

Mastering Olympiad-Level Physics with Artificial Intelligence
by: Jian, Dong-Shan, et al.
Published: (2025)

Evaluating the External and Parametric Knowledge Fusion of Large Language Models
by: Zhang, Hao, et al.
Published: (2024)

VoiceAgentEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Voice-Agent Evaluation of Xbench's Professional-Aligned Series
by: Xu, Pengyu, et al.
Published: (2025)

Understanding and Benchmarking Artificial Intelligence: OpenAI's o3 Is Not AGI
by: Pfister, Rolf, et al.
Published: (2025)

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding
by: Zhao, Yilun, et al.
Published: (2025)

Does the Generator Mind its Contexts? An Analysis of Generative Model Faithfulness under Context Transfer
by: Hu, Xinshuo, et al.
Published: (2024)

Gradually Excavating External Knowledge for Implicit Complex Question Answering
by: Liu, Chang, et al.
Published: (2026)

DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains
by: Zhao, Xiying, et al.
Published: (2025)

StressEval: Failure-Driven Dynamic Benchmarking for Knowledge-Intensive Reasoning in Large Language Models
by: Chen, Yongrui, et al.
Published: (2026)

Towards Objectively Benchmarking Social Intelligence for Language Agents at Action Level
by: Wang, Chenxu, et al.
Published: (2024)

Embodied Intelligence: The Key to Unblocking Generalized Artificial Intelligence
by: Jiang, Jinhao, et al.
Published: (2025)

Artificial Expert Intelligence through PAC-reasoning
by: Shalev-Shwartz, Shai, et al.
Published: (2024)

Understanding Biology in the Age of Artificial Intelligence
by: Lawrence, Elsa, et al.
Published: (2024)

DoG-Instruct: Towards Premium Instruction-Tuning Data via Text-Grounded Instruction Wrapping
by: Chen, Yongrui, et al.
Published: (2023)

Dialectics for Artificial Intelligence
by: Hu, Zhengmian
Published: (2025)

Can LLMs Solve ASP Problems? Insights from a Benchmarking Study (Extended Version)
by: Ren, Lin, et al.
Published: (2025)

An Embedding-based Approach to Inconsistency-tolerant Reasoning with Inconsistent Ontologies
by: Wang, Keyu, et al.
Published: (2023)

A Comprehensive Survey on Root Cause Analysis in (Micro) Services: Methodologies, Challenges, and Trends
by: Wang, Tingting, et al.
Published: (2024)

Efficient Diversity-based Experience Replay for Deep Reinforcement Learning
by: Zhao, Kaiyan, et al.
Published: (2024)

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition
by: Dai, Yuyang
Published: (2026)