:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Li, Yiming, Zhang, Zhao
Format:	Preprint
Published:	2024
Subjects:	Computation and Language Artificial Intelligence
Online Access:	https://arxiv.org/abs/2402.18385
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA
by: Wang, Minzheng, et al.
Published: (2024)

Revisiting the Solution of Meta KDD Cup 2024: CRAG
by: Ouyang, Jie, et al.
Published: (2024)

Self-Prompting Large Language Models for Zero-Shot Open-Domain QA
by: Li, Junlong, et al.
Published: (2022)

DocFinQA: A Long-Context Financial Reasoning Dataset
by: Reddy, Varshini, et al.
Published: (2024)

ESG Accountability Made Easy: DocQA at Your Service
by: Mishra, Lokesh, et al.
Published: (2023)

Evaluating and Enhancing Large Language Models Performance in Domain-specific Medicine: Osteoarthritis Management with DocOA
by: Chen, Xi, et al.
Published: (2024)

M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models
by: Li, Chuhan, et al.
Published: (2024)

Leveraging Large Language Models for Entity Matching
by: Huang, Qianyu, et al.
Published: (2024)

Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models
by: Zhang, Zihong, et al.
Published: (2025)

FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models
by: Zhu, Andrew, et al.
Published: (2024)

A Lightweight Multi Aspect Controlled Text Generation Solution For Large Language Models
by: Zhang, Chenyang, et al.
Published: (2024)

DB3 Team's Solution For Meta KDD Cup' 25
by: Xia, Yikuan, et al.
Published: (2025)

Leveraging Large Language Model as Simulated Patients for Clinical Education
by: Li, Yanzeng, et al.
Published: (2024)

Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles
by: Sun, Xiongtao, et al.
Published: (2024)

DateLogicQA: Benchmarking Temporal Biases in Large Language Models
by: Bhatia, Gagan, et al.
Published: (2024)

Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Models
by: Sun, Qiang, et al.
Published: (2024)

"What's Up, Doc?": Analyzing How Users Seek Health Information in Large-Scale Conversational AI Datasets
by: Paruchuri, Akshay, et al.
Published: (2025)

DocReLM: Mastering Document Retrieval with Language Model
by: Wei, Gengchen, et al.
Published: (2024)

Leveraging Adaptive Group Negotiation for Heterogeneous Multi-Robot Collaboration with Large Language Models
by: Song, Siqi, et al.
Published: (2025)

Conversation Forests: The Key to Fine Tuning Large Language Models for Multi-Turn Medical Conversations is Branching
by: Savage, Thomas
Published: (2025)

DocMEdit: Towards Document-Level Model Editing
by: Zeng, Li, et al.
Published: (2025)

Chinese SafetyQA: A Safety Short-form Factuality Benchmark for Large Language Models
by: Tan, Yingshui, et al.
Published: (2024)

Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA
by: Alushi, Klejda, et al.
Published: (2026)

Large Language Models as Misleading Assistants in Conversation
by: Hou, Betty Li, et al.
Published: (2024)

DocEDA: Automated Extraction and Design of Analog Circuits from Documents with Large Language Model
by: Chen, Hong Cai, et al.
Published: (2024)

RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection
by: Huang, Yiming, et al.
Published: (2025)

On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach
by: Li, Huahang, et al.
Published: (2024)

Navigating Large-Scale Document Collections: MuDABench for Multi-Document Analytical QA
by: Li, Zhanli, et al.
Published: (2026)

ReviewInstruct: A Review-Driven Multi-Turn Conversations Generation Method for Large Language Models
by: Wu, Jiangxu, et al.
Published: (2025)

DocMamba: Efficient Document Pre-training with State Space Model
by: Hu, Pengfei, et al.
Published: (2024)

Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
by: Ying, Zonghao, et al.
Published: (2025)

Doc-Guided Sent2Sent++: A Sent2Sent++ Agent with Doc-Guided memory for Document-level Machine Translation
by: Guo, Jiaxin, et al.
Published: (2025)

Table as a Modality for Large Language Models
by: Li, Liyao, et al.
Published: (2025)

DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation
by: Doris, Anna C., et al.
Published: (2024)

Evaluating Monolingual and Multilingual Large Language Models for Greek Question Answering: The DemosQA Benchmark
by: Mastrokostas, Charalampos, et al.
Published: (2026)

Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications
by: Godbole, Aditi, et al.
Published: (2024)

ChatQA: Surpassing GPT-4 on Conversational QA and RAG
by: Liu, Zihan, et al.
Published: (2024)

JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models
by: Liu, Junyu, et al.
Published: (2026)

Learning to Correct for QA Reasoning with Black-box LLMs
by: Kim, Jaehyung, et al.
Published: (2024)

QA-TOOLBOX: Conversational Question-Answering for process task guidance in manufacturing
by: Manuvinakurike, Ramesh, et al.
Published: (2024)