:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Cheng, Zehua, Dai, Wei, Sun, Jiahao
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition Information Retrieval
Accès en ligne:	https://arxiv.org/abs/2604.23584
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation
par: Liu, Peiyang, et autres
Publié: (2026)

Composed Multi-modal Retrieval: A Survey of Approaches and Applications
par: Zhang, Kun, et autres
Publié: (2025)

Utility-Oriented Visual Evidence Selection for Multimodal Retrieval-Augmented Generation
par: Luo, Weiqing, et autres
Publié: (2026)

HV-Attack: Hierarchical Visual Attack for Multimodal Retrieval Augmented Generation
par: Luo, Linyin, et autres
Publié: (2025)

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
par: Yu, Shi, et autres
Publié: (2024)

RAGAR: Retrieval Augmented Personalized Image Generation Guided by Recommendation
par: Ling, Run, et autres
Publié: (2025)

Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder
par: Liu, Zheyuan, et autres
Publié: (2023)

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework
par: Yan, Yibo, et autres
Publié: (2026)

MARQUIS: A Three-Stage Pipeline for Video Retrieval-Augmented Generation
par: Chakraborty, Debashish, et autres
Publié: (2026)

A Multi-Granularity Retrieval Framework for Visually-Rich Documents
par: Xu, Mingjun, et autres
Publié: (2025)

Visual Late Chunking: An Empirical Study of Contextual Chunking for Efficient Visual Document Retrieval
par: Yan, Yibo, et autres
Publié: (2026)

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval
par: Wu, Siwei, et autres
Publié: (2024)

Windsock is Dancing: Adaptive Multimodal Retrieval-Augmented Generation
par: Zhao, Shu, et autres
Publié: (2025)

VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents
par: Tanaka, Ryota, et autres
Publié: (2025)

Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines
par: Long, Xinwei, et autres
Publié: (2025)

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction
par: Yang, Jiashu, et autres
Publié: (2026)

LongVidSearch: An Agentic Benchmark for Multi-hop Evidence Retrieval Planning in Long Videos
par: Yu, Rongyi, et autres
Publié: (2026)

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?
par: Shen, Wenxuan, et autres
Publié: (2025)

Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering
par: Dong, Kuicai, et autres
Publié: (2025)

Multi-task Cross-modal Learning for Chest X-ray Image Retrieval
par: Liang, Zhaohui, et autres
Publié: (2026)

RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification
par: Keita, Mamadou, et autres
Publié: (2025)

RANa: Retrieval-Augmented Navigation
par: Monaci, Gianluca, et autres
Publié: (2025)

ViDR: Grounding Multimodal Deep Research Reports in Source Visual Evidence
par: Shi, Zhuofan, et autres
Publié: (2026)

EvdCLIP: Improving Vision-Language Retrieval with Entity Visual Descriptions from Large Language Models
par: Meng, GuangHao, et autres
Publié: (2025)

Seeing Through the MiRAGE: Evaluating Multimodal Retrieval Augmented Generation
par: Martin, Alexander, et autres
Publié: (2025)

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
par: Zhou, Junjie, et autres
Publié: (2024)

Hybrid-Vector Retrieval for Visually Rich Documents: Combining Single-Vector Efficiency and Multi-Vector Accuracy
par: Kim, Juyeon, et autres
Publié: (2025)

Distribution-Consistency-Guided Multi-modal Hashing
par: Liu, Jin-Yu, et autres
Publié: (2024)

Differentially Private Motif-Preserving Multi-modal Hashing
par: Cheng, Zehua, et autres
Publié: (2026)

Attention Grounded Enhancement for Visual Document Retrieval
par: Cui, Wanqing, et autres
Publié: (2025)

Re-ranking the Context for Multimodal Retrieval Augmented Generation
par: Mortaheb, Matin, et autres
Publié: (2025)

Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework
par: Ortego, Diego, et autres
Publié: (2025)

TIGER-FG: Text-Guided Implicit Fine-Grained Grounding for E-commerce Retrieval
par: Sun, Xinyu, et autres
Publié: (2026)

Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline
par: Messina, Nicola, et autres
Publié: (2024)

MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation
par: Hsiao, Chi-Hsiang, et autres
Publié: (2025)

CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval
par: Sun, Zelong, et autres
Publié: (2025)

RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance
par: Mortaheb, Matin, et autres
Publié: (2025)

Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval
par: Tu, Rong-Cheng, et autres
Publié: (2025)

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents
par: Wang, Qiuchen, et autres
Publié: (2025)

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image
par: Shereen, Ezzeldin, et autres
Publié: (2025)