Enregistré dans:
| Auteurs principaux: | Cheng, Zehua, Dai, Wei, Sun, Jiahao |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2604.23584 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation
par: Liu, Peiyang, et autres
Publié: (2026)
par: Liu, Peiyang, et autres
Publié: (2026)
Composed Multi-modal Retrieval: A Survey of Approaches and Applications
par: Zhang, Kun, et autres
Publié: (2025)
par: Zhang, Kun, et autres
Publié: (2025)
Utility-Oriented Visual Evidence Selection for Multimodal Retrieval-Augmented Generation
par: Luo, Weiqing, et autres
Publié: (2026)
par: Luo, Weiqing, et autres
Publié: (2026)
HV-Attack: Hierarchical Visual Attack for Multimodal Retrieval Augmented Generation
par: Luo, Linyin, et autres
Publié: (2025)
par: Luo, Linyin, et autres
Publié: (2025)
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
par: Yu, Shi, et autres
Publié: (2024)
par: Yu, Shi, et autres
Publié: (2024)
RAGAR: Retrieval Augmented Personalized Image Generation Guided by Recommendation
par: Ling, Run, et autres
Publié: (2025)
par: Ling, Run, et autres
Publié: (2025)
Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder
par: Liu, Zheyuan, et autres
Publié: (2023)
par: Liu, Zheyuan, et autres
Publié: (2023)
Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework
par: Yan, Yibo, et autres
Publié: (2026)
par: Yan, Yibo, et autres
Publié: (2026)
MARQUIS: A Three-Stage Pipeline for Video Retrieval-Augmented Generation
par: Chakraborty, Debashish, et autres
Publié: (2026)
par: Chakraborty, Debashish, et autres
Publié: (2026)
A Multi-Granularity Retrieval Framework for Visually-Rich Documents
par: Xu, Mingjun, et autres
Publié: (2025)
par: Xu, Mingjun, et autres
Publié: (2025)
Visual Late Chunking: An Empirical Study of Contextual Chunking for Efficient Visual Document Retrieval
par: Yan, Yibo, et autres
Publié: (2026)
par: Yan, Yibo, et autres
Publié: (2026)
SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval
par: Wu, Siwei, et autres
Publié: (2024)
par: Wu, Siwei, et autres
Publié: (2024)
Windsock is Dancing: Adaptive Multimodal Retrieval-Augmented Generation
par: Zhao, Shu, et autres
Publié: (2025)
par: Zhao, Shu, et autres
Publié: (2025)
VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents
par: Tanaka, Ryota, et autres
Publié: (2025)
par: Tanaka, Ryota, et autres
Publié: (2025)
Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines
par: Long, Xinwei, et autres
Publié: (2025)
par: Long, Xinwei, et autres
Publié: (2025)
AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction
par: Yang, Jiashu, et autres
Publié: (2026)
par: Yang, Jiashu, et autres
Publié: (2026)
LongVidSearch: An Agentic Benchmark for Multi-hop Evidence Retrieval Planning in Long Videos
par: Yu, Rongyi, et autres
Publié: (2026)
par: Yu, Rongyi, et autres
Publié: (2026)
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?
par: Shen, Wenxuan, et autres
Publié: (2025)
par: Shen, Wenxuan, et autres
Publié: (2025)
Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering
par: Dong, Kuicai, et autres
Publié: (2025)
par: Dong, Kuicai, et autres
Publié: (2025)
Multi-task Cross-modal Learning for Chest X-ray Image Retrieval
par: Liang, Zhaohui, et autres
Publié: (2026)
par: Liang, Zhaohui, et autres
Publié: (2026)
RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification
par: Keita, Mamadou, et autres
Publié: (2025)
par: Keita, Mamadou, et autres
Publié: (2025)
RANa: Retrieval-Augmented Navigation
par: Monaci, Gianluca, et autres
Publié: (2025)
par: Monaci, Gianluca, et autres
Publié: (2025)
ViDR: Grounding Multimodal Deep Research Reports in Source Visual Evidence
par: Shi, Zhuofan, et autres
Publié: (2026)
par: Shi, Zhuofan, et autres
Publié: (2026)
EvdCLIP: Improving Vision-Language Retrieval with Entity Visual Descriptions from Large Language Models
par: Meng, GuangHao, et autres
Publié: (2025)
par: Meng, GuangHao, et autres
Publié: (2025)
Seeing Through the MiRAGE: Evaluating Multimodal Retrieval Augmented Generation
par: Martin, Alexander, et autres
Publié: (2025)
par: Martin, Alexander, et autres
Publié: (2025)
VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
par: Zhou, Junjie, et autres
Publié: (2024)
par: Zhou, Junjie, et autres
Publié: (2024)
Hybrid-Vector Retrieval for Visually Rich Documents: Combining Single-Vector Efficiency and Multi-Vector Accuracy
par: Kim, Juyeon, et autres
Publié: (2025)
par: Kim, Juyeon, et autres
Publié: (2025)
Distribution-Consistency-Guided Multi-modal Hashing
par: Liu, Jin-Yu, et autres
Publié: (2024)
par: Liu, Jin-Yu, et autres
Publié: (2024)
Differentially Private Motif-Preserving Multi-modal Hashing
par: Cheng, Zehua, et autres
Publié: (2026)
par: Cheng, Zehua, et autres
Publié: (2026)
Attention Grounded Enhancement for Visual Document Retrieval
par: Cui, Wanqing, et autres
Publié: (2025)
par: Cui, Wanqing, et autres
Publié: (2025)
Re-ranking the Context for Multimodal Retrieval Augmented Generation
par: Mortaheb, Matin, et autres
Publié: (2025)
par: Mortaheb, Matin, et autres
Publié: (2025)
Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework
par: Ortego, Diego, et autres
Publié: (2025)
par: Ortego, Diego, et autres
Publié: (2025)
TIGER-FG: Text-Guided Implicit Fine-Grained Grounding for E-commerce Retrieval
par: Sun, Xinyu, et autres
Publié: (2026)
par: Sun, Xinyu, et autres
Publié: (2026)
Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline
par: Messina, Nicola, et autres
Publié: (2024)
par: Messina, Nicola, et autres
Publié: (2024)
MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation
par: Hsiao, Chi-Hsiang, et autres
Publié: (2025)
par: Hsiao, Chi-Hsiang, et autres
Publié: (2025)
CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval
par: Sun, Zelong, et autres
Publié: (2025)
par: Sun, Zelong, et autres
Publié: (2025)
RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance
par: Mortaheb, Matin, et autres
Publié: (2025)
par: Mortaheb, Matin, et autres
Publié: (2025)
Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval
par: Tu, Rong-Cheng, et autres
Publié: (2025)
par: Tu, Rong-Cheng, et autres
Publié: (2025)
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents
par: Wang, Qiuchen, et autres
Publié: (2025)
par: Wang, Qiuchen, et autres
Publié: (2025)
One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image
par: Shereen, Ezzeldin, et autres
Publié: (2025)
par: Shereen, Ezzeldin, et autres
Publié: (2025)
Documents similaires
-
Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation
par: Liu, Peiyang, et autres
Publié: (2026) -
Composed Multi-modal Retrieval: A Survey of Approaches and Applications
par: Zhang, Kun, et autres
Publié: (2025) -
Utility-Oriented Visual Evidence Selection for Multimodal Retrieval-Augmented Generation
par: Luo, Weiqing, et autres
Publié: (2026) -
HV-Attack: Hierarchical Visual Attack for Multimodal Retrieval Augmented Generation
par: Luo, Linyin, et autres
Publié: (2025) -
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
par: Yu, Shi, et autres
Publié: (2024)