:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Wang, Yihan, Li, Lei, Lai, Yao, Wang, Jing, Lu, Yan
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2604.23195
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval
di: Han, Haochen, et al.
Pubblicazione: (2024)

ASR-enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval
di: Zhao, Ruixiang, et al.
Pubblicazione: (2024)

Federated Cross-Modal Retrieval with Missing Modalities via Semantic Routing and Adapter Personalization
di: Zhou, Hefeng, et al.
Pubblicazione: (2026)

Learning Like Humans: Analogical Concept Learning for Generalized Category Discovery
di: Han, Jizhou, et al.
Pubblicazione: (2026)

Cross-Modal Adapter for Vision-Language Retrieval
di: Jiang, Haojun, et al.
Pubblicazione: (2022)

Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond
di: Li, Yongqi, et al.
Pubblicazione: (2024)

FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval
di: Zhao, Chenchen, et al.
Pubblicazione: (2026)

Pattern Analogies: Learning to Perform Programmatic Image Edits by Analogy
di: Ganeshan, Aditya, et al.
Pubblicazione: (2024)

Semantic-Consistent Bidirectional Contrastive Hashing for Noisy Multi-Label Cross-Modal Retrieval
di: Peng, Likang, et al.
Pubblicazione: (2025)

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning
di: Han, Jizhou, et al.
Pubblicazione: (2025)

Retrieval-based Disentangled Representation Learning with Natural Language Supervision
di: Zhou, Jiawei, et al.
Pubblicazione: (2022)

Enhancing Multimodal Unified Representations for Cross Modal Generalization
di: Huang, Hai, et al.
Pubblicazione: (2024)

OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval
di: Yang, Wei, et al.
Pubblicazione: (2025)

Geometry-Aware CLIP Retrieval via Local Cross-Modal Alignment and Steering
di: Prakash, Nirmalendu, et al.
Pubblicazione: (2026)

Hybrid Primal Sketch: Combining Analogy, Qualitative Representations, and Computer Vision for Scene Understanding
di: Forbus, Kenneth D., et al.
Pubblicazione: (2024)

Cross-Modal Retrieval with Cauchy-Schwarz Divergence
di: Zhang, Jiahao, et al.
Pubblicazione: (2025)

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation
di: Gu, Shutian, et al.
Pubblicazione: (2026)

Image2Net: Datasets, Benchmark and Hybrid Framework to Convert Analog Circuit Diagrams into Netlists
di: Xu, Haohang, et al.
Pubblicazione: (2025)

Vision-and-Language Navigation with Analogical Textual Descriptions in LLMs
di: Zhang, Yue, et al.
Pubblicazione: (2025)

Tri-Modal Motion Retrieval by Learning a Joint Embedding Space
di: Yin, Kangning, et al.
Pubblicazione: (2024)

GaussianCross: Cross-modal Self-supervised 3D Representation Learning via Gaussian Splatting
di: Yao, Lei, et al.
Pubblicazione: (2025)

Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification
di: Yi, Chao, et al.
Pubblicazione: (2024)

Decoupling Endpoint and Semantic Transition Learning for Zero-Shot Composed Image Retrieval
di: Liu, Mingyu, et al.
Pubblicazione: (2026)

One-Shot Manipulation Strategy Learning by Making Contact Analogies
di: Liu, Yuyao, et al.
Pubblicazione: (2024)

UrbanCross: Enhancing Satellite Image-Text Retrieval with Cross-Domain Adaptation
di: Zhong, Siru, et al.
Pubblicazione: (2024)

Multimodal Foundation Model for Cross-Modal Retrieval and Activity Recognition Tasks
di: Matsuishi, Koki, et al.
Pubblicazione: (2025)

Beyond Cross-Modal Alignment: Measuring and Leveraging Modality Gap in Vision-Language Models
di: Yan, Hanqi, et al.
Pubblicazione: (2025)

PromptHash: Affinity-Prompted Collaborative Cross-Modal Learning for Adaptive Hashing Retrieval
di: Zou, Qiang, et al.
Pubblicazione: (2025)

Self-Supervised Cross-Modal Learning for Image-to-Point Cloud Registration
di: Wang, Xingmei, et al.
Pubblicazione: (2025)

Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval
di: Shen, Li-Cheng, et al.
Pubblicazione: (2025)

SynCDR : Training Cross Domain Retrieval Models with Synthetic Data
di: Mishra, Samarth, et al.
Pubblicazione: (2023)

When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions
di: Cao, Zhuo, et al.
Pubblicazione: (2025)

MM-R5: MultiModal Reasoning-Enhanced ReRanker via Reinforcement Learning for Document Retrieval
di: Xu, Mingjun, et al.
Pubblicazione: (2025)

The Promise of Analog Deep Learning: Recent Advances, Challenges and Opportunities
di: Datar, Aditya, et al.
Pubblicazione: (2024)

Remote Sensing Retrieval-Augmented Generation: Bridging Remote Sensing Imagery and Comprehensive Knowledge with a Multi-Modal Dataset and Retrieval-Augmented Generation Model
di: Wen, Congcong, et al.
Pubblicazione: (2025)

Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval
di: Fang, Xiang, et al.
Pubblicazione: (2022)

Graph-Based Cross-Domain Knowledge Distillation for Cross-Dataset Text-to-Image Person Retrieval
di: Luo, Bingjun, et al.
Pubblicazione: (2025)

Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval
di: Cho, CH, et al.
Pubblicazione: (2025)

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning
di: Yilmaz, Nilay, et al.
Pubblicazione: (2025)

SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement
di: Jain, Chelsi, et al.
Pubblicazione: (2025)