:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Yan, Sheng, Liu, Yang, Wang, Haoqiang, Du, Xin, Liu, Mengyuan, Liu, Hong
Format:	Preprint
Veröffentlicht:	2023
Schlagworte:	Computer Vision and Pattern Recognition Computation and Language
Online-Zugang:	https://arxiv.org/abs/2305.04195
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval
von: Du, Yang, et al.
Veröffentlicht: (2024)

Language-Guided Transformer Tokenizer for Human Motion Generation
von: Yan, Sheng, et al.
Veröffentlicht: (2026)

Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation
von: Csizmadia, Daniel, et al.
Veröffentlicht: (2025)

MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions
von: Yan, Sheng, et al.
Veröffentlicht: (2024)

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
von: Zhou, Junjie, et al.
Veröffentlicht: (2024)

Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs
von: Gao, Xin, et al.
Veröffentlicht: (2026)

Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks
von: Li, Qian, et al.
Veröffentlicht: (2024)

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
von: Jiang, Chen, et al.
Veröffentlicht: (2023)

MoSa: Motion Generation with Scalable Autoregressive Modeling
von: Liu, Mengyuan, et al.
Veröffentlicht: (2025)

MotionGPT3: Human Motion as a Second Modality
von: Zhu, Bingfan, et al.
Veröffentlicht: (2025)

One RL to See Them All: Visual Triple Unified Reinforcement Learning
von: Ma, Yan, et al.
Veröffentlicht: (2025)

Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization
von: Zhang, Yanghai, et al.
Veröffentlicht: (2024)

Cross-Model Cross-Stream Learning for Self-Supervised Human Action Recognition
von: Liu, Mengyuan, et al.
Veröffentlicht: (2023)

BIMCV-R: A Landmark Dataset for 3D CT Text-Image Retrieval
von: Chen, Yinda, et al.
Veröffentlicht: (2024)

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction
von: Fonseca, Rui, et al.
Veröffentlicht: (2025)

Cross-Modal Adapter for Vision-Language Retrieval
von: Jiang, Haojun, et al.
Veröffentlicht: (2022)

Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models
von: Zhu, Tinghui, et al.
Veröffentlicht: (2024)

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
von: Yang, Cheng, et al.
Veröffentlicht: (2024)

Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval
von: Liu, Delong, et al.
Veröffentlicht: (2023)

Enhancing Chest X-ray Classification through Knowledge Injection in Cross-Modality Learning
von: Yan, Yang, et al.
Veröffentlicht: (2025)

Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
von: Liu, Chengzhi, et al.
Veröffentlicht: (2025)

UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation
von: Wang, Ziyi, et al.
Veröffentlicht: (2026)

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs
von: Sun, Kaiser, et al.
Veröffentlicht: (2026)

Text-to-Image Cross-Modal Generation: A Systematic Review
von: Żelaszczyk, Maciej, et al.
Veröffentlicht: (2024)

Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads
von: Kou, Siqi, et al.
Veröffentlicht: (2024)

Eye Motion Matters for 3D Face Reconstruction
von: Wang, Xuan, et al.
Veröffentlicht: (2024)

Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond
von: Wu, Guanyao, et al.
Veröffentlicht: (2025)

A Gated Cross-domain Collaborative Network for Underwater Object Detection
von: Dai, Linhui, et al.
Veröffentlicht: (2023)

StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion
von: Guo, Ziyu, et al.
Veröffentlicht: (2025)

Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models
von: Lei, Xuanyu, et al.
Veröffentlicht: (2024)

SATO: Stable Text-to-Motion Framework
von: Chen, Wenshuo, et al.
Veröffentlicht: (2024)

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition
von: Liu, Jinfu, et al.
Veröffentlicht: (2024)

Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval
von: Shen, Li-Cheng, et al.
Veröffentlicht: (2025)

A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations
von: Ma, Bin, et al.
Veröffentlicht: (2025)

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework
von: Yan, Yibo, et al.
Veröffentlicht: (2026)

Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning
von: Wang, Guoxin, et al.
Veröffentlicht: (2025)

VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation
von: Sun, Yubo, et al.
Veröffentlicht: (2025)

Text-centric Alignment for Multi-Modality Learning
von: Tsai, Yun-Da, et al.
Veröffentlicht: (2024)

Investigating Cross-Modal Skill Injection: Scenarios, Methods, and Hyperparameters
von: Xu, Zhiyu, et al.
Veröffentlicht: (2026)

Precision or Recall? An Analysis of Image Captions for Training Text-to-Image Generation Model
von: Cheng, Sheng, et al.
Veröffentlicht: (2024)