Gespeichert in:
| Hauptverfasser: | Yan, Sheng, Liu, Yang, Wang, Haoqiang, Du, Xin, Liu, Mengyuan, Liu, Hong |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2023
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2305.04195 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval
von: Du, Yang, et al.
Veröffentlicht: (2024)
von: Du, Yang, et al.
Veröffentlicht: (2024)
Language-Guided Transformer Tokenizer for Human Motion Generation
von: Yan, Sheng, et al.
Veröffentlicht: (2026)
von: Yan, Sheng, et al.
Veröffentlicht: (2026)
Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation
von: Csizmadia, Daniel, et al.
Veröffentlicht: (2025)
von: Csizmadia, Daniel, et al.
Veröffentlicht: (2025)
MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions
von: Yan, Sheng, et al.
Veröffentlicht: (2024)
von: Yan, Sheng, et al.
Veröffentlicht: (2024)
VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
von: Zhou, Junjie, et al.
Veröffentlicht: (2024)
von: Zhou, Junjie, et al.
Veröffentlicht: (2024)
Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs
von: Gao, Xin, et al.
Veröffentlicht: (2026)
von: Gao, Xin, et al.
Veröffentlicht: (2026)
Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks
von: Li, Qian, et al.
Veröffentlicht: (2024)
von: Li, Qian, et al.
Veröffentlicht: (2024)
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
von: Jiang, Chen, et al.
Veröffentlicht: (2023)
von: Jiang, Chen, et al.
Veröffentlicht: (2023)
MoSa: Motion Generation with Scalable Autoregressive Modeling
von: Liu, Mengyuan, et al.
Veröffentlicht: (2025)
von: Liu, Mengyuan, et al.
Veröffentlicht: (2025)
MotionGPT3: Human Motion as a Second Modality
von: Zhu, Bingfan, et al.
Veröffentlicht: (2025)
von: Zhu, Bingfan, et al.
Veröffentlicht: (2025)
One RL to See Them All: Visual Triple Unified Reinforcement Learning
von: Ma, Yan, et al.
Veröffentlicht: (2025)
von: Ma, Yan, et al.
Veröffentlicht: (2025)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization
von: Zhang, Yanghai, et al.
Veröffentlicht: (2024)
von: Zhang, Yanghai, et al.
Veröffentlicht: (2024)
Cross-Model Cross-Stream Learning for Self-Supervised Human Action Recognition
von: Liu, Mengyuan, et al.
Veröffentlicht: (2023)
von: Liu, Mengyuan, et al.
Veröffentlicht: (2023)
BIMCV-R: A Landmark Dataset for 3D CT Text-Image Retrieval
von: Chen, Yinda, et al.
Veröffentlicht: (2024)
von: Chen, Yinda, et al.
Veröffentlicht: (2024)
Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction
von: Fonseca, Rui, et al.
Veröffentlicht: (2025)
von: Fonseca, Rui, et al.
Veröffentlicht: (2025)
Cross-Modal Adapter for Vision-Language Retrieval
von: Jiang, Haojun, et al.
Veröffentlicht: (2022)
von: Jiang, Haojun, et al.
Veröffentlicht: (2022)
Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models
von: Zhu, Tinghui, et al.
Veröffentlicht: (2024)
von: Zhu, Tinghui, et al.
Veröffentlicht: (2024)
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
von: Yang, Cheng, et al.
Veröffentlicht: (2024)
von: Yang, Cheng, et al.
Veröffentlicht: (2024)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval
von: Liu, Delong, et al.
Veröffentlicht: (2023)
von: Liu, Delong, et al.
Veröffentlicht: (2023)
Enhancing Chest X-ray Classification through Knowledge Injection in Cross-Modality Learning
von: Yan, Yang, et al.
Veröffentlicht: (2025)
von: Yan, Yang, et al.
Veröffentlicht: (2025)
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
von: Liu, Chengzhi, et al.
Veröffentlicht: (2025)
von: Liu, Chengzhi, et al.
Veröffentlicht: (2025)
UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation
von: Wang, Ziyi, et al.
Veröffentlicht: (2026)
von: Wang, Ziyi, et al.
Veröffentlicht: (2026)
Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs
von: Sun, Kaiser, et al.
Veröffentlicht: (2026)
von: Sun, Kaiser, et al.
Veröffentlicht: (2026)
Text-to-Image Cross-Modal Generation: A Systematic Review
von: Żelaszczyk, Maciej, et al.
Veröffentlicht: (2024)
von: Żelaszczyk, Maciej, et al.
Veröffentlicht: (2024)
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads
von: Kou, Siqi, et al.
Veröffentlicht: (2024)
von: Kou, Siqi, et al.
Veröffentlicht: (2024)
Eye Motion Matters for 3D Face Reconstruction
von: Wang, Xuan, et al.
Veröffentlicht: (2024)
von: Wang, Xuan, et al.
Veröffentlicht: (2024)
Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond
von: Wu, Guanyao, et al.
Veröffentlicht: (2025)
von: Wu, Guanyao, et al.
Veröffentlicht: (2025)
A Gated Cross-domain Collaborative Network for Underwater Object Detection
von: Dai, Linhui, et al.
Veröffentlicht: (2023)
von: Dai, Linhui, et al.
Veröffentlicht: (2023)
StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion
von: Guo, Ziyu, et al.
Veröffentlicht: (2025)
von: Guo, Ziyu, et al.
Veröffentlicht: (2025)
Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models
von: Lei, Xuanyu, et al.
Veröffentlicht: (2024)
von: Lei, Xuanyu, et al.
Veröffentlicht: (2024)
SATO: Stable Text-to-Motion Framework
von: Chen, Wenshuo, et al.
Veröffentlicht: (2024)
von: Chen, Wenshuo, et al.
Veröffentlicht: (2024)
Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition
von: Liu, Jinfu, et al.
Veröffentlicht: (2024)
von: Liu, Jinfu, et al.
Veröffentlicht: (2024)
Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval
von: Shen, Li-Cheng, et al.
Veröffentlicht: (2025)
von: Shen, Li-Cheng, et al.
Veröffentlicht: (2025)
A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations
von: Ma, Bin, et al.
Veröffentlicht: (2025)
von: Ma, Bin, et al.
Veröffentlicht: (2025)
Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework
von: Yan, Yibo, et al.
Veröffentlicht: (2026)
von: Yan, Yibo, et al.
Veröffentlicht: (2026)
Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning
von: Wang, Guoxin, et al.
Veröffentlicht: (2025)
von: Wang, Guoxin, et al.
Veröffentlicht: (2025)
VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation
von: Sun, Yubo, et al.
Veröffentlicht: (2025)
von: Sun, Yubo, et al.
Veröffentlicht: (2025)
Text-centric Alignment for Multi-Modality Learning
von: Tsai, Yun-Da, et al.
Veröffentlicht: (2024)
von: Tsai, Yun-Da, et al.
Veröffentlicht: (2024)
Investigating Cross-Modal Skill Injection: Scenarios, Methods, and Hyperparameters
von: Xu, Zhiyu, et al.
Veröffentlicht: (2026)
von: Xu, Zhiyu, et al.
Veröffentlicht: (2026)
Precision or Recall? An Analysis of Image Captions for Training Text-to-Image Generation Model
von: Cheng, Sheng, et al.
Veröffentlicht: (2024)
von: Cheng, Sheng, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval
von: Du, Yang, et al.
Veröffentlicht: (2024) -
Language-Guided Transformer Tokenizer for Human Motion Generation
von: Yan, Sheng, et al.
Veröffentlicht: (2026) -
Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation
von: Csizmadia, Daniel, et al.
Veröffentlicht: (2025) -
MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions
von: Yan, Sheng, et al.
Veröffentlicht: (2024) -
VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
von: Zhou, Junjie, et al.
Veröffentlicht: (2024)