:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Author:	Liu, Peng
Format:	Preprint
Published:	2021
Subjects:	Artificial Intelligence Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2112.11447
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval
by: Lei, Youbo, et al.
Published: (2023)

Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation
by: Wang, Jiaxi, et al.
Published: (2023)

Multi-modal Relation Distillation for Unified 3D Representation Learning
by: Wang, Huiqun, et al.
Published: (2024)

Distilling Cross-Modal Knowledge via Feature Disentanglement
by: Liu, Junhong, et al.
Published: (2025)

Modality-Aware and Shift Mixer for Multi-modal Brain Tumor Segmentation
by: Huang, Zhongzhen, et al.
Published: (2024)

Cross-modal Identity Mapping: Minimizing Information Loss in Modality Conversion via Reinforcement Learning
by: Jia, Haonan, et al.
Published: (2026)

Multi-modal Auto-regressive Modeling via Visual Words
by: Peng, Tianshuo, et al.
Published: (2024)

Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs
by: Mo, Wentao, et al.
Published: (2026)

M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning
by: Roy, Kaushik, et al.
Published: (2024)

Gram-Anchored Prompt Learning for Vision-Language Models via Second-Order Statistics
by: Chen, Minglei, et al.
Published: (2026)

CleverDistiller: Simple and Spatially Consistent Cross-modal Distillation
by: Govindarajan, Hariprasath, et al.
Published: (2025)

Multi-modal Contrastive Learning for Tumor-specific Missing Modality Synthesis
by: Lim, Minjoo, et al.
Published: (2025)

TrajFlow: Multi-modal Motion Prediction via Flow Matching
by: Yan, Qi, et al.
Published: (2025)

Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification
by: Liu, Tengfei, et al.
Published: (2024)

PGAD: Prototype-Guided Adaptive Distillation for Multi-Modal Learning in AD Diagnosis
by: Li, Yanfei, et al.
Published: (2025)

MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention
by: Wang, Tianyi, et al.
Published: (2025)

Towards Balanced Multi-Modal Learning in 3D Human Pose Estimation
by: Qi, Mengshi, et al.
Published: (2025)

ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map
by: Ye, Yilin, et al.
Published: (2024)

FLoRA: Fusion-Latent for Optical Reconstruction and Flood Area Segmentation via Cross-Modal Multi-Task Distillation Network
by: Talreja, Jagrati, et al.
Published: (2026)

Multi-modal Generative AI: Multi-modal LLMs, Diffusions, and the Unification
by: Wang, Xin, et al.
Published: (2024)

Awesome Multi-modal Object Tracking
by: Zhang, Chunhui, et al.
Published: (2024)

Depth-Guided Self-Supervised Human Keypoint Detection via Cross-Modal Distillation
by: Anand, Aman, et al.
Published: (2024)

Towards a Universal 3D Medical Multi-modality Generalization via Learning Personalized Invariant Representation
by: Tan, Zhaorui, et al.
Published: (2024)

Cross-modality Guidance-aided Multi-modal Learning with Dual Attention for MRI Brain Tumor Grading
by: Xu, Dunyuan, et al.
Published: (2024)

Toward Aligning Human and Robot Actions via Multi-Modal Demonstration Learning
by: Zahid, Azizul, et al.
Published: (2025)

Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples
by: Gao, Kuofeng, et al.
Published: (2024)

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities
by: Xie, Dongqing, et al.
Published: (2025)

FileGram: Grounding Agent Personalization in File-System Behavioral Traces
by: Liu, Shuai, et al.
Published: (2026)

A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation
by: Zhang, Xin, et al.
Published: (2024)

Learning Progressive Adaptation for Multi-Modal Tracking
by: Wang, He, et al.
Published: (2026)

VizECGNet: Visual ECG Image Network for Cardiovascular Diseases Classification with Multi-Modal Training and Knowledge Distillation
by: Nam, Ju-Hyeon, et al.
Published: (2024)

Semantic-Consistent Bidirectional Contrastive Hashing for Noisy Multi-Label Cross-Modal Retrieval
by: Peng, Likang, et al.
Published: (2025)

Progressive Multi-task Anti-Noise Learning and Distilling Frameworks for Fine-grained Vehicle Recognition
by: Liu, Dichao
Published: (2024)

Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion
by: Li, Lijian
Published: (2025)

Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures
by: Yuan, Kun, et al.
Published: (2023)

Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion
by: Mistretta, Marco, et al.
Published: (2025)

Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning
by: Zhang, Zijian, et al.
Published: (2024)

Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning
by: Christopoulos, Dionysis, et al.
Published: (2025)

RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought
by: Lu, Yi, et al.
Published: (2025)

Multi-modal Test-time Adaptation via Adaptive Probabilistic Gaussian Calibration
by: Xu, Jinglin, et al.
Published: (2026)