:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Qin, Jie, Yang, Wei, Su, Yan, Zhu, Yiran, Li, Weizhen, Pan, Yunyue, Pan, Chengchang, Qi, Honggang
Format:	Preprint
Published:	2025
Subjects:	Multimedia Artificial Intelligence Computer Vision and Pattern Recognition Machine Learning
Online Access:	https://arxiv.org/abs/2506.10006
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

A Dynamic Prognostic Prediction Method for Colorectal Cancer Liver Metastasis
by: Yang, Wei, et al.
Published: (2025)

Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
by: Su, Hongju, et al.
Published: (2025)

RURA-Net: A general disease diagnosis method based on Zero-Shot Learning
by: Su, Yan, et al.
Published: (2025)

A Residual Multi-task Network for Joint Classification and Regression in Medical Imaging
by: Lin, Junji, et al.
Published: (2025)

MSMF: Multi-Scale Multi-Modal Fusion for Enhanced Stock Market Prediction
by: Qin, Jiahao
Published: (2024)

PupiNet: Seamless OCT-OCTA Interconversion Through Wavelet-Driven and Multi-Scale Attention Mechanisms
by: Tian, Renzhi, et al.
Published: (2025)

Dark Side of Modalities: Reinforced Multimodal Distillation for Multimodal Knowledge Graph Reasoning
by: Zhao, Yu, et al.
Published: (2025)

HeLo: Heterogeneous Multi-Modal Fusion with Label Correlation for Emotion Distribution Learning
by: Zheng, Chuhang, et al.
Published: (2025)

Towards Temporal-Aware Multi-Modal Retrieval Augmented Generation in Finance
by: Zhu, Fengbin, et al.
Published: (2025)

RURANET++: An Unsupervised Learning Method for Diabetic Macular Edema Based on SCSE Attention Mechanisms and Dynamic Multi-Projection Head Clustering
by: Yang, Wei, et al.
Published: (2025)

CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-Modal Multi-Label Emotion Recognition
by: Peng, Cheng, et al.
Published: (2023)

Optimizing Mobile-Friendly Viewport Prediction for Live 360-Degree Video Streaming
by: Zhang, Lei, et al.
Published: (2024)

SIDQL: An Efficient Keyframe Extraction and Motion Reconstruction Framework in Motion Capture
by: Zhang, Xuling, et al.
Published: (2024)

HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs
by: Yao, Ting, et al.
Published: (2024)

SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity
by: Xu, Yijie, et al.
Published: (2025)

Towards Practical Real-Time Low-Latency Music Source Separation
by: Wu, Junyu, et al.
Published: (2025)

RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues
by: Pan, Tianrui, et al.
Published: (2024)

ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding
by: Zhang, Zhenxing, et al.
Published: (2024)

Cross-Modal Coordination Across a Diverse Set of Input Modalities
by: Sánchez, Jorge, et al.
Published: (2024)

State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition
by: Pan, Zhaoyan, et al.
Published: (2026)

Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding
by: Pan, Zhaoyan, et al.
Published: (2026)

Can Video Diffusion Models Predict Past Frames? Bidirectional Cycle Consistency for Reversible Interpolation
by: Liu, Lingyu, et al.
Published: (2026)

Towards Unified Representation of Multi-Modal Pre-training for 3D Understanding via Differentiable Rendering
by: Fei, Ben, et al.
Published: (2024)

MMED: A Multimodal Micro-Expression Dataset based on Audio-Visual Fusion
by: Wang, Junbo, et al.
Published: (2025)

TMDC: A Two-Stage Modality Denoising and Complementation Framework for Multimodal Sentiment Analysis with Missing and Noisy Modalities
by: Zhuang, Yan, et al.
Published: (2025)

Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval
by: Fang, Xiang, et al.
Published: (2022)

Integrating Multi-Modal Sensors: A Review of Fusion Techniques for Intelligent Vehicles
by: Wei, Chuheng, et al.
Published: (2025)

Augmenting Intra-Modal Understanding in MLLMs for Robust Multimodal Keyphrase Generation
by: Cao, Jiajun, et al.
Published: (2025)

Enhancing Few-Shot Classification without Forgetting through Multi-Level Contrastive Constraints
by: Chen, Bingzhi, et al.
Published: (2024)

M3TR: Temporal Retrieval Enhanced Multi-Modal Micro-video Popularity Prediction
by: Lu, Jiacheng, et al.
Published: (2024)

Agentic Mixed-Source Multi-Modal Misinformation Detection with Adaptive Test-Time Scaling
by: Jiang, Wei, et al.
Published: (2026)

Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition
by: Zhuang, Yan, et al.
Published: (2026)

AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction
by: Chen, Zixuan, et al.
Published: (2026)

Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach
by: Zhang, Qi, et al.
Published: (2024)

Inter-Frame Coding for Dynamic Meshes via Coarse-to-Fine Anchor Mesh Generation
by: Huang, He, et al.
Published: (2024)

Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction
by: Li, Dong, et al.
Published: (2025)

Copycat vs. Original: Multi-modal Pretraining and Variable Importance in Box-office Prediction
by: Chao, Qin, et al.
Published: (2025)

Stemphonic: All-at-once Flexible Multi-stem Music Generation
by: Wu, Shih-Lun, et al.
Published: (2026)

CDI-DTI: A Strong Cross-domain Interpretable Drug-Target Interaction Prediction Framework Based on Multi-Strategy Fusion
by: Li, Xiangyu, et al.
Published: (2025)

Exposure Completing for Temporally Consistent Neural High Dynamic Range Video Rendering
by: Cui, Jiahao, et al.
Published: (2024)