:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Zhu, Lingsi, Zou, Yuefeng, Zhang, Yunxiang, Zheng, Naixiang, Wang, Guoyuan, Yu, Jun, Liang, Jiaen, Huang, Wei, Liu, Shengping, Zheng, Ximin
Format:	Preprint
Published:	2026
Subjects:	Multimedia Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2603.14976
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout
by: Yu, Jun, et al.
Published: (2026)

Hierarchical Granularity Alignment and State Space Modeling for Robust Multimodal AU Detection in the Wild
by: Yu, Jun, et al.
Published: (2026)

Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation
by: Yu, Jun, et al.
Published: (2024)

State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition
by: Pan, Zhaoyan, et al.
Published: (2026)

Emotional Cues Extraction and Fusion for Multi-modal Emotion Prediction and Recognition in Conversation
by: Shi, Haoxiang, et al.
Published: (2024)

TF-Mamba: Text-enhanced Fusion Mamba with Missing Modalities for Robust Multimodal Sentiment Analysis
by: Li, Xiang, et al.
Published: (2025)

Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning
by: Cheng, Zebang, et al.
Published: (2024)

Multimodal Fusion via Hypergraph Autoencoder and Contrastive Learning for Emotion Recognition in Conversation
by: Yi, Zijian, et al.
Published: (2024)

HADUA: Hierarchical Attention and Dynamic Uniform Alignment for Robust Cross-Subject Emotion Recognition
by: Tang, Jiahao, et al.
Published: (2026)

UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts
by: Cheng, Zhi-Qi, et al.
Published: (2024)

Integrating Multi-Modal Sensors: A Review of Fusion Techniques for Intelligent Vehicles
by: Wei, Chuheng, et al.
Published: (2025)

HeLo: Heterogeneous Multi-Modal Fusion with Label Correlation for Emotion Distribution Learning
by: Zheng, Chuhang, et al.
Published: (2025)

Explainable Multimodal Emotion Recognition
by: Lian, Zheng, et al.
Published: (2023)

Bridging Discrete and Continuous: A Multimodal Strategy for Complex Emotion Detection
by: Jia, Jiehui, et al.
Published: (2024)

Contribution-Guided Asymmetric Learning for Robust Multimodal Fusion under Imbalance and Noise
by: Xu, Zijing, et al.
Published: (2025)

Memory-Anchored Multimodal Reasoning for Explainable Video Forensics
by: Chen, Chen, et al.
Published: (2025)

TAGF: Time-aware Gated Fusion for Multimodal Valence-Arousal Estimation
by: Lee, Yubeen, et al.
Published: (2025)

EmotionTalk: An Interactive Chinese Multimodal Emotion Dataset With Rich Annotations
by: Sun, Haoqin, et al.
Published: (2025)

Multimodal Representation Learning and Fusion
by: Jin, Qihang, et al.
Published: (2025)

Towards Universal Modal Tracking with Online Dense Temporal Token Learning
by: Zheng, Yaozong, et al.
Published: (2025)

Towards Multimodal Emotional Support Conversation Systems
by: Chu, Yuqi, et al.
Published: (2024)

Multimodal Emotion Recognition with Large Language Models
by: Zhang, Hongrui, et al.
Published: (2026)

Simple but Effective Raw-Data Level Multimodal Fusion for Composed Image Retrieval
by: Wen, Haokun, et al.
Published: (2024)

Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models
by: Lin, Yuxiang, et al.
Published: (2025)

AsCL: An Asymmetry-sensitive Contrastive Learning Method for Image-Text Retrieval with Cross-Modal Fusion
by: Gong, Ziyu, et al.
Published: (2024)

Divide and Conquer: Multimodal Video Deepfake Detection via Cross-Modal Fusion and Localization
by: Li, Qingcao, et al.
Published: (2026)

Sync-TVA: A Graph-Attention Framework for Multimodal Emotion Recognition with Cross-Modal Fusion
by: Deng, Zeyu, et al.
Published: (2025)

Angle-Optimized Partial Disentanglement for Multimodal Emotion Recognition in Conversation
by: Che, Xinyi, et al.
Published: (2025)

SCI-Reason: A Dataset with Chain-of-Thought Rationales for Complex Multimodal Reasoning in Academic Areas
by: Ma, Chenghao, et al.
Published: (2025)

Multimodal Fish Feeding Intensity Assessment in Aquaculture
by: Cui, Meng, et al.
Published: (2023)

Multimodal Emotion Recognition from Raw Audio with Sinc-convolution
by: Zhang, Xiaohui, et al.
Published: (2024)

Anchoring Trends: Mitigating Social Media Popularity Prediction Drift via Feature Clustering and Expansion
by: Lee, Chia-Ming, et al.
Published: (2025)

Orthogonal Disentanglement with Projected Feature Alignment for Multimodal Emotion Recognition in Conversation
by: Che, Xinyi, et al.
Published: (2025)

KEN: Knowledge Augmentation and Emotion Guidance Network for Multimodal Fake News Detection
by: Zhu, Peican, et al.
Published: (2025)

PRISM: Exposing and Resolving Spurious Isolation in Federated Multimodal Continual Learning
by: Wu, Beining, et al.
Published: (2026)

Multi-agent Undercover Gaming: Hallucination Removal via Counterfactual Test for Multimodal Reasoning
by: Liang, Dayong, et al.
Published: (2025)

MMED: A Multimodal Micro-Expression Dataset based on Audio-Visual Fusion
by: Wang, Junbo, et al.
Published: (2025)

EMID: An Emotional Aligned Dataset in Audio-Visual Modality
by: Zou, Jialing, et al.
Published: (2023)

Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search
by: Yang, Shuyu, et al.
Published: (2024)

SEER: Semantic Enhancement and Emotional Reasoning Network for Multimodal Fake News Detection
by: Zhu, Peican, et al.
Published: (2025)