:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Ma, Chuang, Pei, Yu, Zhang, Jianhang, Zhao, Shaokai, Ji, Bowen, Xie, Liang, Yan, Ye, Yin, Erwei
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2506.09834
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

MPFNet: A Multi-Prior Fusion Network with a Progressive Training Strategy for Micro-Expression Recognition
by: Ma, Chuang, et al.
Published: (2025)

AVE Speech: A Comprehensive Multi-Modal Dataset for Speech Recognition Integrating Audio, Visual, and Electromyographic Signals
by: Zhou, Dongliang, et al.
Published: (2025)

DECAN: A Denoising Encoder via Contrastive Alignment Network for Dry Electrode EEG Emotion Recognition
by: Zhang, Meihong, et al.
Published: (2024)

MMED: A Multimodal Micro-Expression Dataset based on Audio-Visual Fusion
by: Wang, Junbo, et al.
Published: (2025)

AFD-SLU: Adaptive Feature Distillation for Spoken Language Understanding
by: Xie, Yan, et al.
Published: (2025)

LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition
by: Hao, Bowen, et al.
Published: (2025)

PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation
by: Wang, Sen, et al.
Published: (2025)

Safe-VLN: Collision Avoidance for Vision-and-Language Navigation of Autonomous Robots Operating in Continuous Environments
by: Yue, Lu, et al.
Published: (2023)

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
by: Wu, Linzhi, et al.
Published: (2026)

Event-Causal RAG: A Retrieval-Augmented Generation Framework for Long Video Reasoning in Complex Scenarios
by: Yan, Peizheng, et al.
Published: (2026)

Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations
by: Cui, Yibo, et al.
Published: (2025)

Generating Negative Samples for Multi-Modal Recommendation
by: Ji, Yanbiao, et al.
Published: (2025)

ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments
by: Yue, Lu, et al.
Published: (2025)

OMG-Bench: A New Challenging Benchmark for Skeleton-based Online Micro Hand Gesture Recognition
by: Chang, Haochen, et al.
Published: (2025)

Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization
by: Wu, Linzhi, et al.
Published: (2024)

ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map
by: Ye, Yilin, et al.
Published: (2024)

FusionSAM: Visual Multi-Modal Learning with Segment Anything
by: Li, Daixun, et al.
Published: (2024)

MORE: Multi-Organ Medical Image REconstruction Dataset
by: Wu, Shaokai, et al.
Published: (2025)

Chinese Stock Prediction Based on a Multi-Modal Transformer Framework: Macro-Micro Information Fusion
by: AI, Lumen, et al.
Published: (2025)

CMED: A Child Micro-Expression Dataset
by: Nikin~Matharaarachchi, et al.
Published: (2025)

Environment Reconstruction based on Multi-User Selection and Multi-Modal Fusion in ISAC
by: Lin, Bo, et al.
Published: (2024)

CosFly-Track: A Large-Scale Multi-Modal Dataset for UAV Visual Tracking via Multi-Constraint Trajectory Optimization
by: Wang, Xiangyue, et al.
Published: (2026)

Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network
by: Li, Shaokai, et al.
Published: (2024)

Dynamics of a Predator-Prey Model with Allee Effect and Interspecific Competition
by: Peng, Lina, et al.
Published: (2026)

Complex dynamics of a predator-prey model with constant-yield prey harvesting and Allee effect in predator
by: Xie, Jianhang, et al.
Published: (2025)

A study on a class of predator-prey models with Allee effect
by: Xie, Jianhang, et al.
Published: (2025)

AdaptiveFusion: Adaptive Multi-Modal Multi-View Fusion for 3D Human Body Reconstruction
by: Chen, Anjun, et al.
Published: (2024)

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
by: Wang, Junyang, et al.
Published: (2024)

Making the Invisible Visible: Toward Micro-Expression Visualization for Empathy in Social Interaction
by: Yin, Feiyang, et al.
Published: (2026)

Multi-Masked Querying Network for Robust Emotion Recognition from Incomplete Multi-Modal Physiological Signals
by: Xu, Geng-Xin, et al.
Published: (2025)

EMID: An Emotional Aligned Dataset in Audio-Visual Modality
by: Zou, Jialing, et al.
Published: (2023)

Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision
by: Ryumina, Elena, et al.
Published: (2024)

Semantic Data Augmentation for Long-tailed Facial Expression Recognition
by: Li, Zijian, et al.
Published: (2024)

Temporal and Spatial Feature Fusion Framework for Dynamic Micro Expression Recognition
by: Liu, Feng, et al.
Published: (2025)

DrFuse: Learning Disentangled Representation for Clinical Multi-Modal Fusion with Missing Modality and Modal Inconsistency
by: Yao, Wenfang, et al.
Published: (2024)

Prioritize Team Actions: Multi-Agent Temporal Logic Task Planning with Ordering Constraints
by: Ye, Bowen, et al.
Published: (2024)

Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations
by: Ma, Luyi, et al.
Published: (2024)

Equivariant Multi-Modality Image Fusion
by: Zhao, Zixiang, et al.
Published: (2023)

MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation
by: Ding, Henghui, et al.
Published: (2025)

Multi-Source Peak Age of Information Optimization in Mobile Edge Computing Systems
by: Zhu, Jianhang, et al.
Published: (2025)