:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Yin, Xinyi, Wang, Yiduo, Hu, Tingqi, Si, Meicong, Shi, Yunyun, Chen, Shi, Wang, Hao, Xue, Junxiao, Wu, Xuecheng
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2605.02521
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

AeroRAG: Structured Multimodal Retrieval-Augmented LLM for Fine-Grained Aerial Visual Reasoning
by: Xue, Junxiao, et al.
Published: (2026)

Disentangling Hardness from Noise: An Uncertainty-Driven Model-Agnostic Framework for Long-Tailed Remote Sensing Classification
by: Ding, Chi, et al.
Published: (2026)

AIM-Bench: Benchmarking and Improving Affective Image Manipulation via Fine-Grained Hierarchical Control
by: Chen, Shi, et al.
Published: (2026)

Scalable Audio-Visual Masked Autoencoders for Efficient Affective Video Facial Analysis
by: Wu, Xuecheng, et al.
Published: (2025)

Affective Video Content Analysis: Decade Review and New Perspectives
by: Xue, Junxiao, et al.
Published: (2023)

FED-Bench: A Cross-Granular Benchmark for Disentangled Evaluation of Facial Expression Editing
by: Xue, Fengjian, et al.
Published: (2026)

RePose: A Real-Time 3D Human Pose Estimation and Biomechanical Analysis Framework for Rehabilitation
by: Xue, Junxiao, et al.
Published: (2026)

EVA-MED: An Enhanced Valence-Arousal Multimodal Emotion Dataset for Emotion Recognition
by: Huang, Xin, et al.
Published: (2025)

Neuromorphic Valence and Arousal Estimation
by: Berlincioni, Lorenzo, et al.
Published: (2024)

3A-YOLO: New Real-Time Object Detectors with Triple Discriminative Awareness and Coordinated Representations
by: Wu, Xuecheng, et al.
Published: (2024)

AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition
by: Xue, Junxiao, et al.
Published: (2025)

HOLA: Enhancing Audio-visual Deepfake Detection via Hierarchical Contextual Aggregations and Efficient Pre-training
by: Wu, Xuecheng, et al.
Published: (2025)

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation
by: Lee, Yubeen, et al.
Published: (2026)

Datasets for Valence and Arousal Inference: A Survey
by: Schneider, Helen, et al.
Published: (2025)

Affective Image Editing: Shaping Emotional Factors via Text Descriptions
by: Zhang, Peixuan, et al.
Published: (2025)

Mamba-VA: A Mamba-based Approach for Continuous Emotion Recognition in Valence-Arousal Space
by: Liang, Yuheng, et al.
Published: (2025)

ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations
by: Wu, Xuecheng, et al.
Published: (2025)

A Topological Drive for Spacetime Travel
by: Cai, Tingqi, et al.
Published: (2024)

EmotiCrafter: Text-to-Emotional-Image Generation based on Valence-Arousal Model
by: Dang, Shengqi, et al.
Published: (2025)

InfoSyncNet: Information Synchronization Temporal Convolutional Network for Visual Speech Recognition
by: Xue, Junxiao, et al.
Published: (2025)

A Trustworthy Method for Multimodal Emotion Recognition
by: Xue, Junxiao, et al.
Published: (2025)

Improving Personalisation in Valence and Arousal Prediction using Data Augmentation
by: Nwadike, Munachiso, et al.
Published: (2024)

MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network
by: Ahire, Vrushank, et al.
Published: (2025)

MMVA: Multimodal Matching Based on Valence and Arousal across Images, Music, and Musical Captions
by: Choi, Suhwan, et al.
Published: (2025)

Guiding Audio Editing with Audio Language Model
by: Lan, Zitong, et al.
Published: (2025)

Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation
by: Yu, Jun, et al.
Published: (2024)

Towards Comprehensive Interactive Change Understanding in Remote Sensing: A Large-scale Dataset and Dual-granularity Enhanced VLM
by: Xue, Junxiao, et al.
Published: (2025)

CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video
by: Wang, Xinyi, et al.
Published: (2025)

Distance-aware Soft Prompt Learning for Multimodal Valence-Arousal Estimation
by: Jung, Byeongjin, et al.
Published: (2026)

Data Augmentation for 3DMM-based Arousal-Valence Prediction for HRI
by: Cruz, Christian Arzate, et al.
Published: (2024)

TAGF: Time-aware Gated Fusion for Multimodal Valence-Arousal Estimation
by: Lee, Yubeen, et al.
Published: (2025)

Learning Arousal-Valence Representation from Categorical Emotion Labels of Speech
by: Zhou, Enting, et al.
Published: (2023)

Reconciling cosmic dipolar tensions with a gigaparsec void
by: Cai, Tingqi, et al.
Published: (2022)

Emotion-Aware Design: Modulating Valence, Arousal, and Dominance in Communication via Design
by: Cao, Shixiong, et al.
Published: (2025)

Valence-Arousal Subspace in LLMs: Circular Emotion Geometry and Multi-Behavioral Control
by: Sun, Lihao, et al.
Published: (2026)

Improved Text Emotion Prediction Using Combined Valence and Arousal Ordinal Classification
by: Mitsios, Michael, et al.
Published: (2024)

Prompt-Driven Agentic Video Editing System: Autonomous Comprehension of Long-Form, Story-Driven Media
by: Ding, Zihan, et al.
Published: (2025)

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach
by: Ryumina, Elena, et al.
Published: (2026)

Beyond Discrete Categories: Multi-Task Valence-Arousal Modeling for Pet Vocalization Analysis
by: Huang, Junyao, et al.
Published: (2025)

The Predominant Role of Musical Valence Over Arousal in Pain Modulation: A Psychophysiological Study
by: Veronika Diaz Abrahan, et al.
Published: (2025)