:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Fu, Tianyu, Su, Anyang, Zhao, Chenxu, Wang, Hanning, Wu, Minghui, Yu, Zhe, Hu, Fei, Shi, Mingjia, Dong, Wei, Wang, Jiayao, Chen, Yuyang, Yu, Ruiyang, Peng, Siran, Li, Menglin, Huang, Nan, Wei, Haitian, Yu, Jiawei, Xin, Yi, Zhao, Xilin, Gu, Kai, Jiang, Ping, Zhou, Sifan, Wang, Shuo
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Multimedia Computation and Language Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2509.17336
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

MMED: A Multimodal Micro-Expression Dataset based on Audio-Visual Fusion
von: Wang, Junbo, et al.
Veröffentlicht: (2025)

When Top-ranked Recommendations Fail: Modeling Multi-Granular Negative Feedback for Explainable and Robust Video Recommendation
von: Chen, Siran, et al.
Veröffentlicht: (2025)

VRAgent-R1: Boosting Video Recommendation with MLLM-based Agents via Reinforcement Learning
von: Chen, Siran, et al.
Veröffentlicht: (2025)

SpeechEE: A Novel Benchmark for Speech Event Extraction
von: Wang, Bin, et al.
Veröffentlicht: (2024)

Controllable Text-to-Speech Synthesis with Masked-Autoencoded Style-Rich Representation
von: Wang, Yongqi, et al.
Veröffentlicht: (2025)

MSCT: Differential Cross-Modal Attention for Deepfake Detection
von: Wei, Fangda, et al.
Veröffentlicht: (2026)

Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos
von: Tian, Chong, et al.
Veröffentlicht: (2026)

Multimodal Emotion Recognition with Large Language Models
von: Zhang, Hongrui, et al.
Veröffentlicht: (2026)

SpikEmo: Enhancing Emotion Recognition With Spiking Temporal Dynamics in Conversations
von: Yu, Xiaomin, et al.
Veröffentlicht: (2024)

Audio Matters Too! Enhancing Markerless Motion Capture with Audio Signals for String Performance Capture
von: Jin, Yitong, et al.
Veröffentlicht: (2024)

RFNNS: Robust Fixed Neural Network Steganography with Universal Text-to-Image Models
von: Cheng, Yu, et al.
Veröffentlicht: (2025)

PP-Motion: Physical-Perceptual Fidelity Evaluation for Human Motion Generation
von: Zhao, Sihan, et al.
Veröffentlicht: (2025)

High-level Codes and Fine-grained Weights for Online Multi-modal Hashing Retrieval
von: Zhan, Yu-Wei, et al.
Veröffentlicht: (2024)

SIDQL: An Efficient Keyframe Extraction and Motion Reconstruction Framework in Motion Capture
von: Zhang, Xuling, et al.
Veröffentlicht: (2024)

HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation
von: Cheng, Hongye, et al.
Veröffentlicht: (2025)

LungCURE: Benchmarking Multimodal Real-World Clinical Reasoning for Precision Lung Cancer Diagnosis and Treatment
von: Hao, Fangyu, et al.
Veröffentlicht: (2026)

Multimodal Graph-Based Variational Mixture of Experts Network for Zero-Shot Multimodal Information Extraction
von: Zhou, Baohang, et al.
Veröffentlicht: (2025)

MoMu-Diffusion: On Learning Long-Term Motion-Music Synchronization and Correspondence
von: You, Fuming, et al.
Veröffentlicht: (2024)

A Multi-task Adversarial Attack Against Face Authentication
von: Wang, Hanrui, et al.
Veröffentlicht: (2024)

Rethink Web Service Resilience in Space: A Radiation-Aware and Sustainable Transmission Solution
von: Chen, Long, et al.
Veröffentlicht: (2026)

MTFusion: Reconstructing Any 3D Object from Single Image Using Multi-word Textual Inversion
von: Liu, Yu, et al.
Veröffentlicht: (2024)

SongBloom: Coherent Song Generation via Interleaved Autoregressive Sketching and Diffusion Refinement
von: Yang, Chenyu, et al.
Veröffentlicht: (2025)

Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription
von: Zeng, Wei, et al.
Veröffentlicht: (2025)

Language Model Based Text-to-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers
von: Wang, Juncheng, et al.
Veröffentlicht: (2025)

E2LVLM:Evidence-Enhanced Large Vision-Language Model for Multimodal Out-of-Context Misinformation Detection
von: Wu, Junjie, et al.
Veröffentlicht: (2025)

MViR: Multi-View Visual-Semantic Representation for Fake News Detection
von: Liang, Haochen, et al.
Veröffentlicht: (2026)

Regularized Contrastive Partial Multi-view Outlier Detection
von: Wang, Yijia, et al.
Veröffentlicht: (2024)

Human Aesthetic Preference-Based Large Text-to-Image Model Personalization: Kandinsky Generation as an Example
von: Zhou, Aven-Le, et al.
Veröffentlicht: (2024)

GAIA: Zero-shot Talking Avatar Generation
von: He, Tianyu, et al.
Veröffentlicht: (2023)

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
von: Du, Chenpeng, et al.
Veröffentlicht: (2023)

Orthogonal Disentanglement with Projected Feature Alignment for Multimodal Emotion Recognition in Conversation
von: Che, Xinyi, et al.
Veröffentlicht: (2025)

Think before You Leap: Content-Aware Low-Cost Edge-Assisted Video Semantic Segmentation
von: Yan, Mingxuan, et al.
Veröffentlicht: (2024)

ResearchPulse: Building Method-Experiment Chains through Multi-Document Scientific Inference
von: Chen, Qi, et al.
Veröffentlicht: (2025)

EmotionTalk: An Interactive Chinese Multimodal Emotion Dataset With Rich Annotations
von: Sun, Haoqin, et al.
Veröffentlicht: (2025)

Towards Alleviating Text-to-Image Retrieval Hallucination for CLIP in Zero-shot Learning
von: Wang, Hanyao, et al.
Veröffentlicht: (2024)

A Survey on Multimodal Recommender Systems: Recent Advances and Future Directions
von: Xu, Jinfeng, et al.
Veröffentlicht: (2025)

Differential Mental Disorder Detection with Psychology-Inspired Multimodal Stimuli
von: Zhou, Zhiyuan, et al.
Veröffentlicht: (2026)

QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning
von: Chen, Jiun-Man, et al.
Veröffentlicht: (2024)

AC^2-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation
von: Yu, Wenda, et al.
Veröffentlicht: (2026)

Dark Side of Modalities: Reinforced Multimodal Distillation for Multimodal Knowledge Graph Reasoning
von: Zhao, Yu, et al.
Veröffentlicht: (2025)