Gespeichert in:
| Hauptverfasser: | Fu, Tianyu, Su, Anyang, Zhao, Chenxu, Wang, Hanning, Wu, Minghui, Yu, Zhe, Hu, Fei, Shi, Mingjia, Dong, Wei, Wang, Jiayao, Chen, Yuyang, Yu, Ruiyang, Peng, Siran, Li, Menglin, Huang, Nan, Wei, Haitian, Yu, Jiawei, Xin, Yi, Zhao, Xilin, Gu, Kai, Jiang, Ping, Zhou, Sifan, Wang, Shuo |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2509.17336 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
MMED: A Multimodal Micro-Expression Dataset based on Audio-Visual Fusion
von: Wang, Junbo, et al.
Veröffentlicht: (2025)
von: Wang, Junbo, et al.
Veröffentlicht: (2025)
When Top-ranked Recommendations Fail: Modeling Multi-Granular Negative Feedback for Explainable and Robust Video Recommendation
von: Chen, Siran, et al.
Veröffentlicht: (2025)
von: Chen, Siran, et al.
Veröffentlicht: (2025)
VRAgent-R1: Boosting Video Recommendation with MLLM-based Agents via Reinforcement Learning
von: Chen, Siran, et al.
Veröffentlicht: (2025)
von: Chen, Siran, et al.
Veröffentlicht: (2025)
SpeechEE: A Novel Benchmark for Speech Event Extraction
von: Wang, Bin, et al.
Veröffentlicht: (2024)
von: Wang, Bin, et al.
Veröffentlicht: (2024)
Controllable Text-to-Speech Synthesis with Masked-Autoencoded Style-Rich Representation
von: Wang, Yongqi, et al.
Veröffentlicht: (2025)
von: Wang, Yongqi, et al.
Veröffentlicht: (2025)
MSCT: Differential Cross-Modal Attention for Deepfake Detection
von: Wei, Fangda, et al.
Veröffentlicht: (2026)
von: Wei, Fangda, et al.
Veröffentlicht: (2026)
Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos
von: Tian, Chong, et al.
Veröffentlicht: (2026)
von: Tian, Chong, et al.
Veröffentlicht: (2026)
Multimodal Emotion Recognition with Large Language Models
von: Zhang, Hongrui, et al.
Veröffentlicht: (2026)
von: Zhang, Hongrui, et al.
Veröffentlicht: (2026)
SpikEmo: Enhancing Emotion Recognition With Spiking Temporal Dynamics in Conversations
von: Yu, Xiaomin, et al.
Veröffentlicht: (2024)
von: Yu, Xiaomin, et al.
Veröffentlicht: (2024)
Audio Matters Too! Enhancing Markerless Motion Capture with Audio Signals for String Performance Capture
von: Jin, Yitong, et al.
Veröffentlicht: (2024)
von: Jin, Yitong, et al.
Veröffentlicht: (2024)
RFNNS: Robust Fixed Neural Network Steganography with Universal Text-to-Image Models
von: Cheng, Yu, et al.
Veröffentlicht: (2025)
von: Cheng, Yu, et al.
Veröffentlicht: (2025)
PP-Motion: Physical-Perceptual Fidelity Evaluation for Human Motion Generation
von: Zhao, Sihan, et al.
Veröffentlicht: (2025)
von: Zhao, Sihan, et al.
Veröffentlicht: (2025)
High-level Codes and Fine-grained Weights for Online Multi-modal Hashing Retrieval
von: Zhan, Yu-Wei, et al.
Veröffentlicht: (2024)
von: Zhan, Yu-Wei, et al.
Veröffentlicht: (2024)
SIDQL: An Efficient Keyframe Extraction and Motion Reconstruction Framework in Motion Capture
von: Zhang, Xuling, et al.
Veröffentlicht: (2024)
von: Zhang, Xuling, et al.
Veröffentlicht: (2024)
HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation
von: Cheng, Hongye, et al.
Veröffentlicht: (2025)
von: Cheng, Hongye, et al.
Veröffentlicht: (2025)
LungCURE: Benchmarking Multimodal Real-World Clinical Reasoning for Precision Lung Cancer Diagnosis and Treatment
von: Hao, Fangyu, et al.
Veröffentlicht: (2026)
von: Hao, Fangyu, et al.
Veröffentlicht: (2026)
Multimodal Graph-Based Variational Mixture of Experts Network for Zero-Shot Multimodal Information Extraction
von: Zhou, Baohang, et al.
Veröffentlicht: (2025)
von: Zhou, Baohang, et al.
Veröffentlicht: (2025)
MoMu-Diffusion: On Learning Long-Term Motion-Music Synchronization and Correspondence
von: You, Fuming, et al.
Veröffentlicht: (2024)
von: You, Fuming, et al.
Veröffentlicht: (2024)
A Multi-task Adversarial Attack Against Face Authentication
von: Wang, Hanrui, et al.
Veröffentlicht: (2024)
von: Wang, Hanrui, et al.
Veröffentlicht: (2024)
Rethink Web Service Resilience in Space: A Radiation-Aware and Sustainable Transmission Solution
von: Chen, Long, et al.
Veröffentlicht: (2026)
von: Chen, Long, et al.
Veröffentlicht: (2026)
MTFusion: Reconstructing Any 3D Object from Single Image Using Multi-word Textual Inversion
von: Liu, Yu, et al.
Veröffentlicht: (2024)
von: Liu, Yu, et al.
Veröffentlicht: (2024)
SongBloom: Coherent Song Generation via Interleaved Autoregressive Sketching and Diffusion Refinement
von: Yang, Chenyu, et al.
Veröffentlicht: (2025)
von: Yang, Chenyu, et al.
Veröffentlicht: (2025)
Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription
von: Zeng, Wei, et al.
Veröffentlicht: (2025)
von: Zeng, Wei, et al.
Veröffentlicht: (2025)
Language Model Based Text-to-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers
von: Wang, Juncheng, et al.
Veröffentlicht: (2025)
von: Wang, Juncheng, et al.
Veröffentlicht: (2025)
E2LVLM:Evidence-Enhanced Large Vision-Language Model for Multimodal Out-of-Context Misinformation Detection
von: Wu, Junjie, et al.
Veröffentlicht: (2025)
von: Wu, Junjie, et al.
Veröffentlicht: (2025)
MViR: Multi-View Visual-Semantic Representation for Fake News Detection
von: Liang, Haochen, et al.
Veröffentlicht: (2026)
von: Liang, Haochen, et al.
Veröffentlicht: (2026)
Regularized Contrastive Partial Multi-view Outlier Detection
von: Wang, Yijia, et al.
Veröffentlicht: (2024)
von: Wang, Yijia, et al.
Veröffentlicht: (2024)
Human Aesthetic Preference-Based Large Text-to-Image Model Personalization: Kandinsky Generation as an Example
von: Zhou, Aven-Le, et al.
Veröffentlicht: (2024)
von: Zhou, Aven-Le, et al.
Veröffentlicht: (2024)
GAIA: Zero-shot Talking Avatar Generation
von: He, Tianyu, et al.
Veröffentlicht: (2023)
von: He, Tianyu, et al.
Veröffentlicht: (2023)
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
von: Du, Chenpeng, et al.
Veröffentlicht: (2023)
von: Du, Chenpeng, et al.
Veröffentlicht: (2023)
Orthogonal Disentanglement with Projected Feature Alignment for Multimodal Emotion Recognition in Conversation
von: Che, Xinyi, et al.
Veröffentlicht: (2025)
von: Che, Xinyi, et al.
Veröffentlicht: (2025)
Think before You Leap: Content-Aware Low-Cost Edge-Assisted Video Semantic Segmentation
von: Yan, Mingxuan, et al.
Veröffentlicht: (2024)
von: Yan, Mingxuan, et al.
Veröffentlicht: (2024)
ResearchPulse: Building Method-Experiment Chains through Multi-Document Scientific Inference
von: Chen, Qi, et al.
Veröffentlicht: (2025)
von: Chen, Qi, et al.
Veröffentlicht: (2025)
EmotionTalk: An Interactive Chinese Multimodal Emotion Dataset With Rich Annotations
von: Sun, Haoqin, et al.
Veröffentlicht: (2025)
von: Sun, Haoqin, et al.
Veröffentlicht: (2025)
Towards Alleviating Text-to-Image Retrieval Hallucination for CLIP in Zero-shot Learning
von: Wang, Hanyao, et al.
Veröffentlicht: (2024)
von: Wang, Hanyao, et al.
Veröffentlicht: (2024)
A Survey on Multimodal Recommender Systems: Recent Advances and Future Directions
von: Xu, Jinfeng, et al.
Veröffentlicht: (2025)
von: Xu, Jinfeng, et al.
Veröffentlicht: (2025)
Differential Mental Disorder Detection with Psychology-Inspired Multimodal Stimuli
von: Zhou, Zhiyuan, et al.
Veröffentlicht: (2026)
von: Zhou, Zhiyuan, et al.
Veröffentlicht: (2026)
QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning
von: Chen, Jiun-Man, et al.
Veröffentlicht: (2024)
von: Chen, Jiun-Man, et al.
Veröffentlicht: (2024)
AC^2-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation
von: Yu, Wenda, et al.
Veröffentlicht: (2026)
von: Yu, Wenda, et al.
Veröffentlicht: (2026)
Dark Side of Modalities: Reinforced Multimodal Distillation for Multimodal Knowledge Graph Reasoning
von: Zhao, Yu, et al.
Veröffentlicht: (2025)
von: Zhao, Yu, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
MMED: A Multimodal Micro-Expression Dataset based on Audio-Visual Fusion
von: Wang, Junbo, et al.
Veröffentlicht: (2025) -
When Top-ranked Recommendations Fail: Modeling Multi-Granular Negative Feedback for Explainable and Robust Video Recommendation
von: Chen, Siran, et al.
Veröffentlicht: (2025) -
VRAgent-R1: Boosting Video Recommendation with MLLM-based Agents via Reinforcement Learning
von: Chen, Siran, et al.
Veröffentlicht: (2025) -
SpeechEE: A Novel Benchmark for Speech Event Extraction
von: Wang, Bin, et al.
Veröffentlicht: (2024) -
Controllable Text-to-Speech Synthesis with Masked-Autoencoded Style-Rich Representation
von: Wang, Yongqi, et al.
Veröffentlicht: (2025)