Salvato in:
| Autori principali: | Li, Tianqi, Zheng, Ruobing, Yang, Minghui, Chen, Jingdong, Yang, Ming |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2411.19509 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
di: Peng, Ziqiao, et al.
Pubblicazione: (2025)
di: Peng, Ziqiao, et al.
Pubblicazione: (2025)
FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models
di: Aneja, Shivangi, et al.
Pubblicazione: (2023)
di: Aneja, Shivangi, et al.
Pubblicazione: (2023)
Dual Audio-Centric Modality Coupling for Talking Head Generation
di: Fu, Ao, et al.
Pubblicazione: (2025)
di: Fu, Ao, et al.
Pubblicazione: (2025)
READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation
di: Wang, Haotian, et al.
Pubblicazione: (2025)
di: Wang, Haotian, et al.
Pubblicazione: (2025)
Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis
di: Shen, Shuai, et al.
Pubblicazione: (2025)
di: Shen, Shuai, et al.
Pubblicazione: (2025)
A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony in Talking Head Generation
di: Airale, Louis, et al.
Pubblicazione: (2023)
di: Airale, Louis, et al.
Pubblicazione: (2023)
Separate to Collaborate: Dual-Stream Diffusion Model for Coordinated Piano Hand Motion Synthesis
di: Liu, Zihao, et al.
Pubblicazione: (2025)
di: Liu, Zihao, et al.
Pubblicazione: (2025)
Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation
di: Gan, Yuan, et al.
Pubblicazione: (2025)
di: Gan, Yuan, et al.
Pubblicazione: (2025)
EmoTalker: Emotionally Editable Talking Face Generation via Diffusion Model
di: Zhang, Bingyuan, et al.
Pubblicazione: (2024)
di: Zhang, Bingyuan, et al.
Pubblicazione: (2024)
Controllable Dance Generation with Style-Guided Motion Diffusion
di: Wang, Hongsong, et al.
Pubblicazione: (2024)
di: Wang, Hongsong, et al.
Pubblicazione: (2024)
Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models
di: Choi, Jeongsoo, et al.
Pubblicazione: (2023)
di: Choi, Jeongsoo, et al.
Pubblicazione: (2023)
NeRF-3DTalker: Neural Radiance Field with 3D Prior Aided Audio Disentanglement for Talking Head Synthesis
di: Liu, Xiaoxing, et al.
Pubblicazione: (2025)
di: Liu, Xiaoxing, et al.
Pubblicazione: (2025)
JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching
di: Kwon, Mingi, et al.
Pubblicazione: (2025)
di: Kwon, Mingi, et al.
Pubblicazione: (2025)
The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023
di: Huang, Yurui, et al.
Pubblicazione: (2024)
di: Huang, Yurui, et al.
Pubblicazione: (2024)
AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer
di: Fang, Pengjun, et al.
Pubblicazione: (2026)
di: Fang, Pengjun, et al.
Pubblicazione: (2026)
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling
di: Yang, Ruihan, et al.
Pubblicazione: (2023)
di: Yang, Ruihan, et al.
Pubblicazione: (2023)
HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation
di: Shan, Sizhe, et al.
Pubblicazione: (2025)
di: Shan, Sizhe, et al.
Pubblicazione: (2025)
UniMuMo: Unified Text, Music and Motion Generation
di: Yang, Han, et al.
Pubblicazione: (2024)
di: Yang, Han, et al.
Pubblicazione: (2024)
RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text
di: Chen, Jiaben, et al.
Pubblicazione: (2024)
di: Chen, Jiaben, et al.
Pubblicazione: (2024)
TCDiff++: An End-to-end Trajectory-Controllable Diffusion Model for Harmonious Music-Driven Group Choreography
di: Dai, Yuqin, et al.
Pubblicazione: (2025)
di: Dai, Yuqin, et al.
Pubblicazione: (2025)
Face2VoiceSync: Lightweight Face-Voice Consistency for Text-Driven Talking Face Generation
di: Kang, Fang, et al.
Pubblicazione: (2025)
di: Kang, Fang, et al.
Pubblicazione: (2025)
Novel-View Acoustic Synthesis from 3D Reconstructed Rooms
di: Ahn, Byeongjoo, et al.
Pubblicazione: (2023)
di: Ahn, Byeongjoo, et al.
Pubblicazione: (2023)
DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap
di: Mo, Shentong, et al.
Pubblicazione: (2025)
di: Mo, Shentong, et al.
Pubblicazione: (2025)
CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation
di: Liu, Xi, et al.
Pubblicazione: (2024)
di: Liu, Xi, et al.
Pubblicazione: (2024)
Exploring Multi-Modal Control in Music-Driven Dance Generation
di: Li, Ronghui, et al.
Pubblicazione: (2024)
di: Li, Ronghui, et al.
Pubblicazione: (2024)
Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance
di: Hayakawa, Akio, et al.
Pubblicazione: (2025)
di: Hayakawa, Akio, et al.
Pubblicazione: (2025)
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
di: Cheng, Ho Kei, et al.
Pubblicazione: (2024)
di: Cheng, Ho Kei, et al.
Pubblicazione: (2024)
Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization
di: Cheng, Luyao, et al.
Pubblicazione: (2024)
di: Cheng, Luyao, et al.
Pubblicazione: (2024)
NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing
di: Liang, Yifan, et al.
Pubblicazione: (2025)
di: Liang, Yifan, et al.
Pubblicazione: (2025)
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
di: Haji-Ali, Moayed, et al.
Pubblicazione: (2024)
di: Haji-Ali, Moayed, et al.
Pubblicazione: (2024)
MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation
di: Huang, Mingyang, et al.
Pubblicazione: (2025)
di: Huang, Mingyang, et al.
Pubblicazione: (2025)
Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion
di: Ma, Jian, et al.
Pubblicazione: (2024)
di: Ma, Jian, et al.
Pubblicazione: (2024)
RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer
di: Du, Fangyu, et al.
Pubblicazione: (2025)
di: Du, Fangyu, et al.
Pubblicazione: (2025)
Tri-Ergon: Fine-grained Video-to-Audio Generation with Multi-modal Conditions and LUFS Control
di: Li, Bingliang, et al.
Pubblicazione: (2024)
di: Li, Bingliang, et al.
Pubblicazione: (2024)
Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation
di: Li, Kexin, et al.
Pubblicazione: (2024)
di: Li, Kexin, et al.
Pubblicazione: (2024)
Spiking Structured State Space Model for Monaural Speech Enhancement
di: Du, Yu, et al.
Pubblicazione: (2023)
di: Du, Yu, et al.
Pubblicazione: (2023)
Bidirectional Autoregressive Diffusion Model for Dance Generation
di: Zhang, Canyu, et al.
Pubblicazione: (2024)
di: Zhang, Canyu, et al.
Pubblicazione: (2024)
Few-shot Acoustic Synthesis with Multimodal Flow Matching
di: Brunetto, Amandine
Pubblicazione: (2026)
di: Brunetto, Amandine
Pubblicazione: (2026)
Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics
di: Liu, Chen, et al.
Pubblicazione: (2025)
di: Liu, Chen, et al.
Pubblicazione: (2025)
CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction
di: Chen, Xueyuan, et al.
Pubblicazione: (2024)
di: Chen, Xueyuan, et al.
Pubblicazione: (2024)
Documenti analoghi
-
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
di: Peng, Ziqiao, et al.
Pubblicazione: (2025) -
FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models
di: Aneja, Shivangi, et al.
Pubblicazione: (2023) -
Dual Audio-Centric Modality Coupling for Talking Head Generation
di: Fu, Ao, et al.
Pubblicazione: (2025) -
READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation
di: Wang, Haotian, et al.
Pubblicazione: (2025) -
Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis
di: Shen, Shuai, et al.
Pubblicazione: (2025)