:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Li, Tianqi, Zheng, Ruobing, Yang, Minghui, Chen, Jingdong, Yang, Ming
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Computer Vision and Pattern Recognition Machine Learning Sound Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2411.19509
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
di: Peng, Ziqiao, et al.
Pubblicazione: (2025)

FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models
di: Aneja, Shivangi, et al.
Pubblicazione: (2023)

Dual Audio-Centric Modality Coupling for Talking Head Generation
di: Fu, Ao, et al.
Pubblicazione: (2025)

READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation
di: Wang, Haotian, et al.
Pubblicazione: (2025)

Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis
di: Shen, Shuai, et al.
Pubblicazione: (2025)

A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony in Talking Head Generation
di: Airale, Louis, et al.
Pubblicazione: (2023)

Separate to Collaborate: Dual-Stream Diffusion Model for Coordinated Piano Hand Motion Synthesis
di: Liu, Zihao, et al.
Pubblicazione: (2025)

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation
di: Gan, Yuan, et al.
Pubblicazione: (2025)

EmoTalker: Emotionally Editable Talking Face Generation via Diffusion Model
di: Zhang, Bingyuan, et al.
Pubblicazione: (2024)

Controllable Dance Generation with Style-Guided Motion Diffusion
di: Wang, Hongsong, et al.
Pubblicazione: (2024)

Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models
di: Choi, Jeongsoo, et al.
Pubblicazione: (2023)

NeRF-3DTalker: Neural Radiance Field with 3D Prior Aided Audio Disentanglement for Talking Head Synthesis
di: Liu, Xiaoxing, et al.
Pubblicazione: (2025)

JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching
di: Kwon, Mingi, et al.
Pubblicazione: (2025)

The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023
di: Huang, Yurui, et al.
Pubblicazione: (2024)

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer
di: Fang, Pengjun, et al.
Pubblicazione: (2026)

CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling
di: Yang, Ruihan, et al.
Pubblicazione: (2023)

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation
di: Shan, Sizhe, et al.
Pubblicazione: (2025)

UniMuMo: Unified Text, Music and Motion Generation
di: Yang, Han, et al.
Pubblicazione: (2024)

RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text
di: Chen, Jiaben, et al.
Pubblicazione: (2024)

TCDiff++: An End-to-end Trajectory-Controllable Diffusion Model for Harmonious Music-Driven Group Choreography
di: Dai, Yuqin, et al.
Pubblicazione: (2025)

Face2VoiceSync: Lightweight Face-Voice Consistency for Text-Driven Talking Face Generation
di: Kang, Fang, et al.
Pubblicazione: (2025)

Novel-View Acoustic Synthesis from 3D Reconstructed Rooms
di: Ahn, Byeongjoo, et al.
Pubblicazione: (2023)

DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap
di: Mo, Shentong, et al.
Pubblicazione: (2025)

CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation
di: Liu, Xi, et al.
Pubblicazione: (2024)

Exploring Multi-Modal Control in Music-Driven Dance Generation
di: Li, Ronghui, et al.
Pubblicazione: (2024)

Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance
di: Hayakawa, Akio, et al.
Pubblicazione: (2025)

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
di: Cheng, Ho Kei, et al.
Pubblicazione: (2024)

Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization
di: Cheng, Luyao, et al.
Pubblicazione: (2024)

NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing
di: Liang, Yifan, et al.
Pubblicazione: (2025)

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
di: Haji-Ali, Moayed, et al.
Pubblicazione: (2024)

MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation
di: Huang, Mingyang, et al.
Pubblicazione: (2025)

Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion
di: Ma, Jian, et al.
Pubblicazione: (2024)

RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer
di: Du, Fangyu, et al.
Pubblicazione: (2025)

Tri-Ergon: Fine-grained Video-to-Audio Generation with Multi-modal Conditions and LUFS Control
di: Li, Bingliang, et al.
Pubblicazione: (2024)

Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation
di: Li, Kexin, et al.
Pubblicazione: (2024)

Spiking Structured State Space Model for Monaural Speech Enhancement
di: Du, Yu, et al.
Pubblicazione: (2023)

Bidirectional Autoregressive Diffusion Model for Dance Generation
di: Zhang, Canyu, et al.
Pubblicazione: (2024)

Few-shot Acoustic Synthesis with Multimodal Flow Matching
di: Brunetto, Amandine
Pubblicazione: (2026)

Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics
di: Liu, Chen, et al.
Pubblicazione: (2025)

CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction
di: Chen, Xueyuan, et al.
Pubblicazione: (2024)