:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Wang, Qili, Wu, Dajiang, Xu, Zihang, Huang, Junshi, Lv, Jun
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2501.01798
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Audio-Driven Talking Face Video Generation with Joint Uncertainty Learning
by: Xie, Yifan, et al.
Published: (2025)

AudioScenic: Audio-Driven Video Scene Editing
by: Shen, Kaixin, et al.
Published: (2024)

PC-Talk: Precise Facial Animation Control for Audio-Driven Talking Face Generation
by: Wang, Baiqin, et al.
Published: (2025)

Audio-driven High-resolution Seamless Talking Head Video Editing via StyleGAN
by: Su, Jiacheng, et al.
Published: (2024)

AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D Talking Face Generation
by: Sun, Yasheng, et al.
Published: (2024)

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
by: Xu, Sicheng, et al.
Published: (2024)

SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space
by: Zhang, Zeren, et al.
Published: (2024)

MAGIC-Talk: Motion-aware Audio-Driven Talking Face Generation with Customizable Identity Control
by: Nazarieh, Fatemeh, et al.
Published: (2025)

Lightweight High-Fidelity Low-Bitrate Talking Face Compression for 3D Video Conference
by: Li, Jianglong, et al.
Published: (2026)

EmoFace: Emotion-Content Disentangled Speech-Driven 3D Talking Face Animation
by: Lin, Yihong, et al.
Published: (2024)

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio
by: Xu, Chao, et al.
Published: (2024)

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video
by: Choi, Chanhyuk, et al.
Published: (2026)

Audio-Driven Talking Face Generation with Blink Embedding and Hash Grid Landmarks Encoding
by: Zhang, Yuhui, et al.
Published: (2026)

Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation
by: Yaman, Dogucan, et al.
Published: (2024)

SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing
by: Xiong, Lingyu, et al.
Published: (2024)

GaussianHeadTalk: Wobble-Free 3D Talking Heads with Audio Driven Gaussian Splatting
by: Agarwal, Madhav, et al.
Published: (2025)

GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting
by: Chen, Bo, et al.
Published: (2024)

SyncBreaker:Stage-Aware Multimodal Adversarial Attacks on Audio-Driven Talking Head Generation
by: Zhang, Wenli, et al.
Published: (2026)

JoyStreamer-Flash: Real-time and Infinite Audio-Driven Avatar Generation with Autoregressive Diffusion
by: Li, Chaochao, et al.
Published: (2025)

Controllable Talking Face Generation by Implicit Facial Keypoints Editing
by: Zhao, Dong, et al.
Published: (2024)

Learn2Talk: 3D Talking Face Learns from 2D Talking Face
by: Zhuang, Yixiang, et al.
Published: (2024)

Efficient and Robust Video Defense Framework against 3D-field Personalized Talking Face
by: Sun, Rui-qing, et al.
Published: (2025)

Audio-driven Talking Face Generation with Stabilized Synchronization Loss
by: Yaman, Dogucan, et al.
Published: (2023)

Text-Driven Emotionally Continuous Talking Face Generation
by: Yang, Hao, et al.
Published: (2026)

Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation
by: Kong, Zhe, et al.
Published: (2025)

GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits
by: Xia, Yibo, et al.
Published: (2023)

Context-aware Talking Face Video Generation
by: Xuanyuan, Meidai, et al.
Published: (2024)

JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation
by: Cao, Xuyang, et al.
Published: (2024)

EditEmoTalk: Controllable Speech-Driven 3D Facial Animation with Continuous Expression Editing
by: Jiang, Diqiong, et al.
Published: (2026)

TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
by: Chen, Shunian, et al.
Published: (2025)

ISExplore:Informative Segment Selection for Efficient Personalized 3D Talking Face Generation
by: Sun, Rui-Qing, et al.
Published: (2025)

EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model
by: Li, Renda, et al.
Published: (2025)

Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos
by: Takahashi, Riku, et al.
Published: (2025)

PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation
by: Nazarieh, Fatemeh, et al.
Published: (2024)

EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion
by: Wang, Haotian, et al.
Published: (2024)

Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation
by: Xu, Zhihua, et al.
Published: (2025)

In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face Editing
by: Xu, Yiran, et al.
Published: (2023)

Talking Together: Synthesizing Co-Located 3D Conversations from Audio
by: Shan, Mengyi, et al.
Published: (2026)

OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking
by: Wang, Zhongjian, et al.
Published: (2025)

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation
by: Hong, Fa-Ting, et al.
Published: (2025)