:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Zhu, Xinfa, He, Lei, Xiao, Yujia, Wang, Xi, Tan, Xu, Zhao, Sheng, Xie, Lei
Format:	Preprint
Publié:	2025
Sujets:	Audio and Speech Processing Sound
Accès en ligne:	https://arxiv.org/abs/2501.04416
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

CoDiff-VC: A Codec-Assisted Diffusion Model for Zero-shot Voice Conversion
par: Li, Yuke, et autres
Publié: (2024)

Vec-Tok-VC+: Residual-enhanced Robust Zero-shot Voice Conversion with Progressive Constraints in a Dual-mode Training Strategy
par: Ma, Linhan, et autres
Publié: (2024)

StreamVoice+: Evolving into End-to-end Streaming Zero-shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2024)

CosyAudio: Improving Audio Generation with Confidence Scores and Synthetic Captions
par: Zhu, Xinfa, et autres
Publié: (2025)

Multi-level Temporal-channel Speaker Retrieval for Zero-shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2023)

StableVC: Style Controllable Zero-Shot Voice Conversion with Conditional Flow Matching
par: Yao, Jixun, et autres
Publié: (2024)

Zero-shot Voice Conversion with Diffusion Transformers
par: Liu, Songting
Publié: (2024)

StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2024)

MPO: Multidimensional Preference Optimization for Language Model-based Text-to-Speech
par: Xia, Kangxiang, et autres
Publié: (2025)

Boosting Multi-Speaker Expressive Speech Synthesis with Semi-supervised Contrastive Learning
par: Zhu, Xinfa, et autres
Publié: (2023)

MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion via Mean Flows
par: Ma, Guobin, et autres
Publié: (2025)

LatentVoiceGrad: Nonparallel Voice Conversion with Latent Diffusion/Flow-Matching Models
par: Kameoka, Hirokazu, et autres
Publié: (2025)

FreeSVC: Towards Zero-shot Multilingual Singing Voice Conversion
par: Ferreira, Alef Iury Siqueira, et autres
Publié: (2025)

OneVoice: One Model, Triple Scenarios-Towards Unified Zero-shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2026)

Accent-VITS:accent transfer for end-to-end TTS
par: Ma, Linhan, et autres
Publié: (2023)

Llasa+: Free Lunch for Accelerated and Streaming Llama-Based Speech Synthesis
par: Tian, Wenjie, et autres
Publié: (2025)

SynthVC: Leveraging Synthetic Data for End-to-End Low Latency Streaming Voice Conversion
par: Guo, Zhao, et autres
Publié: (2025)

U-SAM: An audio language Model for Unified Speech, Audio, and Music Understanding
par: Wang, Ziqian, et autres
Publié: (2025)

SponTTS: modeling and transferring spontaneous style for TTS
par: Li, Hanzhao, et autres
Publié: (2023)

LDM-SVC: Latent Diffusion Model Based Zero-Shot Any-to-Any Singing Voice Conversion with Singer Guidance
par: Chen, Shihao, et autres
Publié: (2024)

MEDIC: Zero-shot Music Editing with Disentangled Inversion Control
par: Liu, Huadai, et autres
Publié: (2024)

ReFlow-VC: Zero-shot Voice Conversion Based on Rectified Flow and Speaker Feature Optimization
par: Ren, Pengyu, et autres
Publié: (2025)

Zero-shot Cross-lingual Voice Transfer for TTS
par: Biadsy, Fadi, et autres
Publié: (2024)

Learning Expressive Disentangled Speech Representations with Soft Speech Units and Adversarial Style Augmentation
par: Deng, Yimin, et autres
Publié: (2024)

EZ-VC: Easy Zero-shot Any-to-Any Voice Conversion
par: Joglekar, Advait, et autres
Publié: (2025)

Disentangling the Prosody and Semantic Information with Pre-trained Model for In-Context Learning based Zero-Shot Voice Conversion
par: Chen, Zhengyang, et autres
Publié: (2024)

Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling
par: Yang, Yuguang, et autres
Publié: (2024)

DualVC 2: Dynamic Masked Convolution for Unified Streaming and Non-Streaming Voice Conversion
par: Ning, Ziqian, et autres
Publié: (2023)

Diffusion-Based Adversarial Purification for Speaker Verification
par: Bai, Yibo, et autres
Publié: (2023)

Erasing Your Voice Before It's Heard: Training-free Speaker Unlearning for Zero-shot Text-to-Speech
par: Lee, Myungjin, et autres
Publié: (2026)

Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion
par: Akti, Seymanur, et autres
Publié: (2025)

Zero-Shot Voice Conversion via Content-Aware Timbre Ensemble and Conditional Flow Matching
par: Pan, Yu, et autres
Publié: (2024)

DS-TTS: Zero-Shot Speaker Style Adaptation from Voice Clips via Dynamic Dual-Style Feature Modulation
par: Meng, Ming, et autres
Publié: (2025)

LCM-SVC: Latent Diffusion Model Based Singing Voice Conversion with Inference Acceleration via Latent Consistency Distillation
par: Chen, Shihao, et autres
Publié: (2024)

TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
par: Zhang, Yu, et autres
Publié: (2024)

QR-VC: Leveraging Quantization Residuals for Linear Disentanglement in Zero-Shot Voice Conversion
par: Sim, Youngjun, et autres
Publié: (2024)

Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment
par: Igarashi, Takuto, et autres
Publié: (2024)

Fine-grained Preference Optimization Improves Zero-shot Text-to-Speech
par: Yao, Jixun, et autres
Publié: (2025)

Multi-modal Adversarial Training for Zero-Shot Voice Cloning
par: Janiczek, John, et autres
Publié: (2024)

Adversarial Multi-Task Learning for Disentangling Timbre and Pitch in Singing Voice Synthesis
par: Kim, Tae-Woo, et autres
Publié: (2022)