Enregistré dans:
| Auteurs principaux: | Zhu, Xinfa, He, Lei, Xiao, Yujia, Wang, Xi, Tan, Xu, Zhao, Sheng, Xie, Lei |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2501.04416 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
CoDiff-VC: A Codec-Assisted Diffusion Model for Zero-shot Voice Conversion
par: Li, Yuke, et autres
Publié: (2024)
par: Li, Yuke, et autres
Publié: (2024)
Vec-Tok-VC+: Residual-enhanced Robust Zero-shot Voice Conversion with Progressive Constraints in a Dual-mode Training Strategy
par: Ma, Linhan, et autres
Publié: (2024)
par: Ma, Linhan, et autres
Publié: (2024)
StreamVoice+: Evolving into End-to-end Streaming Zero-shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2024)
par: Wang, Zhichao, et autres
Publié: (2024)
CosyAudio: Improving Audio Generation with Confidence Scores and Synthetic Captions
par: Zhu, Xinfa, et autres
Publié: (2025)
par: Zhu, Xinfa, et autres
Publié: (2025)
Multi-level Temporal-channel Speaker Retrieval for Zero-shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2023)
par: Wang, Zhichao, et autres
Publié: (2023)
StableVC: Style Controllable Zero-Shot Voice Conversion with Conditional Flow Matching
par: Yao, Jixun, et autres
Publié: (2024)
par: Yao, Jixun, et autres
Publié: (2024)
Zero-shot Voice Conversion with Diffusion Transformers
par: Liu, Songting
Publié: (2024)
par: Liu, Songting
Publié: (2024)
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2024)
par: Wang, Zhichao, et autres
Publié: (2024)
MPO: Multidimensional Preference Optimization for Language Model-based Text-to-Speech
par: Xia, Kangxiang, et autres
Publié: (2025)
par: Xia, Kangxiang, et autres
Publié: (2025)
Boosting Multi-Speaker Expressive Speech Synthesis with Semi-supervised Contrastive Learning
par: Zhu, Xinfa, et autres
Publié: (2023)
par: Zhu, Xinfa, et autres
Publié: (2023)
MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion via Mean Flows
par: Ma, Guobin, et autres
Publié: (2025)
par: Ma, Guobin, et autres
Publié: (2025)
LatentVoiceGrad: Nonparallel Voice Conversion with Latent Diffusion/Flow-Matching Models
par: Kameoka, Hirokazu, et autres
Publié: (2025)
par: Kameoka, Hirokazu, et autres
Publié: (2025)
FreeSVC: Towards Zero-shot Multilingual Singing Voice Conversion
par: Ferreira, Alef Iury Siqueira, et autres
Publié: (2025)
par: Ferreira, Alef Iury Siqueira, et autres
Publié: (2025)
OneVoice: One Model, Triple Scenarios-Towards Unified Zero-shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2026)
par: Wang, Zhichao, et autres
Publié: (2026)
Accent-VITS:accent transfer for end-to-end TTS
par: Ma, Linhan, et autres
Publié: (2023)
par: Ma, Linhan, et autres
Publié: (2023)
Llasa+: Free Lunch for Accelerated and Streaming Llama-Based Speech Synthesis
par: Tian, Wenjie, et autres
Publié: (2025)
par: Tian, Wenjie, et autres
Publié: (2025)
SynthVC: Leveraging Synthetic Data for End-to-End Low Latency Streaming Voice Conversion
par: Guo, Zhao, et autres
Publié: (2025)
par: Guo, Zhao, et autres
Publié: (2025)
U-SAM: An audio language Model for Unified Speech, Audio, and Music Understanding
par: Wang, Ziqian, et autres
Publié: (2025)
par: Wang, Ziqian, et autres
Publié: (2025)
SponTTS: modeling and transferring spontaneous style for TTS
par: Li, Hanzhao, et autres
Publié: (2023)
par: Li, Hanzhao, et autres
Publié: (2023)
LDM-SVC: Latent Diffusion Model Based Zero-Shot Any-to-Any Singing Voice Conversion with Singer Guidance
par: Chen, Shihao, et autres
Publié: (2024)
par: Chen, Shihao, et autres
Publié: (2024)
MEDIC: Zero-shot Music Editing with Disentangled Inversion Control
par: Liu, Huadai, et autres
Publié: (2024)
par: Liu, Huadai, et autres
Publié: (2024)
ReFlow-VC: Zero-shot Voice Conversion Based on Rectified Flow and Speaker Feature Optimization
par: Ren, Pengyu, et autres
Publié: (2025)
par: Ren, Pengyu, et autres
Publié: (2025)
Zero-shot Cross-lingual Voice Transfer for TTS
par: Biadsy, Fadi, et autres
Publié: (2024)
par: Biadsy, Fadi, et autres
Publié: (2024)
Learning Expressive Disentangled Speech Representations with Soft Speech Units and Adversarial Style Augmentation
par: Deng, Yimin, et autres
Publié: (2024)
par: Deng, Yimin, et autres
Publié: (2024)
EZ-VC: Easy Zero-shot Any-to-Any Voice Conversion
par: Joglekar, Advait, et autres
Publié: (2025)
par: Joglekar, Advait, et autres
Publié: (2025)
Disentangling the Prosody and Semantic Information with Pre-trained Model for In-Context Learning based Zero-Shot Voice Conversion
par: Chen, Zhengyang, et autres
Publié: (2024)
par: Chen, Zhengyang, et autres
Publié: (2024)
Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling
par: Yang, Yuguang, et autres
Publié: (2024)
par: Yang, Yuguang, et autres
Publié: (2024)
DualVC 2: Dynamic Masked Convolution for Unified Streaming and Non-Streaming Voice Conversion
par: Ning, Ziqian, et autres
Publié: (2023)
par: Ning, Ziqian, et autres
Publié: (2023)
Diffusion-Based Adversarial Purification for Speaker Verification
par: Bai, Yibo, et autres
Publié: (2023)
par: Bai, Yibo, et autres
Publié: (2023)
Erasing Your Voice Before It's Heard: Training-free Speaker Unlearning for Zero-shot Text-to-Speech
par: Lee, Myungjin, et autres
Publié: (2026)
par: Lee, Myungjin, et autres
Publié: (2026)
Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion
par: Akti, Seymanur, et autres
Publié: (2025)
par: Akti, Seymanur, et autres
Publié: (2025)
Zero-Shot Voice Conversion via Content-Aware Timbre Ensemble and Conditional Flow Matching
par: Pan, Yu, et autres
Publié: (2024)
par: Pan, Yu, et autres
Publié: (2024)
DS-TTS: Zero-Shot Speaker Style Adaptation from Voice Clips via Dynamic Dual-Style Feature Modulation
par: Meng, Ming, et autres
Publié: (2025)
par: Meng, Ming, et autres
Publié: (2025)
LCM-SVC: Latent Diffusion Model Based Singing Voice Conversion with Inference Acceleration via Latent Consistency Distillation
par: Chen, Shihao, et autres
Publié: (2024)
par: Chen, Shihao, et autres
Publié: (2024)
TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
par: Zhang, Yu, et autres
Publié: (2024)
par: Zhang, Yu, et autres
Publié: (2024)
QR-VC: Leveraging Quantization Residuals for Linear Disentanglement in Zero-Shot Voice Conversion
par: Sim, Youngjun, et autres
Publié: (2024)
par: Sim, Youngjun, et autres
Publié: (2024)
Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment
par: Igarashi, Takuto, et autres
Publié: (2024)
par: Igarashi, Takuto, et autres
Publié: (2024)
Fine-grained Preference Optimization Improves Zero-shot Text-to-Speech
par: Yao, Jixun, et autres
Publié: (2025)
par: Yao, Jixun, et autres
Publié: (2025)
Multi-modal Adversarial Training for Zero-Shot Voice Cloning
par: Janiczek, John, et autres
Publié: (2024)
par: Janiczek, John, et autres
Publié: (2024)
Adversarial Multi-Task Learning for Disentangling Timbre and Pitch in Singing Voice Synthesis
par: Kim, Tae-Woo, et autres
Publié: (2022)
par: Kim, Tae-Woo, et autres
Publié: (2022)
Documents similaires
-
CoDiff-VC: A Codec-Assisted Diffusion Model for Zero-shot Voice Conversion
par: Li, Yuke, et autres
Publié: (2024) -
Vec-Tok-VC+: Residual-enhanced Robust Zero-shot Voice Conversion with Progressive Constraints in a Dual-mode Training Strategy
par: Ma, Linhan, et autres
Publié: (2024) -
StreamVoice+: Evolving into End-to-end Streaming Zero-shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2024) -
CosyAudio: Improving Audio Generation with Confidence Scores and Synthetic Captions
par: Zhu, Xinfa, et autres
Publié: (2025) -
Multi-level Temporal-channel Speaker Retrieval for Zero-shot Voice Conversion
par: Wang, Zhichao, et autres
Publié: (2023)