Enregistré dans:
| Auteurs principaux: | Meyer, Franck, Hur, Kyunghoon, Choi, Edward |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2506.08357 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction
par: Liu, Peng, et autres
Publié: (2024)
par: Liu, Peng, et autres
Publié: (2024)
Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers
par: Cai, Runyuan, et autres
Publié: (2026)
par: Cai, Runyuan, et autres
Publié: (2026)
Multichannel-to-Multichannel Target Sound Extraction Using Direction and Timestamp Clues
par: Choi, Dayun, et autres
Publié: (2024)
par: Choi, Dayun, et autres
Publié: (2024)
SoundCompass: Navigating Target Sound Extraction With Effective Directional Clue Integration In Complex Acoustic Scenes
par: Choi, Dayun, et autres
Publié: (2025)
par: Choi, Dayun, et autres
Publié: (2025)
ViSAGe: Video-to-Spatial Audio Generation
par: Kim, Jaeyeon, et autres
Publié: (2025)
par: Kim, Jaeyeon, et autres
Publié: (2025)
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
par: Lee, Sang-Hoon, et autres
Publié: (2024)
par: Lee, Sang-Hoon, et autres
Publié: (2024)
CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning
par: Luong, Justin, et autres
Publié: (2025)
par: Luong, Justin, et autres
Publié: (2025)
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency
par: Huang, Jiawei, et autres
Publié: (2024)
par: Huang, Jiawei, et autres
Publié: (2024)
VibE-SVC: Vibrato Extraction with High-frequency F0 Contour for Singing Voice Conversion
par: Choi, Joon-Seung, et autres
Publié: (2025)
par: Choi, Joon-Seung, et autres
Publié: (2025)
Advancing NAM-to-Speech Conversion with Novel Methods and the MultiNAM Dataset
par: Shah, Neil, et autres
Publié: (2024)
par: Shah, Neil, et autres
Publié: (2024)
Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study
par: Ahmed, Alabi, et autres
Publié: (2026)
par: Ahmed, Alabi, et autres
Publié: (2026)
ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations
par: Wang, Kexue, et autres
Publié: (2026)
par: Wang, Kexue, et autres
Publié: (2026)
A Framework for Synthetic Audio Conversations Generation using Large Language Models
par: Kyaw, Kaung Myat, et autres
Publié: (2024)
par: Kyaw, Kaung Myat, et autres
Publié: (2024)
EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice Conversion
par: Gudmalwar, Ashishkumar, et autres
Publié: (2024)
par: Gudmalwar, Ashishkumar, et autres
Publié: (2024)
MultiVerse: Efficient and Expressive Zero-Shot Multi-Task Text-to-Speech
par: Bak, Taejun, et autres
Publié: (2024)
par: Bak, Taejun, et autres
Publié: (2024)
VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching
par: Choi, Ha-Yeong, et autres
Publié: (2025)
par: Choi, Ha-Yeong, et autres
Publié: (2025)
Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Feature Fusion
par: Bahmei, Behnaz, et autres
Publié: (2025)
par: Bahmei, Behnaz, et autres
Publié: (2025)
Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
par: Nguyen, Tan Dat, et autres
Publié: (2024)
par: Nguyen, Tan Dat, et autres
Publié: (2024)
LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling
par: Huang, Yubo, et autres
Publié: (2024)
par: Huang, Yubo, et autres
Publié: (2024)
DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models
par: wu, Weihao, et autres
Publié: (2025)
par: wu, Weihao, et autres
Publié: (2025)
UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
par: Shi, Qundong, et autres
Publié: (2026)
par: Shi, Qundong, et autres
Publié: (2026)
Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization
par: Lee, Sang-Hoon, et autres
Publié: (2024)
par: Lee, Sang-Hoon, et autres
Publié: (2024)
Towards Unified Music Emotion Recognition across Dimensional and Categorical Models
par: Kang, Jaeyong, et autres
Publié: (2025)
par: Kang, Jaeyong, et autres
Publié: (2025)
A Unified Speech LLM for Diarization and Speech Recognition in Multilingual Conversations
par: Saengthong, Phurich, et autres
Publié: (2025)
par: Saengthong, Phurich, et autres
Publié: (2025)
UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching
par: Choi, Woongjib, et autres
Publié: (2025)
par: Choi, Woongjib, et autres
Publié: (2025)
EmoAttack: Utilizing Emotional Voice Conversion for Speech Backdoor Attacks on Deep Speech Classification Models
par: Yao, Wenhan, et autres
Publié: (2024)
par: Yao, Wenhan, et autres
Publié: (2024)
Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models
par: Ognjen, et autres
Publié: (2024)
par: Ognjen, et autres
Publié: (2024)
Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation
par: Sheng, Zhengyan, et autres
Publié: (2025)
par: Sheng, Zhengyan, et autres
Publié: (2025)
Parameter Selection for Analyzing Conversations with Autism Spectrum Disorder
par: Chowdhury, Tahiya, et autres
Publié: (2024)
par: Chowdhury, Tahiya, et autres
Publié: (2024)
AImoclips: A Benchmark for Evaluating Emotion Conveyance in Text-to-Music Generation
par: Go, Gyehun, et autres
Publié: (2025)
par: Go, Gyehun, et autres
Publié: (2025)
Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling
par: Yang, Yuguang, et autres
Publié: (2024)
par: Yang, Yuguang, et autres
Publié: (2024)
DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech
par: Qi, Xin, et autres
Publié: (2024)
par: Qi, Xin, et autres
Publié: (2024)
DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis
par: Li, Yingahao Aaron, et autres
Publié: (2024)
par: Li, Yingahao Aaron, et autres
Publié: (2024)
Disentangled Dual-Branch Graph Learning for Conversational Emotion Recognition
par: Guo, Chengling, et autres
Publié: (2026)
par: Guo, Chengling, et autres
Publié: (2026)
Assessment of Personality Dimensions Across Situations Using Conversational Speech
par: Zhang, Alice, et autres
Publié: (2025)
par: Zhang, Alice, et autres
Publié: (2025)
Convert and Speak: Zero-shot Accent Conversion with Minimum Supervision
par: Jia, Zhijun, et autres
Publié: (2024)
par: Jia, Zhijun, et autres
Publié: (2024)
Counterfactual Activation Editing for Post-hoc Prosody and Mispronunciation Correction in TTS Models
par: Lee, Kyowoon, et autres
Publié: (2025)
par: Lee, Kyowoon, et autres
Publié: (2025)
SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion
par: Bai, Bingsong, et autres
Publié: (2024)
par: Bai, Bingsong, et autres
Publié: (2024)
EZ-VC: Easy Zero-shot Any-to-Any Voice Conversion
par: Joglekar, Advait, et autres
Publié: (2025)
par: Joglekar, Advait, et autres
Publié: (2025)
SelfVC: Voice Conversion With Iterative Refinement using Self Transformations
par: Neekhara, Paarth, et autres
Publié: (2023)
par: Neekhara, Paarth, et autres
Publié: (2023)
Documents similaires
-
RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction
par: Liu, Peng, et autres
Publié: (2024) -
Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers
par: Cai, Runyuan, et autres
Publié: (2026) -
Multichannel-to-Multichannel Target Sound Extraction Using Direction and Timestamp Clues
par: Choi, Dayun, et autres
Publié: (2024) -
SoundCompass: Navigating Target Sound Extraction With Effective Directional Clue Integration In Complex Acoustic Scenes
par: Choi, Dayun, et autres
Publié: (2025) -
ViSAGe: Video-to-Spatial Audio Generation
par: Kim, Jaeyeon, et autres
Publié: (2025)