:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Meyer, Franck, Hur, Kyunghoon, Choi, Edward
Format:	Preprint
Publié:	2025
Sujets:	Sound Artificial Intelligence Audio and Speech Processing
Accès en ligne:	https://arxiv.org/abs/2506.08357
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction
par: Liu, Peng, et autres
Publié: (2024)

Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers
par: Cai, Runyuan, et autres
Publié: (2026)

Multichannel-to-Multichannel Target Sound Extraction Using Direction and Timestamp Clues
par: Choi, Dayun, et autres
Publié: (2024)

SoundCompass: Navigating Target Sound Extraction With Effective Directional Clue Integration In Complex Acoustic Scenes
par: Choi, Dayun, et autres
Publié: (2025)

ViSAGe: Video-to-Spatial Audio Generation
par: Kim, Jaeyeon, et autres
Publié: (2025)

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
par: Lee, Sang-Hoon, et autres
Publié: (2024)

CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning
par: Luong, Justin, et autres
Publié: (2025)

MulliVC: Multi-lingual Voice Conversion With Cycle Consistency
par: Huang, Jiawei, et autres
Publié: (2024)

VibE-SVC: Vibrato Extraction with High-frequency F0 Contour for Singing Voice Conversion
par: Choi, Joon-Seung, et autres
Publié: (2025)

Advancing NAM-to-Speech Conversion with Novel Methods and the MultiNAM Dataset
par: Shah, Neil, et autres
Publié: (2024)

Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study
par: Ahmed, Alabi, et autres
Publié: (2026)

ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations
par: Wang, Kexue, et autres
Publié: (2026)

A Framework for Synthetic Audio Conversations Generation using Large Language Models
par: Kyaw, Kaung Myat, et autres
Publié: (2024)

EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice Conversion
par: Gudmalwar, Ashishkumar, et autres
Publié: (2024)

MultiVerse: Efficient and Expressive Zero-Shot Multi-Task Text-to-Speech
par: Bak, Taejun, et autres
Publié: (2024)

VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching
par: Choi, Ha-Yeong, et autres
Publié: (2025)

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Feature Fusion
par: Bahmei, Behnaz, et autres
Publié: (2025)

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
par: Nguyen, Tan Dat, et autres
Publié: (2024)

LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling
par: Huang, Yubo, et autres
Publié: (2024)

DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models
par: wu, Weihao, et autres
Publié: (2025)

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
par: Shi, Qundong, et autres
Publié: (2026)

Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization
par: Lee, Sang-Hoon, et autres
Publié: (2024)

Towards Unified Music Emotion Recognition across Dimensional and Categorical Models
par: Kang, Jaeyong, et autres
Publié: (2025)

A Unified Speech LLM for Diarization and Speech Recognition in Multilingual Conversations
par: Saengthong, Phurich, et autres
Publié: (2025)

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching
par: Choi, Woongjib, et autres
Publié: (2025)

EmoAttack: Utilizing Emotional Voice Conversion for Speech Backdoor Attacks on Deep Speech Classification Models
par: Yao, Wenhan, et autres
Publié: (2024)

Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models
par: Ognjen, et autres
Publié: (2024)

Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation
par: Sheng, Zhengyan, et autres
Publié: (2025)

Parameter Selection for Analyzing Conversations with Autism Spectrum Disorder
par: Chowdhury, Tahiya, et autres
Publié: (2024)

AImoclips: A Benchmark for Evaluating Emotion Conveyance in Text-to-Music Generation
par: Go, Gyehun, et autres
Publié: (2025)

Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling
par: Yang, Yuguang, et autres
Publié: (2024)

DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech
par: Qi, Xin, et autres
Publié: (2024)

DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis
par: Li, Yingahao Aaron, et autres
Publié: (2024)

Disentangled Dual-Branch Graph Learning for Conversational Emotion Recognition
par: Guo, Chengling, et autres
Publié: (2026)

Assessment of Personality Dimensions Across Situations Using Conversational Speech
par: Zhang, Alice, et autres
Publié: (2025)

Convert and Speak: Zero-shot Accent Conversion with Minimum Supervision
par: Jia, Zhijun, et autres
Publié: (2024)

Counterfactual Activation Editing for Post-hoc Prosody and Mispronunciation Correction in TTS Models
par: Lee, Kyowoon, et autres
Publié: (2025)

SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion
par: Bai, Bingsong, et autres
Publié: (2024)

EZ-VC: Easy Zero-shot Any-to-Any Voice Conversion
par: Joglekar, Advait, et autres
Publié: (2025)

SelfVC: Voice Conversion With Iterative Refinement using Self Transformations
par: Neekhara, Paarth, et autres
Publié: (2023)