:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Yang, Liusha, Ge, Ziru, Zhang, Gui, Zhang, Junan, Wu, Zhizheng
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Sound
Online-Zugang:	https://arxiv.org/abs/2512.10382
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

AnyAccomp: Generalizable Accompaniment Generation via Quantized Melodic Bottleneck
von: Zhang, Junan, et al.
Veröffentlicht: (2025)

EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction
von: Jing, Chong, et al.
Veröffentlicht: (2026)

Target matching based generative model for speech enhancement
von: Wang, Taihui, et al.
Veröffentlicht: (2025)

Metis: A Foundation Speech Generation Model with Masked Generative Pre-training
von: Wang, Yuancheng, et al.
Veröffentlicht: (2025)

SingVERSE: A Diverse, Real-World Benchmark for Singing Voice Enhancement
von: Jiang, Shaohan, et al.
Veröffentlicht: (2025)

Multi-Metric Preference Alignment for Generative Speech Restoration
von: Zhang, Junan, et al.
Veröffentlicht: (2025)

The CCF AATC 2025 Speech Restoration Challenge: A Retrospective
von: Zhang, Junan, et al.
Veröffentlicht: (2025)

Leveraging Diverse Semantic-based Audio Pretrained Models for Singing Voice Conversion
von: Zhang, Xueyao, et al.
Veröffentlicht: (2023)

TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling
von: Wang, Yuancheng, et al.
Veröffentlicht: (2025)

SingNet: Towards a Large-Scale, Diverse, and In-the-Wild Singing Voice Dataset
von: Gu, Yicheng, et al.
Veröffentlicht: (2025)

Aliasing-Free Neural Audio Synthesis
von: Gu, Yicheng, et al.
Veröffentlicht: (2025)

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation
von: Zhang, Xueyao, et al.
Veröffentlicht: (2025)

AnyEnhance: A Unified Generative Model with Prompt-Guidance and Self-Critic for Voice Enhancement
von: Zhang, Junan, et al.
Veröffentlicht: (2025)

An Investigation of Time-Frequency Representation Discriminators for High-Fidelity Vocoder
von: Gu, Yicheng, et al.
Veröffentlicht: (2024)

Throat and acoustic paired speech dataset for deep learning-based speech enhancement
von: Kim, Yunsik, et al.
Veröffentlicht: (2025)

MeanFlowSE: one-step generative speech enhancement via conditional mean flow
von: Li, Duojia, et al.
Veröffentlicht: (2025)

Can Whisper perform speech-based in-context learning?
von: Wang, Siyin, et al.
Veröffentlicht: (2023)

Self-supervised speech representation and contextual text embedding for match-mismatch classification with EEG recording
von: Wang, Bo, et al.
Veröffentlicht: (2024)

GDiffuSE: Diffusion-based speech enhancement with noise model guidance
von: Yanir, Efrayim, et al.
Veröffentlicht: (2025)

Monaural speech enhancement on drone via Adapter based transfer learning
von: Chen, Xingyu, et al.
Veröffentlicht: (2024)

An Initial Investigation of Neural Replay Simulator for Over-the-Air Adversarial Perturbations to Automatic Speaker Verification
von: Li, Jiaqi, et al.
Veröffentlicht: (2023)

SPGM: Prioritizing Local Features for enhanced speech separation performance
von: Yip, Jia Qi, et al.
Veröffentlicht: (2023)

Towards noise-robust speech inversion through multi-task learning with speech enhancement
von: Tabatabaee, Saba, et al.
Veröffentlicht: (2026)

Overview of the Amphion Toolkit (v0.2)
von: Li, Jiaqi, et al.
Veröffentlicht: (2025)

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions
von: Chen, Dekun, et al.
Veröffentlicht: (2026)

Solid State Bus-Comp: A Large-Scale and Diverse Dataset for Dynamic Range Compressor Virtual Analog Modeling
von: Gu, Yicheng, et al.
Veröffentlicht: (2025)

An adaptive filter bank based neural network approach for time delay estimation and speech enhancement
von: Ma, Lu
Veröffentlicht: (2025)

Multi-Scale Accent Modeling and Disentangling for Multi-Speaker Multi-Accent Text-to-Speech Synthesis
von: Zhou, Xuehao, et al.
Veröffentlicht: (2024)

Unified speech and gesture synthesis using flow matching
von: Mehta, Shivam, et al.
Veröffentlicht: (2023)

Unsupervised speech enhancement with spectral kurtosis and double deep priors
von: Ohnaka, Hien, et al.
Veröffentlicht: (2024)

Inter-channel Conv-TasNet for multichannel speech enhancement
von: Lee, Dongheon, et al.
Veröffentlicht: (2021)

A lightweight dual-stage framework for personalized speech enhancement based on DeepFilterNet2
von: Serre, Thomas, et al.
Veröffentlicht: (2024)

An automatic mixing speech enhancement system for multi-track audio
von: Liu, Xiaojing, et al.
Veröffentlicht: (2024)

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark
von: Wang, Dingdong, et al.
Veröffentlicht: (2025)

Bridging the gap between training and inference in LM-based TTS models
von: Zhang, Ruonan, et al.
Veröffentlicht: (2025)

TASLA: Text-Aligned Speech Tokens with Multiple Layer-Aggregation
von: Hsu, Ming-Hao, et al.
Veröffentlicht: (2025)

KS-Net: Multi-band joint speech restoration and enhancement network for 2024 ICASSP SSI Challenge
von: Yu, Guochen, et al.
Veröffentlicht: (2024)

Towards explainable reference-free speech intelligibility evaluation of people with pathological speech
von: Halpern, Bence Mark, et al.
Veröffentlicht: (2026)

Improving child speech recognition with augmented child-like speech
von: Zhang, Yuanyuan, et al.
Veröffentlicht: (2024)

Transferring speech-generic and depression-specific knowledge for Alzheimer's disease detection
von: Cui, Ziyun, et al.
Veröffentlicht: (2023)