:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Feng, Yongsheng, Xu, Yuetonghui, Luo, Jiehui, Liu, Hongjia, Li, Xiaobing, Yu, Feng, Li, Wei
Format:	Preprint
Published:	2025
Subjects:	Sound Artificial Intelligence Audio and Speech Processing
Online Access:	https://arxiv.org/abs/2509.15666
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

ACMID: Automatic Curation of Musical Instrument Dataset for 7-Stem Music Source Separation
by: Yu, Ji, et al.
Published: (2025)

MelodyT5: A Unified Score-to-Score Transformer for Symbolic Music Processing
by: Wu, Shangda, et al.
Published: (2024)

STFTCodec: High-Fidelity Audio Compression through Time-Frequency Domain Representation
by: Feng, Tao, et al.
Published: (2025)

Source Separation by Flow Matching
by: Scheibler, Robin, et al.
Published: (2025)

EMelodyGen: Emotion-Conditioned Melody Generation in ABC Notation with the Musical Feature Template
by: Zhou, Monan, et al.
Published: (2023)

Hybrid-Sep: Language-queried audio source separation via pre-trained Model Fusion and Adversarial Diffusion Training
by: Feng, Jianyuan, et al.
Published: (2025)

Distribution Preserving Source Separation With Time Frequency Predictive Models
by: T., Pedro J. Villasana, et al.
Published: (2023)

A Comparative Study on Positional Encoding for Time-frequency Domain Dual-path Transformer-based Source Separation Models
by: Saijo, Kohei, et al.
Published: (2025)

Streaming Keyword Spotting Boosted by Cross-layer Discrimination Consistency
by: Xi, Yu, et al.
Published: (2024)

Jointly Recognizing Speech and Singing Voices Based on Multi-Task Audio Source Separation
by: Bai, Ye, et al.
Published: (2024)

Unsupervised Single-Channel Audio Separation with Diffusion Source Priors
by: Shi, Runwu, et al.
Published: (2025)

An Investigation of Time-Frequency Representation Discriminators for High-Fidelity Vocoder
by: Gu, Yicheng, et al.
Published: (2024)

Determined Multichannel Blind Source Separation with Clustered Source Model
by: Wang, Jianyu, et al.
Published: (2024)

Task-Aware Unified Source Separation
by: Saijo, Kohei, et al.
Published: (2024)

Joint ASR and Speaker Role Tagging with Serialized Output Training
by: Xu, Anfeng, et al.
Published: (2025)

Blind Source Separation of Radar Signals in Time Domain Using Deep Learning
by: Hinderer, Sven
Published: (2025)

TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation
by: Xu, Mohan, et al.
Published: (2024)

Contrastive Learning With Audio Discrimination For Customizable Keyword Spotting In Continuous Speech
by: Xi, Yu, et al.
Published: (2024)

Time-Frequency-Based Attention Cache Memory Model for Real-Time Speech Separation
by: Chen, Guo, et al.
Published: (2025)

Asymmetric Encoder-Decoder Based on Time-Frequency Correlation for Speech Separation
by: Shin, Ui-Hyeop, et al.
Published: (2026)

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
by: Wu, Shangda, et al.
Published: (2025)

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
by: Wang, Yashan, et al.
Published: (2025)

Context-Aware Two-Step Training Scheme for Domain Invariant Speech Separation
by: Wang, Wupeng, et al.
Published: (2025)

Training-Free Multi-Step Audio Source Separation
by: Zang, Yongyi, et al.
Published: (2025)

ITO-Master: Inference-Time Optimization for Audio Effects Modeling of Music Mastering Processors
by: Koo, Junghyun, et al.
Published: (2025)

Leveraging Sound Source Trajectories for Universal Sound Separation
by: Wu, Donghang, et al.
Published: (2024)

MAPSS: Manifold-based Assessment of Perceptual Source Separation
by: Ivry, Amir, et al.
Published: (2025)

Efficient Area-based and Speaker-Agnostic Source Separation
by: Strauss, Martin, et al.
Published: (2024)

Improving Music Source Separation with Diffusion and Consistency Refinement
by: Karchkhadze, Tornike, et al.
Published: (2024)

Determined Blind Source Separation with Sinkhorn Divergence-based Optimal Allocation of the Source Power
by: Wang, Jianyu, et al.
Published: (2025)

FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
by: Xu, Kai-Tuo, et al.
Published: (2025)

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
by: Rong, Yan, et al.
Published: (2025)

Blind Source Separation in Biomedical Signals Using Variational Methods
by: Torabi, Yasaman, et al.
Published: (2025)

EDSep: An Effective Diffusion-Based Method for Speech Source Separation
by: Dong, Jinwei, et al.
Published: (2025)

Exploiting Music Source Separation for Automatic Lyrics Transcription with Whisper
by: Syed, Jaza, et al.
Published: (2025)

Music Source Separation Based on a Lightweight Deep Learning Framework (DTTNET: DUAL-PATH TFC-TDF UNET)
by: Chen, Junyu, et al.
Published: (2023)

Improvements of Discriminative Feature Space Training for Anomalous Sound Detection in Unlabeled Conditions
by: Fujimura, Takuya, et al.
Published: (2024)

TF-Mamba: A Time-Frequency Network for Sound Source Localization
by: Xiao, Yang, et al.
Published: (2024)

SMITIN: Self-Monitored Inference-Time INtervention for Generative Music Transformers
by: Koo, Junghyun, et al.
Published: (2024)

Directional Source Separation for Robust Speech Recognition on Smart Glasses
by: Feng, Tiantian, et al.
Published: (2023)