:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Liu, Yuxuan, Sang, Rui, Zhang, Peihong, Li, Zhixin, Li, Shengchen
Format:	Preprint
Published:	2025
Subjects:	Sound Audio and Speech Processing
Online Access:	https://arxiv.org/abs/2509.04985
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

MAIA: An Inpainting-Based Approach for Music Adversarial Attacks
by: Liu, Yuxuan, et al.
Published: (2025)

TF-SepNet: An Efficient 1D Kernel Design in CNNs for Low-Complexity Acoustic Scene Classification
by: Cai, Yiqiang, et al.
Published: (2023)

Leveraging Self-supervised Audio Representations for Data-Efficient Acoustic Scene Classification
by: Cai, Yiqiang, et al.
Published: (2024)

Learning Separated Representations for Instrument-based Music Similarity
by: Hashizume, Yuka, et al.
Published: (2025)

Melodia: Training-Free Music Editing Guided by Attention Probing in Diffusion Models
by: Yang, Yi, et al.
Published: (2025)

Learning Multidimensional Disentangled Representations of Instrumental Sounds for Musical Similarity Assessment
by: Hashizume, Yuka, et al.
Published: (2024)

Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation
by: Wang, Siyin, et al.
Published: (2024)

Speech Denoising with Auditory Models
by: Saddler, Mark R., et al.
Published: (2020)

Weighted-Sampling Audio Adversarial Example Attack
by: Liu, Xiaolei, et al.
Published: (2019)

ESPnet-Codec: Comprehensive Training and Evaluation of Neural Codecs for Audio, Music, and Speech
by: Shi, Jiatong, et al.
Published: (2024)

StreamAAD: Decoding Spatial Auditory Attention with a Streaming Architecture
by: Qiu, Zelin, et al.
Published: (2024)

AdvSV: An Over-the-Air Adversarial Attack Dataset for Speaker Verification
by: Wang, Li, et al.
Published: (2023)

Perceptual Musical Features for Interpretable Audio Tagging
by: Lyberatos, Vassilis, et al.
Published: (2023)

Exploring Differences between Human Perception and Model Inference in Audio Event Recognition
by: Tan, Yizhou, et al.
Published: (2024)

SpeechRefiner: Towards Perceptual Quality Refinement for Front-End Algorithms
by: Li, Sirui, et al.
Published: (2025)

Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention
by: Tao, Ruijie, et al.
Published: (2024)

Explainable Detection of Machine Generated Music and Early Systematic Evaluation
by: Li, Yupei, et al.
Published: (2024)

MusicEval: A Generative Music Dataset with Expert Ratings for Automatic Text-to-Music Evaluation
by: Liu, Cheng, et al.
Published: (2025)

Seed-Music: A Unified Framework for High Quality and Controlled Music Generation
by: Bai, Ye, et al.
Published: (2024)

Music Similarity Representation Learning Focusing on Individual Instruments with Source Separation and Human Preference
by: Imamura, Takehiro, et al.
Published: (2025)

Towards Musically Informed Evaluation of Piano Transcription Models
by: Hu, Patricia, et al.
Published: (2024)

URGENT-PK: Perceptually-Aligned Ranking Model Designed for Speech Enhancement Competition
by: Wang, Jiahe, et al.
Published: (2025)

The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models
by: Li, Jiajia, et al.
Published: (2024)

Transferable Adversarial Attacks on Audio Deepfake Detection
by: Farooq, Muhammad Umar, et al.
Published: (2025)

Automatic Live Music Song Identification Using Multi-level Deep Sequence Similarity Learning
by: Hakala, Aapo, et al.
Published: (2025)

DiffAttack: Diffusion-based Timbre-reserved Adversarial Attack in Speaker Identification
by: Wang, Qing, et al.
Published: (2025)

Music Style Transfer with Time-Varying Inversion of Diffusion Models
by: Li, Sifei, et al.
Published: (2024)

Large-Scale Training Data Attribution for Music Generative Models via Unlearning
by: Choi, Woosung, et al.
Published: (2025)

The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS
by: Carone, Brandon James, et al.
Published: (2025)

Hybrid-Sep: Language-queried audio source separation via pre-trained Model Fusion and Adversarial Diffusion Training
by: Feng, Jianyuan, et al.
Published: (2025)

FakeMusicCaps: a Dataset for Detection and Attribution of Synthetic Music Generated via Text-to-Music Models
by: Comanducci, Luca, et al.
Published: (2024)

Auditory Representation Effective for Estimating Vocal Tract Information
by: Irino, Toshio, et al.
Published: (2023)

Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration
by: Li, Haowen, et al.
Published: (2026)

OMAR-RQ: Open Music Audio Representation Model Trained with Multi-Feature Masked Token Prediction
by: Alonso-Jiménez, Pablo, et al.
Published: (2025)

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
by: Wang, Yashan, et al.
Published: (2025)

Pianoroll-Event: A Novel Score Representation for Symbolic Music
by: Qian, Lekai, et al.
Published: (2026)

Improving Controllability and Editability for Pretrained Text-to-Music Generation Models
by: Zhang, Yixiao
Published: (2024)

Modeling the Difficulty of Saxophone Music
by: Libřický, Šimon, et al.
Published: (2025)

Sound Field Translation and Mixed Source Model for Virtual Applications with Perceptual Validation
by: Birnie, Lachlan, et al.
Published: (2020)

Towards Accurate Phonetic Error Detection Through Phoneme Similarity Modeling
by: Zhou, Xuanru, et al.
Published: (2025)