:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Wen, Yufan, Liu, Zhaocheng, Hua, YeGuo, Guo, Ziyi, Zhang, Lihua, Yuan, Chun, Wu, Jian
Format:	Preprint
Published:	2026
Subjects:	Sound Artificial Intelligence Audio and Speech Processing
Online Access:	https://arxiv.org/abs/2602.09070
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

MelodyT5: A Unified Score-to-Score Transformer for Symbolic Music Processing
by: Wu, Shangda, et al.
Published: (2024)

VidMusician: Video-to-Music Generation with Semantic-Rhythmic Alignment via Hierarchical Visual Features
by: Li, Sifei, et al.
Published: (2024)

Seed-Music: A Unified Framework for High Quality and Controlled Music Generation
by: Bai, Ye, et al.
Published: (2024)

MusicAOG: an Energy-Based Model for Learning and Sampling a Hierarchical Representation of Symbolic Music
by: Qian, Yikai, et al.
Published: (2024)

MusicScore: A Dataset for Music Score Modeling and Generation
by: Lin, Yuheng, et al.
Published: (2024)

Pianoroll-Event: A Novel Score Representation for Symbolic Music
by: Qian, Lekai, et al.
Published: (2026)

Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling
by: Li, Xiaojie, et al.
Published: (2025)

A Neural Score Follower for Computer Accompaniment of Polyphonic Musical Instruments
by: Pillay, Ashwin
Published: (2025)

Score-Informed Transformer for Refining MIDI Velocity in Automatic Music Transcription
by: He, Zhanhong, et al.
Published: (2025)

MEDIC: Zero-shot Music Editing with Disentangled Inversion Control
by: Liu, Huadai, et al.
Published: (2024)

Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model
by: Kang, Jaeyong, et al.
Published: (2023)

Towards An Integrated Approach for Expressive Piano Performance Synthesis from Music Scores
by: Tang, Jingjing, et al.
Published: (2025)

Sing it, Narrate it: Quality Musical Lyrics Translation
by: Ye, Zhuorui, et al.
Published: (2024)

Editing Music with Melody and Text: Using ControlNet for Diffusion Transformer
by: Hou, Siyuan, et al.
Published: (2024)

ACE-Step: A Step Towards Music Generation Foundation Model
by: Gong, Junmin, et al.
Published: (2025)

Lead Instrument Detection from Multitrack Music
by: Ou, Longshen, et al.
Published: (2025)

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
by: Wu, Shangda, et al.
Published: (2025)

Hear: Hierarchically Enhanced Aesthetic Representations For Multidimensional Music Evaluation
by: Liu, Shuyang, et al.
Published: (2025)

The Whole Is Greater than the Sum of Its Parts: Improving Music Source Separation by Bridging Network
by: Sawata, Ryosuke, et al.
Published: (2023)

Musical Score Following using Statistical Inference
by: Cowley, Josephine
Published: (2025)

Flexible Control in Symbolic Music Generation via Musical Metadata
by: Han, Sangjun, et al.
Published: (2024)

Universal Preference-Score-based Pairwise Speech Quality Assessment
by: Shi, Yu-Fei, et al.
Published: (2025)

End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding
by: Zeng, Wei, et al.
Published: (2024)

Score-informed Music Source Separation: Improving Synthetic-to-real Generalization in Classical Music
by: Tunturi, Eetu, et al.
Published: (2025)

Improving Controllability and Editability for Pretrained Text-to-Music Generation Models
by: Zhang, Yixiao
Published: (2024)

MART: Learning Hierarchical Music Audio Representations with Part-Whole Transformer
by: Yao, Dong, et al.
Published: (2023)

Exploring Multi-Modal Control in Music-Driven Dance Generation
by: Li, Ronghui, et al.
Published: (2024)

MuseAgent-1: Interactive Grounded Multimodal Understanding of Music Scores and Performance Audio
by: Zhao, Qihao, et al.
Published: (2026)

GD-Retriever: Controllable Generative Text-Music Retrieval with Diffusion Models
by: Guinot, Julien, et al.
Published: (2025)

Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation
by: Tal, Or, et al.
Published: (2024)

Musical Word Embedding for Music Tagging and Retrieval
by: Doh, SeungHeon, et al.
Published: (2024)

Multi-Stage Speech Bandwidth Extension with Flexible Sampling Rate Control
by: Lu, Ye-Xin, et al.
Published: (2024)

Peransformer: Improving Low-informed Expressive Performance Rendering with Score-aware Discriminator
by: He, Xian, et al.
Published: (2025)

SonicRAG : High Fidelity Sound Effects Synthesis Based on Retrival Augmented Generation
by: Guo, Yu-Ren, et al.
Published: (2025)

Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning
by: Liu, Zhaocheng, et al.
Published: (2025)

MusicEval: A Generative Music Dataset with Expert Ratings for Automatic Text-to-Music Evaluation
by: Liu, Cheng, et al.
Published: (2025)

ProGress: Structured Music Generation via Graph Diffusion and Hierarchical Music Analysis
by: Ni-Hahn, Stephen, et al.
Published: (2025)

WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
by: Mundada, Gagan, et al.
Published: (2025)

Audio Generation Through Score-Based Generative Modeling: Design Principles and Implementation
by: Zhu, Ge, et al.
Published: (2025)

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks
by: Zhang, Yu, et al.
Published: (2024)