:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Li, Xiaosha, Liu, Chun, Wang, Ziyu
Format:	Preprint
Published:	2026
Subjects:	Sound Artificial Intelligence
Online Access:	https://arxiv.org/abs/2602.02738
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Musical Score Understanding Benchmark: Evaluating Large Language Models' Comprehension of Complete Musical Scores
by: Dai, Congren, et al.
Published: (2025)

The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models
by: Li, Jiajia, et al.
Published: (2024)

ABC-Eval: Benchmarking Large Language Models on Symbolic Music Understanding and Instruction Following
by: Zhao, Jiahao, et al.
Published: (2025)

Evaluating Multimodal Large Language Models on Core Music Perception Tasks
by: Carone, Brandon James, et al.
Published: (2025)

Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation
by: Zhu, Tingyu, et al.
Published: (2024)

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
by: Wang, Yashan, et al.
Published: (2025)

Perceptually Aligning Representations of Music via Noise-Augmented Autoencoders
by: Bjare, Mathias Rose, et al.
Published: (2025)

An Independence-promoting Loss for Music Generation with Language Models
by: Lemercier, Jean-Marie, et al.
Published: (2024)

Music Style Transfer With Diffusion Model
by: Huang, Hong, et al.
Published: (2024)

Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation
by: Liu, Jiafeng, et al.
Published: (2026)

TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure
by: He, Qi, et al.
Published: (2025)

Music Arena: Live Evaluation for Text-to-Music
by: Kim, Yonghyun, et al.
Published: (2025)

Content-based Controls For Music Large Language Modeling
by: Lin, Liwei, et al.
Published: (2023)

GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models
by: You, Zuyao, et al.
Published: (2026)

Musical ethnocentrism in Large Language Models
by: Kruspe, Anna
Published: (2025)

Survey on the Evaluation of Generative Models in Music
by: Lerch, Alexander, et al.
Published: (2025)

BNMusic: Blending Environmental Noises into Personalized Music
by: Zuo, Chi, et al.
Published: (2025)

DuoTok: Source-Aware Dual-Track Tokenization for Multi-Track Music Language Modeling
by: Lin, Rui, et al.
Published: (2025)

Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models
by: Li, Jiajun, et al.
Published: (2024)

Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models
by: Wang, Ziyu, et al.
Published: (2024)

JamendoMaxCaps: A Large Scale Music-caption Dataset with Imputed Metadata
by: Roy, Abhinaba, et al.
Published: (2025)

Estimating Musical Surprisal from Audio in Autoregressive Diffusion Model Noise Spaces
by: Bjare, Mathias Rose, et al.
Published: (2025)

Practical and Reproducible Symbolic Music Generation by Large Language Models with Structural Embeddings
by: Rhyu, Seungyeon, et al.
Published: (2024)

CompLex: Music Theory Lexicon Constructed by Autonomous Agents for Automatic Music Generation
by: Hu, Zhejing, et al.
Published: (2025)

Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation
by: Cheng, Yuqing, et al.
Published: (2026)

InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation
by: Zhang, Chong, et al.
Published: (2025)

AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech
by: Qiu, Jielin, et al.
Published: (2026)

Efficient Long-Sequence Diffusion Modeling for Symbolic Music Generation
by: Xu, Jinhan, et al.
Published: (2026)

Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
by: Su, Hongju, et al.
Published: (2025)

BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps
by: Qian, Lekai, et al.
Published: (2026)

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control
by: He, Shihao, et al.
Published: (2026)

Rebellion: Noise-Robust Reasoning Training for Audio Reasoning Models
by: Huang, Tiansheng, et al.
Published: (2025)

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models
by: Li, Yanda, et al.
Published: (2026)

When LLMs Meets Acoustic Landmarks: An Efficient Approach to Integrate Speech into Large Language Models for Depression Detection
by: Zhang, Xiangyu, et al.
Published: (2024)

TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation
by: Yang, Xiaoda, et al.
Published: (2026)

MusicSynth: An Automated Pipeline for Generating Violin Fingerboard Animations from Sheet Music Using Optical Music Recognition
by: Kaushik, Abhimanyu
Published: (2026)

Training-Efficient Text-to-Music Generation with State-Space Modeling
by: Lee, Wei-Jaw, et al.
Published: (2026)

Robust Neural Audio Fingerprinting using Music Foundation Models
by: Singh, Shubhr, et al.
Published: (2025)

Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling
by: Yi, Yungang, et al.
Published: (2026)

HAIM: Human-AI Music Datasets for AI Music Production Tracking Benchmark
by: Go, Seonghyeon, et al.
Published: (2026)