:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Author:	Zhao, Zijian
Format:	Preprint
Published:	2024
Subjects:	Sound Artificial Intelligence Audio and Speech Processing
Online Access:	https://arxiv.org/abs/2407.08306
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

PianoBART: Symbolic Piano Music Generation and Understanding with Large-Scale Pre-Training
by: Liang, Xiao, et al.
Published: (2024)

From Generality to Mastery: Composer-Style Symbolic Music Generation via Large-Scale Pre-training
by: Yao, Mingyang, et al.
Published: (2025)

MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding
by: Huang, Jingyue, et al.
Published: (2025)

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
by: Wang, Yashan, et al.
Published: (2025)

Practical and Reproducible Symbolic Music Generation by Large Language Models with Structural Embeddings
by: Rhyu, Seungyeon, et al.
Published: (2024)

MMT-BERT: Chord-aware Symbolic Music Generation Based on Multitrack Music Transformer and MusicBERT
by: Zhu, Jinlong, et al.
Published: (2024)

Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models
by: Li, Jiajun, et al.
Published: (2024)

The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models
by: Li, Jiajia, et al.
Published: (2024)

MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss
by: Shu, Yangyang, et al.
Published: (2024)

Mamba-Diffusion Model with Learnable Wavelet for Controllable Symbolic Music Generation
by: Zhang, Jincheng, et al.
Published: (2025)

MusER: Musical Element-Based Regularization for Generating Symbolic Music with Emotion
by: Ji, Shulei, et al.
Published: (2023)

Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling
by: Wang, Quanxiu, et al.
Published: (2024)

MuSpike: A Benchmark and Evaluation Framework for Symbolic Music Generation with Spiking Neural Networks
by: Liang, Qian, et al.
Published: (2025)

MuPT: A Generative Symbolic Music Pretrained Transformer
by: Qu, Xingwei, et al.
Published: (2024)

Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach
by: Zhao, Zijian, et al.
Published: (2025)

Composer Style-specific Symbolic Music Generation Using Vector Quantized Discrete Diffusion Models
by: Zhang, Jincheng, et al.
Published: (2023)

Generating High-quality Symbolic Music Using Fine-grained Discriminators
by: Zhang, Zhedong, et al.
Published: (2024)

XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
by: Tian, Sida, et al.
Published: (2025)

Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation
by: Retkowski, Jan, et al.
Published: (2024)

Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition
by: Li, Dongyuan, et al.
Published: (2024)

A Domain-Knowledge-Inspired Music Embedding Space and a Novel Attention Mechanism for Symbolic Music Modeling
by: Guo, Z., et al.
Published: (2022)

Content-based Controls For Music Large Language Modeling
by: Lin, Liwei, et al.
Published: (2023)

A Survey of Foundation Models for Music Understanding
by: Li, Wenjun, et al.
Published: (2024)

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response
by: Deng, Zihao, et al.
Published: (2023)

Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio
by: Alonso-Jiménez, Pablo, et al.
Published: (2024)

Evaluating Multimodal Large Language Models on Core Music Perception Tasks
by: Carone, Brandon James, et al.
Published: (2025)

Tuning Music Education: AI-Powered Personalization in Learning Music
by: Sanganeria, Mayank, et al.
Published: (2024)

Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion
by: Sato, Gakusei, et al.
Published: (2023)

Music Consistency Models
by: Fei, Zhengcong, et al.
Published: (2024)

MAT-SED: A Masked Audio Transformer with Masked-Reconstruction Based Pre-training for Sound Event Detection
by: Cai, Pengfei, et al.
Published: (2024)

Layer-wise Investigation of Large-Scale Self-Supervised Music Representation Models
by: Zhou, Yizhi, et al.
Published: (2025)

Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long Multi-track Symbolic Music Generation
by: Lin, Zhiwei, et al.
Published: (2024)

Music Auto-Tagging with Robust Music Representation Learned via Domain Adversarial Training
by: Joung, Haesun, et al.
Published: (2024)

Large Language Models' Internal Perception of Symbolic Music
by: Shin, Andrew, et al.
Published: (2025)

Structuring Concept Space with the Musical Circle of Fifths by Utilizing Music Grammar Based Activations
by: Moyo, Tofara, et al.
Published: (2024)

Advancing the Foundation Model for Music Understanding
by: Jiang, Yi, et al.
Published: (2025)

Melody-Guided Music Generation
by: Wei, Shaopeng, et al.
Published: (2024)

PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing
by: Long, Phillip, et al.
Published: (2024)

Language Model Mapping in Multimodal Music Learning: A Grand Challenge Proposal
by: Chin, Daniel, et al.
Published: (2025)

MusicLIME: Explainable Multimodal Music Understanding
by: Sotirou, Theodoros, et al.
Published: (2024)