:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Ou, Longshen, Wang, Ye
Format:	Preprint
Published:	2025
Subjects:	Sound
Online Access:	https://arxiv.org/abs/2512.11348
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Lead Instrument Detection from Multitrack Music
by: Ou, Longshen, et al.
Published: (2025)

Motifs, Phrases, and Beyond: The Modelling of Structure in Symbolic Music Generation
by: Bhandari, Keshav, et al.
Published: (2024)

Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization
by: Ou, Longshen, et al.
Published: (2024)

Apollo: An Interactive Environment for Generating Symbolic Musical Phrases using Corpus-based Style Imitation
by: Tchemeube, Renaud Bougueng, et al.
Published: (2025)

Joint Learning of Wording and Formatting for Singable Melody-to-Lyric Generation
by: Ou, Longshen, et al.
Published: (2023)

Analyzing Byte-Pair Encoding on Monophonic and Polyphonic Symbolic Music: A Focus on Musical Phrase Segmentation
by: Le, Dinh-Viet-Toan, et al.
Published: (2024)

Multi-Track MusicLDM: Towards Versatile Music Generation with Latent Diffusion Model
by: Karchkhadze, Tornike, et al.
Published: (2024)

MMT-BERT: Chord-aware Symbolic Music Generation Based on Multitrack Music Transformer and MusicBERT
by: Zhu, Jinlong, et al.
Published: (2024)

Segment-Factorized Full-Song Generation on Symbolic Piano Music
by: Chen, Ping-Yi, et al.
Published: (2025)

MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction
by: Chae, Yunkee, et al.
Published: (2025)

DanceMeld: Unraveling Dance Phrases with Hierarchical Latent Codes for Music-to-Dance Synthesis
by: Gao, Xin, et al.
Published: (2023)

Exploring Tokenization Methods for Multitrack Sheet Music Generation
by: Wang, Yashan, et al.
Published: (2024)

SCORE-SET: A dataset of GuitarPro files for Music Phrase Generation and Sequence Learning
by: Begari, Vishakh
Published: (2025)

Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models
by: Wang, Ziyu, et al.
Published: (2024)

PHRASED: Phrase Dictionary Biasing for Speech Translation
by: Wang, Peidong, et al.
Published: (2025)

CatchPhrase: EXPrompt-Guided Encoder Adaptation for Audio-to-Image Generation
by: Oh, Hyunwoo, et al.
Published: (2025)

MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition
by: Pasquier, Philippe, et al.
Published: (2025)

ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis
by: He, Xiangheng, et al.
Published: (2024)

METEOR: Melody-aware Texture-controllable Symbolic Orchestral Music Generation via Transformer VAE
by: Le, Dinh-Viet-Toan, et al.
Published: (2024)

The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separation and Information Retrieval
by: Garcia-Martinez, Jaime, et al.
Published: (2025)

Diffusion-based Symbolic Music Generation with Structured State Space Models
by: Yuan, Shenghua, et al.
Published: (2025)

SongSong: A Time Phonograph for Chinese SongCi Music from Thousand of Years Away
by: Li, Jiajia, et al.
Published: (2026)

Efficient Long-Sequence Diffusion Modeling for Symbolic Music Generation
by: Xu, Jinhan, et al.
Published: (2026)

TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure
by: He, Qi, et al.
Published: (2025)

Contextualized Automatic Speech Recognition with Attention-Based Bias Phrase Boosted Beam Search
by: Sudo, Yui, et al.
Published: (2024)

Composer Vector: Style-steering Symbolic Music Generation in a Latent Space
by: Jiang, Xunyi, et al.
Published: (2026)

Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long Multi-track Symbolic Music Generation
by: Lin, Zhiwei, et al.
Published: (2024)

TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree
by: Andrusenko, Andrei, et al.
Published: (2025)

Multi-Source Music Generation with Latent Diffusion
by: Xu, Zhongweiyang, et al.
Published: (2024)

LDM-SVC: Latent Diffusion Model Based Zero-Shot Any-to-Any Singing Voice Conversion with Singer Guidance
by: Chen, Shihao, et al.
Published: (2024)

Interpreting Graphic Notation with MusicLDM: An AI Improvisation of Cornelius Cardew's Treatise
by: Karchkhadze, Tornike, et al.
Published: (2024)

Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling
by: Yi, Yungang, et al.
Published: (2026)

Symbolic Music Generation with Non-Differentiable Rule Guided Diffusion
by: Huang, Yujia, et al.
Published: (2024)

DiffRhythm+: Controllable and Flexible Full-Length Song Generation with Preference Optimization
by: Chen, Huakang, et al.
Published: (2025)

LZMidi: Compression-Based Symbolic Music Generation
by: Ding, Connor, et al.
Published: (2025)

Mamba-Diffusion Model with Learnable Wavelet for Controllable Symbolic Music Generation
by: Zhang, Jincheng, et al.
Published: (2025)

Versatile Symbolic Music-for-Music Modeling via Function Alignment
by: Jiang, Junyan, et al.
Published: (2025)

ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models
by: Yi, Xiaoyu, et al.
Published: (2026)

Flexible Control in Symbolic Music Generation via Musical Metadata
by: Han, Sangjun, et al.
Published: (2024)

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation
by: Li, Sifei, et al.
Published: (2026)