:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Lin, Liwei, Xia, Gus, Zhang, Yixiao, Jiang, Junyan
Format:	Preprint
Published:	2024
Subjects:	Sound Artificial Intelligence Audio and Speech Processing
Online Access:	https://arxiv.org/abs/2402.09508
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Content-based Controls For Music Large Language Modeling
by: Lin, Liwei, et al.
Published: (2023)

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
by: Zhang, Yixiao, et al.
Published: (2024)

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
by: Zhang, Yixiao, et al.
Published: (2024)

Improving Controllability and Editability for Pretrained Text-to-Music Generation Models
by: Zhang, Yixiao
Published: (2024)

Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing
by: Zhang, Yixiao, et al.
Published: (2023)

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
by: Wu, Shangda, et al.
Published: (2025)

Language Model Mapping in Multimodal Music Learning: A Grand Challenge Proposal
by: Chin, Daniel, et al.
Published: (2025)

Diffusion-Based Audio Inpainting
by: Moliner, Eloi, et al.
Published: (2023)

TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure
by: He, Qi, et al.
Published: (2025)

Exploring GPT's Ability as a Judge in Music Understanding
by: Fang, Kun, et al.
Published: (2025)

Similarity-Guided Diffusion for Long-Gap Music Inpainting
by: Turland, Sean, et al.
Published: (2025)

Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation
by: Tal, Or, et al.
Published: (2024)

Audio Conditioning for Music Generation via Discrete Bottleneck Features
by: Rouard, Simon, et al.
Published: (2024)

SemanticAudio: Audio Generation and Editing in Semantic Space
by: Dai, Zheqi, et al.
Published: (2026)

M2M-Gen: A Multimodal Framework for Automated Background Music Generation in Japanese Manga Using Large Language Models
by: Sharma, Megha, et al.
Published: (2024)

Automatic Melody Reduction via Shortest Path Finding
by: Wang, Ziyu, et al.
Published: (2025)

The Interpretation Gap in Text-to-Music Generation Models
by: Zang, Yongyi, et al.
Published: (2024)

EXPOTION: Facial Expression and Motion Control for Multimodal Music Generation
by: Izzati, Fathinah, et al.
Published: (2025)

Janssen 2.0: Audio Inpainting in the Time-frequency Domain
by: Mokrý, Ondřej, et al.
Published: (2024)

Audio Inpainting in Time-Frequency Domain with Phase-Aware Prior
by: Balušík, Peter, et al.
Published: (2026)

MEDIC: Zero-shot Music Editing with Disentangled Inversion Control
by: Liu, Huadai, et al.
Published: (2024)

Editing Music with Melody and Text: Using ControlNet for Diffusion Transformer
by: Hou, Siyuan, et al.
Published: (2024)

Amphion: An Open-Source Audio, Music and Speech Generation Toolkit
by: Zhang, Xueyao, et al.
Published: (2023)

Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning
by: Tsai, Fang-Duo, et al.
Published: (2024)

PPPR: Portable Plug-in Prompt Refiner for Text to Audio Generation
by: Shi, Shuchen, et al.
Published: (2024)

Transient Noise Removal via Diffusion-based Speech Inpainting
by: Moradi, Mordehay, et al.
Published: (2025)

Temporal Adaptation of Pre-trained Foundation Models for Music Structure Analysis
by: Zhang, Yixiao, et al.
Published: (2025)

Flexible Control in Symbolic Music Generation via Musical Metadata
by: Han, Sangjun, et al.
Published: (2024)

Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models
by: Wang, Ziyu, et al.
Published: (2024)

Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification
by: Araz, R. Oguz, et al.
Published: (2025)

Steer-by-prior Editing of Symbolic Music Loops
by: Jonason, Nicolas, et al.
Published: (2024)

Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization
by: Ou, Longshen, et al.
Published: (2024)

Generalizable Audio Deepfake Detection via Latent Space Refinement and Augmentation
by: Huang, Wen, et al.
Published: (2025)

Improving Music Source Separation with Diffusion and Consistency Refinement
by: Karchkhadze, Tornike, et al.
Published: (2024)

High Fidelity Text-Guided Music Editing via Single-Stage Flow Matching
by: Lan, Gael Le, et al.
Published: (2024)

ImprovNet -- Generating Controllable Musical Improvisations with Iterative Corruption Refinement
by: Bhandari, Keshav, et al.
Published: (2025)

SRC-gAudio: Sampling-Rate-Controlled Audio Generation
by: Li, Chenxing, et al.
Published: (2024)

From Audio Deepfake Detection to AI-Generated Music Detection -- A Pathway and Overview
by: Li, Yupei, et al.
Published: (2024)

Network Modulation Synthesis: New Algorithms for Generating Musical Audio Using Autoencoder Networks
by: Hyrkas, Jeremy
Published: (2021)

AudioEditor: A Training-Free Diffusion-Based Audio Editing Framework
by: Jia, Yuhang, et al.
Published: (2024)