:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Elyaderani, Mahsa Kadkhodaei, Shirani, Shahram
Format:	Preprint
Published:	2024
Subjects:	Multimedia Artificial Intelligence Machine Learning Sound Audio and Speech Processing
Online Access:	https://arxiv.org/abs/2406.00901
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Sequence-to-Sequence Multi-Modal Speech In-Painting
by: Elyaderani, Mahsa Kadkhodaei, et al.
Published: (2024)

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
by: Wu, Linzhi, et al.
Published: (2026)

Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
by: Lin, Meng-Ping, et al.
Published: (2025)

kNN-SVC: Robust Zero-Shot Singing Voice Conversion with Additive Synthesis and Concatenation Smoothness Optimization
by: Shao, Keren, et al.
Published: (2025)

MR-MT3: Memory Retaining Multi-Track Music Transcription to Mitigate Instrument Leakage
by: Tan, Hao Hao, et al.
Published: (2024)

Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation
by: Kim, Sungnyun, et al.
Published: (2025)

LatentSpeech: Latent Diffusion for Text-To-Speech Generation
by: Lou, Haowei, et al.
Published: (2024)

HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset
by: Saini, Shivam, et al.
Published: (2024)

Music Enhancement with Deep Filters: A Technical Report for The ICASSP 2024 Cadenza Challenge
by: Shao, Keren, et al.
Published: (2024)

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning
by: Nam, KiHyun, et al.
Published: (2026)

PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing
by: Long, Phillip, et al.
Published: (2024)

Carnatic Raga Identification System using Rigorous Time-Delay Neural Network
by: Natesan, Sanjay, et al.
Published: (2024)

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
by: Zhang, Yixiao, et al.
Published: (2024)

Understanding Pedestrian Movement Using Urban Sensing Technologies: The Promise of Audio-based Sensors
by: Han, Chaeyeon, et al.
Published: (2024)

DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection
by: Fujita, Yoto, et al.
Published: (2024)

Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation
by: Zhu, Tingyu, et al.
Published: (2024)

Generative AI for Music and Audio
by: Dong, Hao-Wen
Published: (2024)

LM2D: Lyrics- and Music-Driven Dance Synthesis
by: Yin, Wenjie, et al.
Published: (2024)

Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation
by: Lee, Junwon, et al.
Published: (2024)

Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform
by: Telila, Yohannis, et al.
Published: (2025)

Audio Transformers
by: Verma, Prateek, et al.
Published: (2021)

Content Adaptive Front End For Audio Classification
by: Verma, Prateek, et al.
Published: (2023)

Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models
by: Cheng, Hao, et al.
Published: (2025)

From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation
by: Poltronieri, Andrea, et al.
Published: (2025)

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT
by: Du, Zhihao, et al.
Published: (2023)

Diverse Audio Embeddings -- Bringing Features Back Outperforms CLAP!
by: Verma, Prateek
Published: (2023)

Fast Text-to-Audio Generation with Adversarial Post-Training
by: Novack, Zachary, et al.
Published: (2025)

MusRec: Zero-Shot Text-to-Music Editing via Rectified Flow and Diffusion Transformers
by: Boudaghi, Ali, et al.
Published: (2025)

Do Audio-Visual Segmentation Models Truly Segment Sounding Objects?
by: Li, Jia, et al.
Published: (2025)

The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation
by: Nagarajan, Ashwin, et al.
Published: (2025)

JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
by: Li, Peike, et al.
Published: (2023)

On the de-duplication of the Lakh MIDI dataset
by: Choi, Eunjin, et al.
Published: (2025)

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
by: Ji, Shengpeng, et al.
Published: (2025)

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction
by: Ma, Yinghao, et al.
Published: (2026)

Segment-Factorized Full-Song Generation on Symbolic Piano Music
by: Chen, Ping-Yi, et al.
Published: (2025)

Towards Controllable Speech Synthesis in the Era of Large Language Models: A Systematic Survey
by: Xie, Tianxin, et al.
Published: (2024)

Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better
by: Ge, Mengying, et al.
Published: (2024)

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition
by: Pan, Yu, et al.
Published: (2023)

StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech
by: Lou, Haowei, et al.
Published: (2024)

IML-Spikeformer: Input-aware Multi-Level Spiking Transformer for Speech Processing
by: Song, Zeyang, et al.
Published: (2025)