Salvato in:
| Autore principale: | Verma, Prateek |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2023
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2309.08751 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Audio Transformers
di: Verma, Prateek, et al.
Pubblicazione: (2021)
di: Verma, Prateek, et al.
Pubblicazione: (2021)
Content Adaptive Front End For Audio Classification
di: Verma, Prateek, et al.
Pubblicazione: (2023)
di: Verma, Prateek, et al.
Pubblicazione: (2023)
Neural Style Transfer for Audio Spectograms
di: Verma, Prateek, et al.
Pubblicazione: (2018)
di: Verma, Prateek, et al.
Pubblicazione: (2018)
Generative AI for Music and Audio
di: Dong, Hao-Wen
Pubblicazione: (2024)
di: Dong, Hao-Wen
Pubblicazione: (2024)
Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models
di: Cheng, Hao, et al.
Pubblicazione: (2025)
di: Cheng, Hao, et al.
Pubblicazione: (2025)
Fast Text-to-Audio Generation with Adversarial Post-Training
di: Novack, Zachary, et al.
Pubblicazione: (2025)
di: Novack, Zachary, et al.
Pubblicazione: (2025)
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT
di: Du, Zhihao, et al.
Pubblicazione: (2023)
di: Du, Zhihao, et al.
Pubblicazione: (2023)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation
di: Lee, Junwon, et al.
Pubblicazione: (2024)
di: Lee, Junwon, et al.
Pubblicazione: (2024)
Do Audio-Visual Segmentation Models Truly Segment Sounding Objects?
di: Li, Jia, et al.
Pubblicazione: (2025)
di: Li, Jia, et al.
Pubblicazione: (2025)
SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning
di: Nam, KiHyun, et al.
Pubblicazione: (2026)
di: Nam, KiHyun, et al.
Pubblicazione: (2026)
From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation
di: Poltronieri, Andrea, et al.
Pubblicazione: (2025)
di: Poltronieri, Andrea, et al.
Pubblicazione: (2025)
Understanding Pedestrian Movement Using Urban Sensing Technologies: The Promise of Audio-based Sensors
di: Han, Chaeyeon, et al.
Pubblicazione: (2024)
di: Han, Chaeyeon, et al.
Pubblicazione: (2024)
DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection
di: Fujita, Yoto, et al.
Pubblicazione: (2024)
di: Fujita, Yoto, et al.
Pubblicazione: (2024)
Embedding Alignment in Code Generation for Audio
di: Kouteili, Sam, et al.
Pubblicazione: (2025)
di: Kouteili, Sam, et al.
Pubblicazione: (2025)
Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
di: Wu, Linzhi, et al.
Pubblicazione: (2026)
di: Wu, Linzhi, et al.
Pubblicazione: (2026)
Towards Generating Diverse Audio Captions via Adversarial Training
di: Mei, Xinhao, et al.
Pubblicazione: (2022)
di: Mei, Xinhao, et al.
Pubblicazione: (2022)
Thinking While Listening: Simple Test Time Scaling For Audio Classification
di: Verma, Prateek, et al.
Pubblicazione: (2025)
di: Verma, Prateek, et al.
Pubblicazione: (2025)
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models
di: Xie, Zhifei, et al.
Pubblicazione: (2025)
di: Xie, Zhifei, et al.
Pubblicazione: (2025)
Kimi-Audio Technical Report
di: KimiTeam, et al.
Pubblicazione: (2025)
di: KimiTeam, et al.
Pubblicazione: (2025)
AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models
di: Li, Wenyu, et al.
Pubblicazione: (2025)
di: Li, Wenyu, et al.
Pubblicazione: (2025)
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
di: Li, Peike, et al.
Pubblicazione: (2023)
di: Li, Peike, et al.
Pubblicazione: (2023)
Whisper-GPT: A Hybrid Representation Audio Large Language Model
di: Verma, Prateek
Pubblicazione: (2024)
di: Verma, Prateek
Pubblicazione: (2024)
Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform
di: Telila, Yohannis, et al.
Pubblicazione: (2025)
di: Telila, Yohannis, et al.
Pubblicazione: (2025)
Sequence-to-Sequence Multi-Modal Speech In-Painting
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)
Carnatic Raga Identification System using Rigorous Time-Delay Neural Network
di: Natesan, Sanjay, et al.
Pubblicazione: (2024)
di: Natesan, Sanjay, et al.
Pubblicazione: (2024)
MR-MT3: Memory Retaining Multi-Track Music Transcription to Mitigate Instrument Leakage
di: Tan, Hao Hao, et al.
Pubblicazione: (2024)
di: Tan, Hao Hao, et al.
Pubblicazione: (2024)
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
di: Zhang, Yixiao, et al.
Pubblicazione: (2024)
di: Zhang, Yixiao, et al.
Pubblicazione: (2024)
Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation
di: Zhu, Tingyu, et al.
Pubblicazione: (2024)
di: Zhu, Tingyu, et al.
Pubblicazione: (2024)
HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset
di: Saini, Shivam, et al.
Pubblicazione: (2024)
di: Saini, Shivam, et al.
Pubblicazione: (2024)
MusRec: Zero-Shot Text-to-Music Editing via Rectified Flow and Diffusion Transformers
di: Boudaghi, Ali, et al.
Pubblicazione: (2025)
di: Boudaghi, Ali, et al.
Pubblicazione: (2025)
kNN-SVC: Robust Zero-Shot Singing Voice Conversion with Additive Synthesis and Concatenation Smoothness Optimization
di: Shao, Keren, et al.
Pubblicazione: (2025)
di: Shao, Keren, et al.
Pubblicazione: (2025)
The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation
di: Nagarajan, Ashwin, et al.
Pubblicazione: (2025)
di: Nagarajan, Ashwin, et al.
Pubblicazione: (2025)
PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing
di: Long, Phillip, et al.
Pubblicazione: (2024)
di: Long, Phillip, et al.
Pubblicazione: (2024)
On the de-duplication of the Lakh MIDI dataset
di: Choi, Eunjin, et al.
Pubblicazione: (2025)
di: Choi, Eunjin, et al.
Pubblicazione: (2025)
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
di: Ji, Shengpeng, et al.
Pubblicazione: (2025)
di: Ji, Shengpeng, et al.
Pubblicazione: (2025)
LM2D: Lyrics- and Music-Driven Dance Synthesis
di: Yin, Wenjie, et al.
Pubblicazione: (2024)
di: Yin, Wenjie, et al.
Pubblicazione: (2024)
Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)
Music Enhancement with Deep Filters: A Technical Report for The ICASSP 2024 Cadenza Challenge
di: Shao, Keren, et al.
Pubblicazione: (2024)
di: Shao, Keren, et al.
Pubblicazione: (2024)
CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction
di: Ma, Yinghao, et al.
Pubblicazione: (2026)
di: Ma, Yinghao, et al.
Pubblicazione: (2026)
Segment-Factorized Full-Song Generation on Symbolic Piano Music
di: Chen, Ping-Yi, et al.
Pubblicazione: (2025)
di: Chen, Ping-Yi, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Audio Transformers
di: Verma, Prateek, et al.
Pubblicazione: (2021) -
Content Adaptive Front End For Audio Classification
di: Verma, Prateek, et al.
Pubblicazione: (2023) -
Neural Style Transfer for Audio Spectograms
di: Verma, Prateek, et al.
Pubblicazione: (2018) -
Generative AI for Music and Audio
di: Dong, Hao-Wen
Pubblicazione: (2024) -
Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models
di: Cheng, Hao, et al.
Pubblicazione: (2025)