Salvato in:
| Autori principali: | Yuan, Shuaihang, Wen, Congcong, Shafique, Muhammad, Tzes, Anthony, Fang, Yi |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2512.07845 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
DreamAudio: Customized Text-to-Audio Generation with Diffusion Models
di: Yuan, Yi, et al.
Pubblicazione: (2025)
di: Yuan, Yi, et al.
Pubblicazione: (2025)
Audio-Language Datasets of Scenes and Events: A Survey
di: Wijngaard, Gijs, et al.
Pubblicazione: (2024)
di: Wijngaard, Gijs, et al.
Pubblicazione: (2024)
AudioCIL: A Python Toolbox for Audio Class-Incremental Learning with Multiple Scenes
di: Xu, Qisheng, et al.
Pubblicazione: (2024)
di: Xu, Qisheng, et al.
Pubblicazione: (2024)
Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio?
di: Xie, Yuankun, et al.
Pubblicazione: (2024)
di: Xie, Yuankun, et al.
Pubblicazione: (2024)
Audio Mamba: Pretrained Audio State Space Model For Audio Tagging
di: Lin, Jiaju, et al.
Pubblicazione: (2024)
di: Lin, Jiaju, et al.
Pubblicazione: (2024)
Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models
di: Yang, Wanqi, et al.
Pubblicazione: (2024)
di: Yang, Wanqi, et al.
Pubblicazione: (2024)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation
di: Lee, Junwon, et al.
Pubblicazione: (2024)
di: Lee, Junwon, et al.
Pubblicazione: (2024)
Audio Atlas: Visualizing and Exploring Audio Datasets
di: Lanzendörfer, Luca A., et al.
Pubblicazione: (2024)
di: Lanzendörfer, Luca A., et al.
Pubblicazione: (2024)
The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio
di: Xie, Yuankun, et al.
Pubblicazione: (2024)
di: Xie, Yuankun, et al.
Pubblicazione: (2024)
Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation
di: Xiong, Chenxu, et al.
Pubblicazione: (2024)
di: Xiong, Chenxu, et al.
Pubblicazione: (2024)
Representation-Regularized Convolutional Audio Transformer for Audio Understanding
di: Han, Bing, et al.
Pubblicazione: (2026)
di: Han, Bing, et al.
Pubblicazione: (2026)
Audio Spatially-Guided Fusion for Audio-Visual Navigation
di: Zhou, Xinyu, et al.
Pubblicazione: (2026)
di: Zhou, Xinyu, et al.
Pubblicazione: (2026)
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning
di: Kim, Jaeyeon, et al.
Pubblicazione: (2024)
di: Kim, Jaeyeon, et al.
Pubblicazione: (2024)
Universal Sound Separation with Self-Supervised Audio Masked Autoencoder
di: Zhao, Junqi, et al.
Pubblicazione: (2024)
di: Zhao, Junqi, et al.
Pubblicazione: (2024)
AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion
di: Zhao, Junqi, et al.
Pubblicazione: (2025)
di: Zhao, Junqi, et al.
Pubblicazione: (2025)
Audio Deepfake Attribution: An Initial Dataset and Investigation
di: Yan, Xinrui, et al.
Pubblicazione: (2022)
di: Yan, Xinrui, et al.
Pubblicazione: (2022)
Retrieval-Augmented Text-to-Audio Generation
di: Yuan, Yi, et al.
Pubblicazione: (2023)
di: Yuan, Yi, et al.
Pubblicazione: (2023)
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
di: Erol, Mehmet Hamza, et al.
Pubblicazione: (2024)
di: Erol, Mehmet Hamza, et al.
Pubblicazione: (2024)
Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations
di: Yadav, Sarthak, et al.
Pubblicazione: (2024)
di: Yadav, Sarthak, et al.
Pubblicazione: (2024)
Apollo: Band-sequence Modeling for High-Quality Audio Restoration
di: Li, Kai, et al.
Pubblicazione: (2024)
di: Li, Kai, et al.
Pubblicazione: (2024)
LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis
di: Tan, Zhenxiong, et al.
Pubblicazione: (2024)
di: Tan, Zhenxiong, et al.
Pubblicazione: (2024)
Prototype based Masked Audio Model for Self-Supervised Learning of Sound Event Detection
di: Cai, Pengfei, et al.
Pubblicazione: (2024)
di: Cai, Pengfei, et al.
Pubblicazione: (2024)
The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection
di: Bibbó, Gabriel, et al.
Pubblicazione: (2024)
di: Bibbó, Gabriel, et al.
Pubblicazione: (2024)
Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio
di: Lu, Yi, et al.
Pubblicazione: (2024)
di: Lu, Yi, et al.
Pubblicazione: (2024)
AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models
di: Li, Wenyu, et al.
Pubblicazione: (2025)
di: Li, Wenyu, et al.
Pubblicazione: (2025)
Stable Audio Open
di: Evans, Zach, et al.
Pubblicazione: (2024)
di: Evans, Zach, et al.
Pubblicazione: (2024)
Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
di: Song, Zirui, et al.
Pubblicazione: (2025)
di: Song, Zirui, et al.
Pubblicazione: (2025)
SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection
di: Yi, Jiangyan, et al.
Pubblicazione: (2022)
di: Yi, Jiangyan, et al.
Pubblicazione: (2022)
Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning
di: Tsai, Fang-Duo, et al.
Pubblicazione: (2024)
di: Tsai, Fang-Duo, et al.
Pubblicazione: (2024)
Region-Based Optimization in Continual Learning for Audio Deepfake Detection
di: Chen, Yujie, et al.
Pubblicazione: (2024)
di: Chen, Yujie, et al.
Pubblicazione: (2024)
Deep Space Separable Distillation for Lightweight Acoustic Scene Classification
di: Ye, ShuQi, et al.
Pubblicazione: (2024)
di: Ye, ShuQi, et al.
Pubblicazione: (2024)
Efficient Video to Audio Mapper with Visual Scene Detection
di: Yi, Mingjing, et al.
Pubblicazione: (2024)
di: Yi, Mingjing, et al.
Pubblicazione: (2024)
Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models
di: Kabir, Muhammad Ashad, et al.
Pubblicazione: (2026)
di: Kabir, Muhammad Ashad, et al.
Pubblicazione: (2026)
SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training
di: Mei, Xinhao, et al.
Pubblicazione: (2026)
di: Mei, Xinhao, et al.
Pubblicazione: (2026)
AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning
di: Chen, Liyang, et al.
Pubblicazione: (2026)
di: Chen, Liyang, et al.
Pubblicazione: (2026)
UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
di: Shi, Qundong, et al.
Pubblicazione: (2026)
di: Shi, Qundong, et al.
Pubblicazione: (2026)
WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models
di: Chen, Yifu, et al.
Pubblicazione: (2025)
di: Chen, Yifu, et al.
Pubblicazione: (2025)
Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism
di: Zhong, Jiafeng, et al.
Pubblicazione: (2024)
di: Zhong, Jiafeng, et al.
Pubblicazione: (2024)
Estimating Musical Surprisal in Audio
di: Bjare, Mathias Rose, et al.
Pubblicazione: (2025)
di: Bjare, Mathias Rose, et al.
Pubblicazione: (2025)
On Barriers to Archival Audio Processing
di: Sullivan, Peter, et al.
Pubblicazione: (2025)
di: Sullivan, Peter, et al.
Pubblicazione: (2025)
Documenti analoghi
-
DreamAudio: Customized Text-to-Audio Generation with Diffusion Models
di: Yuan, Yi, et al.
Pubblicazione: (2025) -
Audio-Language Datasets of Scenes and Events: A Survey
di: Wijngaard, Gijs, et al.
Pubblicazione: (2024) -
AudioCIL: A Python Toolbox for Audio Class-Incremental Learning with Multiple Scenes
di: Xu, Qisheng, et al.
Pubblicazione: (2024) -
Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio?
di: Xie, Yuankun, et al.
Pubblicazione: (2024) -
Audio Mamba: Pretrained Audio State Space Model For Audio Tagging
di: Lin, Jiaju, et al.
Pubblicazione: (2024)