:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Yuan, Shuaihang, Wen, Congcong, Shafique, Muhammad, Tzes, Anthony, Fang, Yi
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Sound Artificial Intelligence Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2512.07845
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

DreamAudio: Customized Text-to-Audio Generation with Diffusion Models
di: Yuan, Yi, et al.
Pubblicazione: (2025)

Audio-Language Datasets of Scenes and Events: A Survey
di: Wijngaard, Gijs, et al.
Pubblicazione: (2024)

AudioCIL: A Python Toolbox for Audio Class-Incremental Learning with Multiple Scenes
di: Xu, Qisheng, et al.
Pubblicazione: (2024)

Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio?
di: Xie, Yuankun, et al.
Pubblicazione: (2024)

Audio Mamba: Pretrained Audio State Space Model For Audio Tagging
di: Lin, Jiaju, et al.
Pubblicazione: (2024)

Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models
di: Yang, Wanqi, et al.
Pubblicazione: (2024)

Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation
di: Lee, Junwon, et al.
Pubblicazione: (2024)

Audio Atlas: Visualizing and Exploring Audio Datasets
di: Lanzendörfer, Luca A., et al.
Pubblicazione: (2024)

The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio
di: Xie, Yuankun, et al.
Pubblicazione: (2024)

Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation
di: Xiong, Chenxu, et al.
Pubblicazione: (2024)

Representation-Regularized Convolutional Audio Transformer for Audio Understanding
di: Han, Bing, et al.
Pubblicazione: (2026)

Audio Spatially-Guided Fusion for Audio-Visual Navigation
di: Zhou, Xinyu, et al.
Pubblicazione: (2026)

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning
di: Kim, Jaeyeon, et al.
Pubblicazione: (2024)

Universal Sound Separation with Self-Supervised Audio Masked Autoencoder
di: Zhao, Junqi, et al.
Pubblicazione: (2024)

AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion
di: Zhao, Junqi, et al.
Pubblicazione: (2025)

Audio Deepfake Attribution: An Initial Dataset and Investigation
di: Yan, Xinrui, et al.
Pubblicazione: (2022)

Retrieval-Augmented Text-to-Audio Generation
di: Yuan, Yi, et al.
Pubblicazione: (2023)

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
di: Erol, Mehmet Hamza, et al.
Pubblicazione: (2024)

Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations
di: Yadav, Sarthak, et al.
Pubblicazione: (2024)

Apollo: Band-sequence Modeling for High-Quality Audio Restoration
di: Li, Kai, et al.
Pubblicazione: (2024)

LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis
di: Tan, Zhenxiong, et al.
Pubblicazione: (2024)

Prototype based Masked Audio Model for Self-Supervised Learning of Sound Event Detection
di: Cai, Pengfei, et al.
Pubblicazione: (2024)

The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection
di: Bibbó, Gabriel, et al.
Pubblicazione: (2024)

Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio
di: Lu, Yi, et al.
Pubblicazione: (2024)

AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models
di: Li, Wenyu, et al.
Pubblicazione: (2025)

Stable Audio Open
di: Evans, Zach, et al.
Pubblicazione: (2024)

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
di: Song, Zirui, et al.
Pubblicazione: (2025)

SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection
di: Yi, Jiangyan, et al.
Pubblicazione: (2022)

Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning
di: Tsai, Fang-Duo, et al.
Pubblicazione: (2024)

Region-Based Optimization in Continual Learning for Audio Deepfake Detection
di: Chen, Yujie, et al.
Pubblicazione: (2024)

Deep Space Separable Distillation for Lightweight Acoustic Scene Classification
di: Ye, ShuQi, et al.
Pubblicazione: (2024)

Efficient Video to Audio Mapper with Visual Scene Detection
di: Yi, Mingjing, et al.
Pubblicazione: (2024)

Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models
di: Kabir, Muhammad Ashad, et al.
Pubblicazione: (2026)

SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training
di: Mei, Xinhao, et al.
Pubblicazione: (2026)

AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning
di: Chen, Liyang, et al.
Pubblicazione: (2026)

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
di: Shi, Qundong, et al.
Pubblicazione: (2026)

WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models
di: Chen, Yifu, et al.
Pubblicazione: (2025)

Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism
di: Zhong, Jiafeng, et al.
Pubblicazione: (2024)

Estimating Musical Surprisal in Audio
di: Bjare, Mathias Rose, et al.
Pubblicazione: (2025)

On Barriers to Archival Audio Processing
di: Sullivan, Peter, et al.
Pubblicazione: (2025)