:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Bogdan, Philipp
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Sound
Online-Zugang:	https://arxiv.org/abs/2603.15905
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Cross-Modal Watermarking for Authentic Audio Recovery and Tamper Localization in Synthesized Audiovisual Forgeries
von: Kim, Minyoung, et al.
Veröffentlicht: (2025)

Creative Text-to-Audio Generation via Synthesizer Programming
von: Cherep, Manuel, et al.
Veröffentlicht: (2024)

TwinShift: Benchmarking Audio Deepfake Detection across Synthesizer and Speaker Shifts
von: Hong, Jiyoung, et al.
Veröffentlicht: (2025)

SynthCloner: Synthesizer-style Audio Transfer via Factorized Codec with ADSR Envelope Control
von: Liu, Jeng-Yue, et al.
Veröffentlicht: (2025)

A Novel Automatic Framework for Speaker Drift Detection in Synthesized Speech
von: Huang, Jia-Hong, et al.
Veröffentlicht: (2026)

Automatic Contextual Audio Denoising
von: Luong, Diep, et al.
Veröffentlicht: (2026)

BWSNet: Automatic Perceptual Assessment of Audio Signals
von: Veillon, Clément Le Moine, et al.
Veröffentlicht: (2023)

Synthesizer Sound Matching Using Audio Spectrogram Transformers
von: Bruford, Fred, et al.
Veröffentlicht: (2024)

ERIS: Evolutionary Real-world Interference Scheme for Jailbreaking Audio Large Models
von: Zhang, Yibo, et al.
Veröffentlicht: (2025)

AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation
von: Wang, Hui, et al.
Veröffentlicht: (2025)

PAT: Parameter-Free Audio-Text Aligner to Boost Zero-Shot Audio Classification
von: Seth, Ashish, et al.
Veröffentlicht: (2024)

MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech
von: Jin, Yutong, et al.
Veröffentlicht: (2026)

Resonate: Reinforcing Text-to-Audio Generation via Online Feedback from Large Audio Language Models
von: Li, Xiquan, et al.
Veröffentlicht: (2026)

Leveraging Prediction Entropy for Automatic Prompt Weighting in Zero-Shot Audio-Language Classification
von: Khoury, Karim El, et al.
Veröffentlicht: (2026)

Towards Automatic Evaluation and High-Quality Pseudo-Parallel Dataset Construction for Audio Editing: A Human-in-the-Loop Method
von: Jia, Yuhang, et al.
Veröffentlicht: (2025)

MMEDIT: A Unified Framework for Multi-Type Audio Editing via Audio Language Model
von: Tao, Ye, et al.
Veröffentlicht: (2025)

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding
von: Liu, Jizhong, et al.
Veröffentlicht: (2024)

DiveSound: LLM-Assisted Automatic Taxonomy Construction for Diverse Audio Generation
von: Li, Baihan, et al.
Veröffentlicht: (2024)

UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens
von: Liu, Chengwei, et al.
Veröffentlicht: (2025)

StyleBreak: Revealing Alignment Vulnerabilities in Large Audio-Language Models via Style-Aware Audio Jailbreak
von: Li, Hongyi, et al.
Veröffentlicht: (2025)

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning
von: Wu, Daiqing, et al.
Veröffentlicht: (2026)

Neutone SDK: An Open Source Framework for Neural Audio Processing
von: Mitcheltree, Christopher, et al.
Veröffentlicht: (2025)

DFALLM: Achieving Generalizable Multitask Deepfake Detection by Optimizing Audio LLM Components
von: Li, Yupei, et al.
Veröffentlicht: (2025)

Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer
von: Jin, Weifei, et al.
Veröffentlicht: (2024)

Continual Audio Deepfake Detection via Universal Adversarial Perturbation
von: Li, Wangjie, et al.
Veröffentlicht: (2025)

Audio Pirates: Black-box Audio Watermark Removal via Diffusion Priors
von: Yao, Lingfeng, et al.
Veröffentlicht: (2026)

ChronosAudio: A Comprehensive Long-Audio Benchmark for Evaluating Audio-Large Language Models
von: Luo, Kaiwen, et al.
Veröffentlicht: (2026)

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models
von: Zhao, Junqi, et al.
Veröffentlicht: (2025)

Automatic acoustic detection of birds through deep learning: the first Bird Audio Detection challenge
von: Stowell, Dan, et al.
Veröffentlicht: (2018)

UniFlow-Audio: Unified Flow Matching for Audio Generation from Omni-Modalities
von: Xu, Xuenan, et al.
Veröffentlicht: (2025)

Can Large Language Models Predict Audio Effects Parameters from Natural Language?
von: Doh, Seungheon, et al.
Veröffentlicht: (2025)

SynTTS-Commands: A Public Dataset for On-Device KWS via TTS-Synthesized Multilingual Speech
von: Gan, Lu, et al.
Veröffentlicht: (2025)

MUKA: Multi Kernel Audio Adaptation Of Audio-Language Models
von: Bensaid, Reda, et al.
Veröffentlicht: (2026)

AudioToolAgent: An Agentic Framework for Audio-Language Models
von: Wijngaard, Gijs, et al.
Veröffentlicht: (2025)

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization
von: Yang, Dongchao, et al.
Veröffentlicht: (2026)

Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals
von: Saky, S M Asiful Islam, et al.
Veröffentlicht: (2025)

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text
von: Mei, Jiahao, et al.
Veröffentlicht: (2026)

FastWave: Optimized Diffusion Model for Audio Super-Resolution
von: Kuznetsov, Nikita, et al.
Veröffentlicht: (2026)

Bypassing Direct Reconstruction: Speech Detection from MEG via Large-Scale Audio Retrieval
von: Xiao, Boda, et al.
Veröffentlicht: (2026)

Audio Hallucination Attacks: Probing the Reliability of Large Audio Language Models
von: Seth, Ashish, et al.
Veröffentlicht: (2026)