Gespeichert in:
| 1. Verfasser: | Bogdan, Philipp |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2603.15905 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Cross-Modal Watermarking for Authentic Audio Recovery and Tamper Localization in Synthesized Audiovisual Forgeries
von: Kim, Minyoung, et al.
Veröffentlicht: (2025)
von: Kim, Minyoung, et al.
Veröffentlicht: (2025)
Creative Text-to-Audio Generation via Synthesizer Programming
von: Cherep, Manuel, et al.
Veröffentlicht: (2024)
von: Cherep, Manuel, et al.
Veröffentlicht: (2024)
TwinShift: Benchmarking Audio Deepfake Detection across Synthesizer and Speaker Shifts
von: Hong, Jiyoung, et al.
Veröffentlicht: (2025)
von: Hong, Jiyoung, et al.
Veröffentlicht: (2025)
SynthCloner: Synthesizer-style Audio Transfer via Factorized Codec with ADSR Envelope Control
von: Liu, Jeng-Yue, et al.
Veröffentlicht: (2025)
von: Liu, Jeng-Yue, et al.
Veröffentlicht: (2025)
A Novel Automatic Framework for Speaker Drift Detection in Synthesized Speech
von: Huang, Jia-Hong, et al.
Veröffentlicht: (2026)
von: Huang, Jia-Hong, et al.
Veröffentlicht: (2026)
Automatic Contextual Audio Denoising
von: Luong, Diep, et al.
Veröffentlicht: (2026)
von: Luong, Diep, et al.
Veröffentlicht: (2026)
BWSNet: Automatic Perceptual Assessment of Audio Signals
von: Veillon, Clément Le Moine, et al.
Veröffentlicht: (2023)
von: Veillon, Clément Le Moine, et al.
Veröffentlicht: (2023)
Synthesizer Sound Matching Using Audio Spectrogram Transformers
von: Bruford, Fred, et al.
Veröffentlicht: (2024)
von: Bruford, Fred, et al.
Veröffentlicht: (2024)
ERIS: Evolutionary Real-world Interference Scheme for Jailbreaking Audio Large Models
von: Zhang, Yibo, et al.
Veröffentlicht: (2025)
von: Zhang, Yibo, et al.
Veröffentlicht: (2025)
AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation
von: Wang, Hui, et al.
Veröffentlicht: (2025)
von: Wang, Hui, et al.
Veröffentlicht: (2025)
PAT: Parameter-Free Audio-Text Aligner to Boost Zero-Shot Audio Classification
von: Seth, Ashish, et al.
Veröffentlicht: (2024)
von: Seth, Ashish, et al.
Veröffentlicht: (2024)
MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech
von: Jin, Yutong, et al.
Veröffentlicht: (2026)
von: Jin, Yutong, et al.
Veröffentlicht: (2026)
Resonate: Reinforcing Text-to-Audio Generation via Online Feedback from Large Audio Language Models
von: Li, Xiquan, et al.
Veröffentlicht: (2026)
von: Li, Xiquan, et al.
Veröffentlicht: (2026)
Leveraging Prediction Entropy for Automatic Prompt Weighting in Zero-Shot Audio-Language Classification
von: Khoury, Karim El, et al.
Veröffentlicht: (2026)
von: Khoury, Karim El, et al.
Veröffentlicht: (2026)
Towards Automatic Evaluation and High-Quality Pseudo-Parallel Dataset Construction for Audio Editing: A Human-in-the-Loop Method
von: Jia, Yuhang, et al.
Veröffentlicht: (2025)
von: Jia, Yuhang, et al.
Veröffentlicht: (2025)
MMEDIT: A Unified Framework for Multi-Type Audio Editing via Audio Language Model
von: Tao, Ye, et al.
Veröffentlicht: (2025)
von: Tao, Ye, et al.
Veröffentlicht: (2025)
Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding
von: Liu, Jizhong, et al.
Veröffentlicht: (2024)
von: Liu, Jizhong, et al.
Veröffentlicht: (2024)
DiveSound: LLM-Assisted Automatic Taxonomy Construction for Diverse Audio Generation
von: Li, Baihan, et al.
Veröffentlicht: (2024)
von: Li, Baihan, et al.
Veröffentlicht: (2024)
UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens
von: Liu, Chengwei, et al.
Veröffentlicht: (2025)
von: Liu, Chengwei, et al.
Veröffentlicht: (2025)
StyleBreak: Revealing Alignment Vulnerabilities in Large Audio-Language Models via Style-Aware Audio Jailbreak
von: Li, Hongyi, et al.
Veröffentlicht: (2025)
von: Li, Hongyi, et al.
Veröffentlicht: (2025)
Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning
von: Wu, Daiqing, et al.
Veröffentlicht: (2026)
von: Wu, Daiqing, et al.
Veröffentlicht: (2026)
Neutone SDK: An Open Source Framework for Neural Audio Processing
von: Mitcheltree, Christopher, et al.
Veröffentlicht: (2025)
von: Mitcheltree, Christopher, et al.
Veröffentlicht: (2025)
DFALLM: Achieving Generalizable Multitask Deepfake Detection by Optimizing Audio LLM Components
von: Li, Yupei, et al.
Veröffentlicht: (2025)
von: Li, Yupei, et al.
Veröffentlicht: (2025)
Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer
von: Jin, Weifei, et al.
Veröffentlicht: (2024)
von: Jin, Weifei, et al.
Veröffentlicht: (2024)
Continual Audio Deepfake Detection via Universal Adversarial Perturbation
von: Li, Wangjie, et al.
Veröffentlicht: (2025)
von: Li, Wangjie, et al.
Veröffentlicht: (2025)
Audio Pirates: Black-box Audio Watermark Removal via Diffusion Priors
von: Yao, Lingfeng, et al.
Veröffentlicht: (2026)
von: Yao, Lingfeng, et al.
Veröffentlicht: (2026)
ChronosAudio: A Comprehensive Long-Audio Benchmark for Evaluating Audio-Large Language Models
von: Luo, Kaiwen, et al.
Veröffentlicht: (2026)
von: Luo, Kaiwen, et al.
Veröffentlicht: (2026)
AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models
von: Zhao, Junqi, et al.
Veröffentlicht: (2025)
von: Zhao, Junqi, et al.
Veröffentlicht: (2025)
Automatic acoustic detection of birds through deep learning: the first Bird Audio Detection challenge
von: Stowell, Dan, et al.
Veröffentlicht: (2018)
von: Stowell, Dan, et al.
Veröffentlicht: (2018)
UniFlow-Audio: Unified Flow Matching for Audio Generation from Omni-Modalities
von: Xu, Xuenan, et al.
Veröffentlicht: (2025)
von: Xu, Xuenan, et al.
Veröffentlicht: (2025)
Can Large Language Models Predict Audio Effects Parameters from Natural Language?
von: Doh, Seungheon, et al.
Veröffentlicht: (2025)
von: Doh, Seungheon, et al.
Veröffentlicht: (2025)
SynTTS-Commands: A Public Dataset for On-Device KWS via TTS-Synthesized Multilingual Speech
von: Gan, Lu, et al.
Veröffentlicht: (2025)
von: Gan, Lu, et al.
Veröffentlicht: (2025)
MUKA: Multi Kernel Audio Adaptation Of Audio-Language Models
von: Bensaid, Reda, et al.
Veröffentlicht: (2026)
von: Bensaid, Reda, et al.
Veröffentlicht: (2026)
AudioToolAgent: An Agentic Framework for Audio-Language Models
von: Wijngaard, Gijs, et al.
Veröffentlicht: (2025)
von: Wijngaard, Gijs, et al.
Veröffentlicht: (2025)
UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization
von: Yang, Dongchao, et al.
Veröffentlicht: (2026)
von: Yang, Dongchao, et al.
Veröffentlicht: (2026)
Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals
von: Saky, S M Asiful Islam, et al.
Veröffentlicht: (2025)
von: Saky, S M Asiful Islam, et al.
Veröffentlicht: (2025)
Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text
von: Mei, Jiahao, et al.
Veröffentlicht: (2026)
von: Mei, Jiahao, et al.
Veröffentlicht: (2026)
FastWave: Optimized Diffusion Model for Audio Super-Resolution
von: Kuznetsov, Nikita, et al.
Veröffentlicht: (2026)
von: Kuznetsov, Nikita, et al.
Veröffentlicht: (2026)
Bypassing Direct Reconstruction: Speech Detection from MEG via Large-Scale Audio Retrieval
von: Xiao, Boda, et al.
Veröffentlicht: (2026)
von: Xiao, Boda, et al.
Veröffentlicht: (2026)
Audio Hallucination Attacks: Probing the Reliability of Large Audio Language Models
von: Seth, Ashish, et al.
Veröffentlicht: (2026)
von: Seth, Ashish, et al.
Veröffentlicht: (2026)
Ähnliche Einträge
-
Cross-Modal Watermarking for Authentic Audio Recovery and Tamper Localization in Synthesized Audiovisual Forgeries
von: Kim, Minyoung, et al.
Veröffentlicht: (2025) -
Creative Text-to-Audio Generation via Synthesizer Programming
von: Cherep, Manuel, et al.
Veröffentlicht: (2024) -
TwinShift: Benchmarking Audio Deepfake Detection across Synthesizer and Speaker Shifts
von: Hong, Jiyoung, et al.
Veröffentlicht: (2025) -
SynthCloner: Synthesizer-style Audio Transfer via Factorized Codec with ADSR Envelope Control
von: Liu, Jeng-Yue, et al.
Veröffentlicht: (2025) -
A Novel Automatic Framework for Speaker Drift Detection in Synthesized Speech
von: Huang, Jia-Hong, et al.
Veröffentlicht: (2026)