:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Sun, Bochao, Xiao, Yang, Yin, Han
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Sound
Accesso online:	https://arxiv.org/abs/2601.06829
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation
di: Foo, Leonardo Haw-Yang, et al.
Pubblicazione: (2026)

AudioMoG: Guiding Audio Generation with Mixture-of-Guidance
di: Wang, Junyou, et al.
Pubblicazione: (2025)

AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation
di: Wang, Hui, et al.
Pubblicazione: (2025)

Exploring Text-Queried Sound Event Detection with Audio Source Separation
di: Yin, Han, et al.
Pubblicazione: (2024)

MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
di: Cappellazzo, Umberto, et al.
Pubblicazione: (2025)

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization
di: Yang, Dongchao, et al.
Pubblicazione: (2026)

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders
di: Zhang, Wenyu, et al.
Pubblicazione: (2024)

MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts
di: Lou, Yuxuan, et al.
Pubblicazione: (2026)

MoLEx: Mixture of LoRA Experts in Speech Self-Supervised Models for Audio Deepfake Detection
di: Pan, Zihan, et al.
Pubblicazione: (2025)

AudioLCM: Text-to-Audio Generation with Latent Consistency Models
di: Liu, Huadai, et al.
Pubblicazione: (2024)

Steer-MoE: Efficient Audio-Language Alignment with a Mixture-of-Experts Steering Module
di: Feng, Ruitao, et al.
Pubblicazione: (2025)

AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion
di: Zhao, Junqi, et al.
Pubblicazione: (2025)

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text
di: Mei, Jiahao, et al.
Pubblicazione: (2026)

AudioGenX: Explainability on Text-to-Audio Generative Models
di: Kang, Hyunju, et al.
Pubblicazione: (2025)

When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models
di: Li, Chen-An, et al.
Pubblicazione: (2025)

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models
di: Yin, Han, et al.
Pubblicazione: (2026)

AudioSpa: Spatializing Sound Events with Text
di: Feng, Linfeng, et al.
Pubblicazione: (2025)

TAIL: Text-Audio Incremental Learning
di: Sun, Yingfei, et al.
Pubblicazione: (2025)

Causal Tracing of Audio-Text Fusion in Large Audio Language Models
di: Chen, Wei-Chih, et al.
Pubblicazione: (2026)

MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows
di: Li, Xiquan, et al.
Pubblicazione: (2025)

FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation
di: Liu, Huadai, et al.
Pubblicazione: (2024)

TTA-Bench: A Comprehensive Benchmark for Evaluating Text-to-Audio Models
di: Wang, Hui, et al.
Pubblicazione: (2025)

Evaluating Semantic Fragility in Text-to-Audio Generation Systems Under Controlled Prompt Perturbations
di: Wu, Jiahui
Pubblicazione: (2026)

EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer
di: Hai, Jiarui, et al.
Pubblicazione: (2024)

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval
di: Yoo, HaeJun, et al.
Pubblicazione: (2026)

DreamAudio: Customized Text-to-Audio Generation with Diffusion Models
di: Yuan, Yi, et al.
Pubblicazione: (2025)

Refining Pseudo-Audio Prompts with Speech-Text Alignment for Text-Only Domain Adaptation in LLM-Based ASR
di: Magoshi, Ryo, et al.
Pubblicazione: (2026)

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling
di: Xie, Hao-Hui, et al.
Pubblicazione: (2026)

Resonate: Reinforcing Text-to-Audio Generation via Online Feedback from Large Audio Language Models
di: Li, Xiquan, et al.
Pubblicazione: (2026)

BATON: Aligning Text-to-Audio Model with Human Preference Feedback
di: Liao, Huan, et al.
Pubblicazione: (2024)

Comparative Evaluation of Text and Audio Simplification: A Methodological Replication Study
di: Barai, Prosanta, et al.
Pubblicazione: (2025)

PhyAVBench: A Challenging Audio Physics-Sensitivity Benchmark for Physically Grounded Text-to-Audio-Video Generation
di: Xie, Tianxin, et al.
Pubblicazione: (2025)

Scaling Audio-Text Retrieval with Multimodal Large Language Models
di: Xu, Jilan, et al.
Pubblicazione: (2026)

Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs
di: Yin, Han, et al.
Pubblicazione: (2025)

The T12 System for AudioMOS Challenge 2025: Audio Aesthetics Score Prediction System Using KAN- and VERSA-based Models
di: Yamamoto, Katsuhiko, et al.
Pubblicazione: (2025)

Cacophony: An Improved Contrastive Audio-Text Model
di: Zhu, Ge, et al.
Pubblicazione: (2024)

Enhancing Crowdsourced Audio for Text-to-Speech Models
di: Giraldo, José, et al.
Pubblicazione: (2024)

Towards Weakly Supervised Text-to-Audio Grounding
di: Xu, Xuenan, et al.
Pubblicazione: (2024)

Precise and Simple Audio-to-Score Alignment
di: Peter, Silvan, et al.
Pubblicazione: (2026)

ChronosAudio: A Comprehensive Long-Audio Benchmark for Evaluating Audio-Large Language Models
di: Luo, Kaiwen, et al.
Pubblicazione: (2026)