Salvato in:
| Autori principali: | Sun, Bochao, Xiao, Yang, Yin, Han |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2601.06829 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation
di: Foo, Leonardo Haw-Yang, et al.
Pubblicazione: (2026)
di: Foo, Leonardo Haw-Yang, et al.
Pubblicazione: (2026)
AudioMoG: Guiding Audio Generation with Mixture-of-Guidance
di: Wang, Junyou, et al.
Pubblicazione: (2025)
di: Wang, Junyou, et al.
Pubblicazione: (2025)
AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation
di: Wang, Hui, et al.
Pubblicazione: (2025)
di: Wang, Hui, et al.
Pubblicazione: (2025)
Exploring Text-Queried Sound Event Detection with Audio Source Separation
di: Yin, Han, et al.
Pubblicazione: (2024)
di: Yin, Han, et al.
Pubblicazione: (2024)
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
di: Cappellazzo, Umberto, et al.
Pubblicazione: (2025)
di: Cappellazzo, Umberto, et al.
Pubblicazione: (2025)
UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization
di: Yang, Dongchao, et al.
Pubblicazione: (2026)
di: Yang, Dongchao, et al.
Pubblicazione: (2026)
MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders
di: Zhang, Wenyu, et al.
Pubblicazione: (2024)
di: Zhang, Wenyu, et al.
Pubblicazione: (2024)
MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts
di: Lou, Yuxuan, et al.
Pubblicazione: (2026)
di: Lou, Yuxuan, et al.
Pubblicazione: (2026)
MoLEx: Mixture of LoRA Experts in Speech Self-Supervised Models for Audio Deepfake Detection
di: Pan, Zihan, et al.
Pubblicazione: (2025)
di: Pan, Zihan, et al.
Pubblicazione: (2025)
AudioLCM: Text-to-Audio Generation with Latent Consistency Models
di: Liu, Huadai, et al.
Pubblicazione: (2024)
di: Liu, Huadai, et al.
Pubblicazione: (2024)
Steer-MoE: Efficient Audio-Language Alignment with a Mixture-of-Experts Steering Module
di: Feng, Ruitao, et al.
Pubblicazione: (2025)
di: Feng, Ruitao, et al.
Pubblicazione: (2025)
AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion
di: Zhao, Junqi, et al.
Pubblicazione: (2025)
di: Zhao, Junqi, et al.
Pubblicazione: (2025)
Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text
di: Mei, Jiahao, et al.
Pubblicazione: (2026)
di: Mei, Jiahao, et al.
Pubblicazione: (2026)
AudioGenX: Explainability on Text-to-Audio Generative Models
di: Kang, Hyunju, et al.
Pubblicazione: (2025)
di: Kang, Hyunju, et al.
Pubblicazione: (2025)
When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models
di: Li, Chen-An, et al.
Pubblicazione: (2025)
di: Li, Chen-An, et al.
Pubblicazione: (2025)
Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models
di: Yin, Han, et al.
Pubblicazione: (2026)
di: Yin, Han, et al.
Pubblicazione: (2026)
AudioSpa: Spatializing Sound Events with Text
di: Feng, Linfeng, et al.
Pubblicazione: (2025)
di: Feng, Linfeng, et al.
Pubblicazione: (2025)
TAIL: Text-Audio Incremental Learning
di: Sun, Yingfei, et al.
Pubblicazione: (2025)
di: Sun, Yingfei, et al.
Pubblicazione: (2025)
Causal Tracing of Audio-Text Fusion in Large Audio Language Models
di: Chen, Wei-Chih, et al.
Pubblicazione: (2026)
di: Chen, Wei-Chih, et al.
Pubblicazione: (2026)
MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows
di: Li, Xiquan, et al.
Pubblicazione: (2025)
di: Li, Xiquan, et al.
Pubblicazione: (2025)
FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation
di: Liu, Huadai, et al.
Pubblicazione: (2024)
di: Liu, Huadai, et al.
Pubblicazione: (2024)
TTA-Bench: A Comprehensive Benchmark for Evaluating Text-to-Audio Models
di: Wang, Hui, et al.
Pubblicazione: (2025)
di: Wang, Hui, et al.
Pubblicazione: (2025)
Evaluating Semantic Fragility in Text-to-Audio Generation Systems Under Controlled Prompt Perturbations
di: Wu, Jiahui
Pubblicazione: (2026)
di: Wu, Jiahui
Pubblicazione: (2026)
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer
di: Hai, Jiarui, et al.
Pubblicazione: (2024)
di: Hai, Jiarui, et al.
Pubblicazione: (2024)
Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval
di: Yoo, HaeJun, et al.
Pubblicazione: (2026)
di: Yoo, HaeJun, et al.
Pubblicazione: (2026)
DreamAudio: Customized Text-to-Audio Generation with Diffusion Models
di: Yuan, Yi, et al.
Pubblicazione: (2025)
di: Yuan, Yi, et al.
Pubblicazione: (2025)
Refining Pseudo-Audio Prompts with Speech-Text Alignment for Text-Only Domain Adaptation in LLM-Based ASR
di: Magoshi, Ryo, et al.
Pubblicazione: (2026)
di: Magoshi, Ryo, et al.
Pubblicazione: (2026)
TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling
di: Xie, Hao-Hui, et al.
Pubblicazione: (2026)
di: Xie, Hao-Hui, et al.
Pubblicazione: (2026)
Resonate: Reinforcing Text-to-Audio Generation via Online Feedback from Large Audio Language Models
di: Li, Xiquan, et al.
Pubblicazione: (2026)
di: Li, Xiquan, et al.
Pubblicazione: (2026)
BATON: Aligning Text-to-Audio Model with Human Preference Feedback
di: Liao, Huan, et al.
Pubblicazione: (2024)
di: Liao, Huan, et al.
Pubblicazione: (2024)
Comparative Evaluation of Text and Audio Simplification: A Methodological Replication Study
di: Barai, Prosanta, et al.
Pubblicazione: (2025)
di: Barai, Prosanta, et al.
Pubblicazione: (2025)
PhyAVBench: A Challenging Audio Physics-Sensitivity Benchmark for Physically Grounded Text-to-Audio-Video Generation
di: Xie, Tianxin, et al.
Pubblicazione: (2025)
di: Xie, Tianxin, et al.
Pubblicazione: (2025)
Scaling Audio-Text Retrieval with Multimodal Large Language Models
di: Xu, Jilan, et al.
Pubblicazione: (2026)
di: Xu, Jilan, et al.
Pubblicazione: (2026)
Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs
di: Yin, Han, et al.
Pubblicazione: (2025)
di: Yin, Han, et al.
Pubblicazione: (2025)
The T12 System for AudioMOS Challenge 2025: Audio Aesthetics Score Prediction System Using KAN- and VERSA-based Models
di: Yamamoto, Katsuhiko, et al.
Pubblicazione: (2025)
di: Yamamoto, Katsuhiko, et al.
Pubblicazione: (2025)
Cacophony: An Improved Contrastive Audio-Text Model
di: Zhu, Ge, et al.
Pubblicazione: (2024)
di: Zhu, Ge, et al.
Pubblicazione: (2024)
Enhancing Crowdsourced Audio for Text-to-Speech Models
di: Giraldo, José, et al.
Pubblicazione: (2024)
di: Giraldo, José, et al.
Pubblicazione: (2024)
Towards Weakly Supervised Text-to-Audio Grounding
di: Xu, Xuenan, et al.
Pubblicazione: (2024)
di: Xu, Xuenan, et al.
Pubblicazione: (2024)
Precise and Simple Audio-to-Score Alignment
di: Peter, Silvan, et al.
Pubblicazione: (2026)
di: Peter, Silvan, et al.
Pubblicazione: (2026)
ChronosAudio: A Comprehensive Long-Audio Benchmark for Evaluating Audio-Large Language Models
di: Luo, Kaiwen, et al.
Pubblicazione: (2026)
di: Luo, Kaiwen, et al.
Pubblicazione: (2026)
Documenti analoghi
-
All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation
di: Foo, Leonardo Haw-Yang, et al.
Pubblicazione: (2026) -
AudioMoG: Guiding Audio Generation with Mixture-of-Guidance
di: Wang, Junyou, et al.
Pubblicazione: (2025) -
AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation
di: Wang, Hui, et al.
Pubblicazione: (2025) -
Exploring Text-Queried Sound Event Detection with Audio Source Separation
di: Yin, Han, et al.
Pubblicazione: (2024) -
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
di: Cappellazzo, Umberto, et al.
Pubblicazione: (2025)