Gespeichert in:
| Hauptverfasser: | Liu, Hongfu, Cui, Zhouying, Gu, Xiangming, Wang, Ye |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2601.14744 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
ALLM4ADD: Unlocking the Capabilities of Audio Large Language Models for Audio Deepfake Detection
von: Gu, Hao, et al.
Veröffentlicht: (2025)
von: Gu, Hao, et al.
Veröffentlicht: (2025)
The Interspeech 2026 Audio Encoder Capability Challenge for Large Audio Language Models
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2026)
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2026)
LongCat-Audio-Codec: An Audio Tokenizer and Detokenizer Solution Designed for Speech Large Language Models
von: Zhao, Xiaohan, et al.
Veröffentlicht: (2025)
von: Zhao, Xiaohan, et al.
Veröffentlicht: (2025)
Can Large Language Models Understand Spatial Audio?
von: Tang, Changli, et al.
Veröffentlicht: (2024)
von: Tang, Changli, et al.
Veröffentlicht: (2024)
Pengi: An Audio Language Model for Audio Tasks
von: Deshmukh, Soham, et al.
Veröffentlicht: (2023)
von: Deshmukh, Soham, et al.
Veröffentlicht: (2023)
Can Audio Large Language Models Verify Speaker Identity?
von: Ren, Yiming, et al.
Veröffentlicht: (2025)
von: Ren, Yiming, et al.
Veröffentlicht: (2025)
UniAudio 1.5: Large Language Model-driven Audio Codec is A Few-shot Audio Task Learner
von: Yang, Dongchao, et al.
Veröffentlicht: (2024)
von: Yang, Dongchao, et al.
Veröffentlicht: (2024)
PAM: Prompting Audio-Language Models for Audio Quality Assessment
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)
Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
von: Song, Zirui, et al.
Veröffentlicht: (2025)
von: Song, Zirui, et al.
Veröffentlicht: (2025)
Continuous Audio Language Models
von: Rouard, Simon, et al.
Veröffentlicht: (2025)
von: Rouard, Simon, et al.
Veröffentlicht: (2025)
AudioBench: A Universal Benchmark for Audio Large Language Models
von: Wang, Bin, et al.
Veröffentlicht: (2024)
von: Wang, Bin, et al.
Veröffentlicht: (2024)
Advancing Test-Time Adaptation in Wild Acoustic Test Settings
von: Liu, Hongfu, et al.
Veröffentlicht: (2023)
von: Liu, Hongfu, et al.
Veröffentlicht: (2023)
A Reference-free Metric for Language-Queried Audio Source Separation using Contrastive Language-Audio Pretraining
von: Xiao, Feiyang, et al.
Veröffentlicht: (2024)
von: Xiao, Feiyang, et al.
Veröffentlicht: (2024)
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders
von: Shan, Weiqiao, et al.
Veröffentlicht: (2025)
von: Shan, Weiqiao, et al.
Veröffentlicht: (2025)
A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech Recognition
von: Li, Yangze, et al.
Veröffentlicht: (2024)
von: Li, Yangze, et al.
Veröffentlicht: (2024)
Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding
von: Liu, Jizhong, et al.
Veröffentlicht: (2024)
von: Liu, Jizhong, et al.
Veröffentlicht: (2024)
Domain Adaptation for Contrastive Audio-Language Models
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)
FLAM: Frame-Wise Language-Audio Modeling
von: Wu, Yusong, et al.
Veröffentlicht: (2025)
von: Wu, Yusong, et al.
Veröffentlicht: (2025)
MATS: An Audio Language Model under Text-only Supervision
von: Wang, Wen, et al.
Veröffentlicht: (2025)
von: Wang, Wen, et al.
Veröffentlicht: (2025)
Attention-weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied to Speech Emotion Recognition
von: Yang, Qingran, et al.
Veröffentlicht: (2026)
von: Yang, Qingran, et al.
Veröffentlicht: (2026)
Investigating Neural Audio Codecs for Speech Language Model-Based Speech Generation
von: Li, Jiaqi, et al.
Veröffentlicht: (2024)
von: Li, Jiaqi, et al.
Veröffentlicht: (2024)
Can Large Language Models Predict Audio Effects Parameters from Natural Language?
von: Doh, Seungheon, et al.
Veröffentlicht: (2025)
von: Doh, Seungheon, et al.
Veröffentlicht: (2025)
Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model
von: Chen, Gehui, et al.
Veröffentlicht: (2024)
von: Chen, Gehui, et al.
Veröffentlicht: (2024)
The TMU System for the XACLE Challenge: Training Large Audio Language Models with CLAP Pseudo-Labels
von: Tsutsumi, Ayuto, et al.
Veröffentlicht: (2026)
von: Tsutsumi, Ayuto, et al.
Veröffentlicht: (2026)
AudioComposer: Towards Fine-grained Audio Generation with Natural Language Descriptions
von: Wang, Yuanyuan, et al.
Veröffentlicht: (2024)
von: Wang, Yuanyuan, et al.
Veröffentlicht: (2024)
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
von: Wang, Helin, et al.
Veröffentlicht: (2024)
von: Wang, Helin, et al.
Veröffentlicht: (2024)
UniSep: Universal Target Audio Separation with Language Models at Scale
von: Wang, Yuanyuan, et al.
Veröffentlicht: (2025)
von: Wang, Yuanyuan, et al.
Veröffentlicht: (2025)
Enhancing Zero-shot Audio Classification using Sound Attribute Knowledge from Large Language Models
von: Xu, Xuenan, et al.
Veröffentlicht: (2024)
von: Xu, Xuenan, et al.
Veröffentlicht: (2024)
LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models
von: Zhao, Zhiyuan, et al.
Veröffentlicht: (2026)
von: Zhao, Zhiyuan, et al.
Veröffentlicht: (2026)
Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model
von: Huang, Ailin, et al.
Veröffentlicht: (2025)
von: Huang, Ailin, et al.
Veröffentlicht: (2025)
Analyzing and Mitigating Inconsistency in Discrete Audio Tokens for Neural Codec Language Models
von: Liu, Wenrui, et al.
Veröffentlicht: (2024)
von: Liu, Wenrui, et al.
Veröffentlicht: (2024)
Natural Language Supervision for General-Purpose Audio Representations
von: Elizalde, Benjamin, et al.
Veröffentlicht: (2023)
von: Elizalde, Benjamin, et al.
Veröffentlicht: (2023)
Direct Simultaneous Translation Activation for Large Audio-Language Models
von: Zhang, Pei, et al.
Veröffentlicht: (2025)
von: Zhang, Pei, et al.
Veröffentlicht: (2025)
Vision Language Models Are Few-Shot Audio Spectrogram Classifiers
von: Dixit, Satvik, et al.
Veröffentlicht: (2024)
von: Dixit, Satvik, et al.
Veröffentlicht: (2024)
LALM-as-a-Judge: Benchmarking Large Audio-Language Models for Safety Evaluation in Multi-Turn Spoken Dialogues
von: Ivry, Amir, et al.
Veröffentlicht: (2026)
von: Ivry, Amir, et al.
Veröffentlicht: (2026)
Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation
von: Wu, Yusong, et al.
Veröffentlicht: (2022)
von: Wu, Yusong, et al.
Veröffentlicht: (2022)
EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition
von: Li, Pengcheng, et al.
Veröffentlicht: (2025)
von: Li, Pengcheng, et al.
Veröffentlicht: (2025)
Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models
von: Sridhar, Arvind Krishna, et al.
Veröffentlicht: (2024)
von: Sridhar, Arvind Krishna, et al.
Veröffentlicht: (2024)
The Rhythm In Anything: Audio-Prompted Drums Generation with Masked Language Modeling
von: O'Reilly, Patrick, et al.
Veröffentlicht: (2025)
von: O'Reilly, Patrick, et al.
Veröffentlicht: (2025)
SALM: Spatial Audio Language Model with Structured Embeddings for Understanding and Editing
von: Hu, Jinbo, et al.
Veröffentlicht: (2025)
von: Hu, Jinbo, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
ALLM4ADD: Unlocking the Capabilities of Audio Large Language Models for Audio Deepfake Detection
von: Gu, Hao, et al.
Veröffentlicht: (2025) -
The Interspeech 2026 Audio Encoder Capability Challenge for Large Audio Language Models
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2026) -
LongCat-Audio-Codec: An Audio Tokenizer and Detokenizer Solution Designed for Speech Large Language Models
von: Zhao, Xiaohan, et al.
Veröffentlicht: (2025) -
Can Large Language Models Understand Spatial Audio?
von: Tang, Changli, et al.
Veröffentlicht: (2024) -
Pengi: An Audio Language Model for Audio Tasks
von: Deshmukh, Soham, et al.
Veröffentlicht: (2023)