:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Liu, Hongfu, Cui, Zhouying, Gu, Xiangming, Wang, Ye
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Sound Audio and Speech Processing
Online-Zugang:	https://arxiv.org/abs/2601.14744
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

ALLM4ADD: Unlocking the Capabilities of Audio Large Language Models for Audio Deepfake Detection
von: Gu, Hao, et al.
Veröffentlicht: (2025)

The Interspeech 2026 Audio Encoder Capability Challenge for Large Audio Language Models
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2026)

LongCat-Audio-Codec: An Audio Tokenizer and Detokenizer Solution Designed for Speech Large Language Models
von: Zhao, Xiaohan, et al.
Veröffentlicht: (2025)

Can Large Language Models Understand Spatial Audio?
von: Tang, Changli, et al.
Veröffentlicht: (2024)

Pengi: An Audio Language Model for Audio Tasks
von: Deshmukh, Soham, et al.
Veröffentlicht: (2023)

Can Audio Large Language Models Verify Speaker Identity?
von: Ren, Yiming, et al.
Veröffentlicht: (2025)

UniAudio 1.5: Large Language Model-driven Audio Codec is A Few-shot Audio Task Learner
von: Yang, Dongchao, et al.
Veröffentlicht: (2024)

PAM: Prompting Audio-Language Models for Audio Quality Assessment
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
von: Song, Zirui, et al.
Veröffentlicht: (2025)

Continuous Audio Language Models
von: Rouard, Simon, et al.
Veröffentlicht: (2025)

AudioBench: A Universal Benchmark for Audio Large Language Models
von: Wang, Bin, et al.
Veröffentlicht: (2024)

Advancing Test-Time Adaptation in Wild Acoustic Test Settings
von: Liu, Hongfu, et al.
Veröffentlicht: (2023)

A Reference-free Metric for Language-Queried Audio Source Separation using Contrastive Language-Audio Pretraining
von: Xiao, Feiyang, et al.
Veröffentlicht: (2024)

Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders
von: Shan, Weiqiao, et al.
Veröffentlicht: (2025)

A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech Recognition
von: Li, Yangze, et al.
Veröffentlicht: (2024)

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding
von: Liu, Jizhong, et al.
Veröffentlicht: (2024)

Domain Adaptation for Contrastive Audio-Language Models
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)

FLAM: Frame-Wise Language-Audio Modeling
von: Wu, Yusong, et al.
Veröffentlicht: (2025)

MATS: An Audio Language Model under Text-only Supervision
von: Wang, Wen, et al.
Veröffentlicht: (2025)

Attention-weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied to Speech Emotion Recognition
von: Yang, Qingran, et al.
Veröffentlicht: (2026)

Investigating Neural Audio Codecs for Speech Language Model-Based Speech Generation
von: Li, Jiaqi, et al.
Veröffentlicht: (2024)

Can Large Language Models Predict Audio Effects Parameters from Natural Language?
von: Doh, Seungheon, et al.
Veröffentlicht: (2025)

Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model
von: Chen, Gehui, et al.
Veröffentlicht: (2024)

The TMU System for the XACLE Challenge: Training Large Audio Language Models with CLAP Pseudo-Labels
von: Tsutsumi, Ayuto, et al.
Veröffentlicht: (2026)

AudioComposer: Towards Fine-grained Audio Generation with Natural Language Descriptions
von: Wang, Yuanyuan, et al.
Veröffentlicht: (2024)

SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
von: Wang, Helin, et al.
Veröffentlicht: (2024)

UniSep: Universal Target Audio Separation with Language Models at Scale
von: Wang, Yuanyuan, et al.
Veröffentlicht: (2025)

Enhancing Zero-shot Audio Classification using Sound Attribute Knowledge from Large Language Models
von: Xu, Xuenan, et al.
Veröffentlicht: (2024)

LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models
von: Zhao, Zhiyuan, et al.
Veröffentlicht: (2026)

Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model
von: Huang, Ailin, et al.
Veröffentlicht: (2025)

Analyzing and Mitigating Inconsistency in Discrete Audio Tokens for Neural Codec Language Models
von: Liu, Wenrui, et al.
Veröffentlicht: (2024)

Natural Language Supervision for General-Purpose Audio Representations
von: Elizalde, Benjamin, et al.
Veröffentlicht: (2023)

Direct Simultaneous Translation Activation for Large Audio-Language Models
von: Zhang, Pei, et al.
Veröffentlicht: (2025)

Vision Language Models Are Few-Shot Audio Spectrogram Classifiers
von: Dixit, Satvik, et al.
Veröffentlicht: (2024)

LALM-as-a-Judge: Benchmarking Large Audio-Language Models for Safety Evaluation in Multi-Turn Spoken Dialogues
von: Ivry, Amir, et al.
Veröffentlicht: (2026)

Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation
von: Wu, Yusong, et al.
Veröffentlicht: (2022)

EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition
von: Li, Pengcheng, et al.
Veröffentlicht: (2025)

Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models
von: Sridhar, Arvind Krishna, et al.
Veröffentlicht: (2024)

The Rhythm In Anything: Audio-Prompted Drums Generation with Masked Language Modeling
von: O'Reilly, Patrick, et al.
Veröffentlicht: (2025)

SALM: Spatial Audio Language Model with Structured Embeddings for Understanding and Editing
von: Hu, Jinbo, et al.
Veröffentlicht: (2025)