Gespeichert in:
| Hauptverfasser: | Ye, Jashin, Wang, Dongxiao, Ye, Yixuan, Zhou, Sashuai, Lin, Weihuang, Han, Mingyang, Wang, Kunpeng, Yuan, Zeyu, Li, Boyu, Shi, Haoxiang, Shu, Jingchen, Song, Jun, Zheng, Bo |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2605.27976 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Prosody-Adaptable Audio Codecs for Zero-Shot Voice Conversion via In-Context Learning
von: Zhao, Junchuan, et al.
Veröffentlicht: (2025)
von: Zhao, Junchuan, et al.
Veröffentlicht: (2025)
AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs
von: He, Peize, et al.
Veröffentlicht: (2025)
von: He, Peize, et al.
Veröffentlicht: (2025)
VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
von: Zhan, Jun, et al.
Veröffentlicht: (2025)
von: Zhan, Jun, et al.
Veröffentlicht: (2025)
VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning
von: Zhou, Yixuan, et al.
Veröffentlicht: (2025)
von: Zhou, Yixuan, et al.
Veröffentlicht: (2025)
Jointly Recognizing Speech and Singing Voices Based on Multi-Task Audio Source Separation
von: Bai, Ye, et al.
Veröffentlicht: (2024)
von: Bai, Ye, et al.
Veröffentlicht: (2024)
ChronosAudio: A Comprehensive Long-Audio Benchmark for Evaluating Audio-Large Language Models
von: Luo, Kaiwen, et al.
Veröffentlicht: (2026)
von: Luo, Kaiwen, et al.
Veröffentlicht: (2026)
T2A-Feedback: Improving Basic Capabilities of Text-to-Audio Generation via Fine-grained AI Feedback
von: Wang, Zehan, et al.
Veröffentlicht: (2025)
von: Wang, Zehan, et al.
Veröffentlicht: (2025)
AudioChat: Unified Audio Storytelling, Editing, and Understanding with Transfusion Forcing
von: Chen, William, et al.
Veröffentlicht: (2026)
von: Chen, William, et al.
Veröffentlicht: (2026)
Words at Play: Benchmarking Audio Pun Understanding in Large Audio-Language Models
von: Su, Yuchen, et al.
Veröffentlicht: (2026)
von: Su, Yuchen, et al.
Veröffentlicht: (2026)
SOVA-Bench: Benchmarking the Speech Conversation Ability for LLM-based Voice Assistant
von: Hou, Yixuan, et al.
Veröffentlicht: (2025)
von: Hou, Yixuan, et al.
Veröffentlicht: (2025)
Extending Audio Context for Long-Form Understanding in Large Audio-Language Models
von: Chaichana, Yuatyong, et al.
Veröffentlicht: (2025)
von: Chaichana, Yuatyong, et al.
Veröffentlicht: (2025)
AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning
von: Chen, Liyang, et al.
Veröffentlicht: (2026)
von: Chen, Liyang, et al.
Veröffentlicht: (2026)
Disentangling the Prosody and Semantic Information with Pre-trained Model for In-Context Learning based Zero-Shot Voice Conversion
von: Chen, Zhengyang, et al.
Veröffentlicht: (2024)
von: Chen, Zhengyang, et al.
Veröffentlicht: (2024)
JoyVoice: Long-Context Conditioning for Anthropomorphic Multi-Speaker Conversational Synthesis
von: Yu, Fan, et al.
Veröffentlicht: (2025)
von: Yu, Fan, et al.
Veröffentlicht: (2025)
SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases
von: Iyer, Laya, et al.
Veröffentlicht: (2026)
von: Iyer, Laya, et al.
Veröffentlicht: (2026)
Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs
von: Yin, Han, et al.
Veröffentlicht: (2025)
von: Yin, Han, et al.
Veröffentlicht: (2025)
VidAudio-Bench: Benchmarking V2A and VT2A Generation across Four Audio Categories
von: Zhang, Qian, et al.
Veröffentlicht: (2026)
von: Zhang, Qian, et al.
Veröffentlicht: (2026)
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models
von: Gao, Kuofeng, et al.
Veröffentlicht: (2024)
von: Gao, Kuofeng, et al.
Veröffentlicht: (2024)
SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents
von: Xie, Zeyu, et al.
Veröffentlicht: (2026)
von: Xie, Zeyu, et al.
Veröffentlicht: (2026)
MMEDIT: A Unified Framework for Multi-Type Audio Editing via Audio Language Model
von: Tao, Ye, et al.
Veröffentlicht: (2025)
von: Tao, Ye, et al.
Veröffentlicht: (2025)
LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech
von: Yang, Fei, et al.
Veröffentlicht: (2026)
von: Yang, Fei, et al.
Veröffentlicht: (2026)
UniFlow-Audio: Unified Flow Matching for Audio Generation from Omni-Modalities
von: Xu, Xuenan, et al.
Veröffentlicht: (2025)
von: Xu, Xuenan, et al.
Veröffentlicht: (2025)
LCB-net: Long-Context Biasing for Audio-Visual Speech Recognition
von: Yu, Fan, et al.
Veröffentlicht: (2024)
von: Yu, Fan, et al.
Veröffentlicht: (2024)
Self Voice Conversion as an Attack against Neural Audio Watermarking
von: Özer, Yigitcan, et al.
Veröffentlicht: (2026)
von: Özer, Yigitcan, et al.
Veröffentlicht: (2026)
Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
von: Song, Zirui, et al.
Veröffentlicht: (2025)
von: Song, Zirui, et al.
Veröffentlicht: (2025)
AudioTime: A Temporally-aligned Audio-text Benchmark Dataset
von: Xie, Zeyu, et al.
Veröffentlicht: (2024)
von: Xie, Zeyu, et al.
Veröffentlicht: (2024)
Efficient Long-Form Speech Recognition for General Speech In-Context Learning
von: Yen, Hao, et al.
Veröffentlicht: (2024)
von: Yen, Hao, et al.
Veröffentlicht: (2024)
Audio-Mind: An Auditable Agentic Framework for Audio Understanding
von: Wang, Yucheng, et al.
Veröffentlicht: (2026)
von: Wang, Yucheng, et al.
Veröffentlicht: (2026)
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion
von: Wang, Zhichao, et al.
Veröffentlicht: (2024)
von: Wang, Zhichao, et al.
Veröffentlicht: (2024)
IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
von: Deng, Wei, et al.
Veröffentlicht: (2025)
von: Deng, Wei, et al.
Veröffentlicht: (2025)
STAR: Speech-to-Audio Generation via Representation Learning
von: Xie, Zeyu, et al.
Veröffentlicht: (2025)
von: Xie, Zeyu, et al.
Veröffentlicht: (2025)
RVCBench: Benchmarking the Robustness of Voice Cloning Across Modern Audio Generation Models
von: Jin, Ruinan, et al.
Veröffentlicht: (2026)
von: Jin, Ruinan, et al.
Veröffentlicht: (2026)
ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood
von: Feng, Tiantian, et al.
Veröffentlicht: (2026)
von: Feng, Tiantian, et al.
Veröffentlicht: (2026)
StyleBreak: Revealing Alignment Vulnerabilities in Large Audio-Language Models via Style-Aware Audio Jailbreak
von: Li, Hongyi, et al.
Veröffentlicht: (2025)
von: Li, Hongyi, et al.
Veröffentlicht: (2025)
XGC-AVis: Towards Audio-Visual Content Understanding with a Multi-Agent Collaborative System
von: Cao, Yuqin, et al.
Veröffentlicht: (2025)
von: Cao, Yuqin, et al.
Veröffentlicht: (2025)
LongCat-Audio-Codec: An Audio Tokenizer and Detokenizer Solution Designed for Speech Large Language Models
von: Zhao, Xiaohan, et al.
Veröffentlicht: (2025)
von: Zhao, Xiaohan, et al.
Veröffentlicht: (2025)
Voices of Civilizations: A Multilingual QA Benchmark for Global Music Understanding
von: Wu, Shangda, et al.
Veröffentlicht: (2026)
von: Wu, Shangda, et al.
Veröffentlicht: (2026)
VoiceWukong: Benchmarking Deepfake Voice Detection
von: Yan, Ziwei, et al.
Veröffentlicht: (2024)
von: Yan, Ziwei, et al.
Veröffentlicht: (2024)
Unlocking Large Audio-Language Models for Interactive Language Learning
von: Liu, Hongfu, et al.
Veröffentlicht: (2026)
von: Liu, Hongfu, et al.
Veröffentlicht: (2026)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
von: An, Keyu, et al.
Veröffentlicht: (2024)
von: An, Keyu, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Prosody-Adaptable Audio Codecs for Zero-Shot Voice Conversion via In-Context Learning
von: Zhao, Junchuan, et al.
Veröffentlicht: (2025) -
AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs
von: He, Peize, et al.
Veröffentlicht: (2025) -
VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
von: Zhan, Jun, et al.
Veröffentlicht: (2025) -
VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning
von: Zhou, Yixuan, et al.
Veröffentlicht: (2025) -
Jointly Recognizing Speech and Singing Voices Based on Multi-Task Audio Source Separation
von: Bai, Ye, et al.
Veröffentlicht: (2024)