Salvato in:
| Autori principali: | Guo, Zhihan, Cui, Wenqian, Lin, Guan-Ting, Tan, Daxin, Li, Jingyao, Zheng, Qiyong, Wang, Dingdong, Xiong, Jing, Shi, Han, Jia, Jiaya, King, Irwin |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2605.21008 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM
di: Cui, Wenqian, et al.
Pubblicazione: (2026)
di: Cui, Wenqian, et al.
Pubblicazione: (2026)
TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving
di: Cui, Wenqian, et al.
Pubblicazione: (2025)
di: Cui, Wenqian, et al.
Pubblicazione: (2025)
VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models
di: Cui, Wenqian, et al.
Pubblicazione: (2025)
di: Cui, Wenqian, et al.
Pubblicazione: (2025)
Recent Advances in Speech Language Models: A Survey
di: Cui, Wenqian, et al.
Pubblicazione: (2024)
di: Cui, Wenqian, et al.
Pubblicazione: (2024)
Exploring SSL Discrete Tokens for Multilingual ASR
di: Cui, Mingyu, et al.
Pubblicazione: (2024)
di: Cui, Mingyu, et al.
Pubblicazione: (2024)
ToneUnit: A Speech Discretization Approach for Tonal Language Speech Synthesis
di: Tao, Dehua, et al.
Pubblicazione: (2024)
di: Tao, Dehua, et al.
Pubblicazione: (2024)
V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation
di: Chan, Nolan, et al.
Pubblicazione: (2026)
di: Chan, Nolan, et al.
Pubblicazione: (2026)
UniAudio: An Audio Foundation Model Toward Universal Audio Generation
di: Yang, Dongchao, et al.
Pubblicazione: (2023)
di: Yang, Dongchao, et al.
Pubblicazione: (2023)
MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models
di: Zhang, He, et al.
Pubblicazione: (2025)
di: Zhang, He, et al.
Pubblicazione: (2025)
PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio
di: Chen, Yuanjian, et al.
Pubblicazione: (2026)
di: Chen, Yuanjian, et al.
Pubblicazione: (2026)
Enhancing Code-switched Text-to-Speech Synthesis Capability in Large Language Models with only Monolingual Corpora
di: Xu, Jing, et al.
Pubblicazione: (2024)
di: Xu, Jing, et al.
Pubblicazione: (2024)
Interpretable Audio Editing Evaluation via Chain-of-Thought Difference-Commonality Reasoning with Multimodal LLMs
di: Jia, Yuhang, et al.
Pubblicazione: (2025)
di: Jia, Yuhang, et al.
Pubblicazione: (2025)
Decoding Ambiguous Emotions with Test-Time Scaling in Audio-Language Models
di: Jia, Hong, et al.
Pubblicazione: (2026)
di: Jia, Hong, et al.
Pubblicazione: (2026)
MoodLoopGP: Generating Emotion-Conditioned Loop Tablature Music with Multi-Granular Features
di: Cui, Wenqian, et al.
Pubblicazione: (2024)
di: Cui, Wenqian, et al.
Pubblicazione: (2024)
Audio Entailment: Assessing Deductive Reasoning for Audio Understanding
di: Deshmukh, Soham, et al.
Pubblicazione: (2024)
di: Deshmukh, Soham, et al.
Pubblicazione: (2024)
A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models
di: Wang, Dingdong, et al.
Pubblicazione: (2024)
di: Wang, Dingdong, et al.
Pubblicazione: (2024)
Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models
di: Tao, Dehua, et al.
Pubblicazione: (2026)
di: Tao, Dehua, et al.
Pubblicazione: (2026)
Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models
di: Li, Longhao, et al.
Pubblicazione: (2026)
di: Li, Longhao, et al.
Pubblicazione: (2026)
SpeechEditBench: A Bilingual Multi-Attribute Benchmark for Instruction-Guided Speech Editing
di: Zhang, Hanlin, et al.
Pubblicazione: (2026)
di: Zhang, Hanlin, et al.
Pubblicazione: (2026)
NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction
di: Wang, Qichao, et al.
Pubblicazione: (2025)
di: Wang, Qichao, et al.
Pubblicazione: (2025)
UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
di: Shi, Qundong, et al.
Pubblicazione: (2026)
di: Shi, Qundong, et al.
Pubblicazione: (2026)
MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models
di: Gong, Yitian, et al.
Pubblicazione: (2026)
di: Gong, Yitian, et al.
Pubblicazione: (2026)
From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs
di: Jia, Yuhang, et al.
Pubblicazione: (2025)
di: Jia, Yuhang, et al.
Pubblicazione: (2025)
Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
di: Yu, Xiaofeng, et al.
Pubblicazione: (2026)
di: Yu, Xiaofeng, et al.
Pubblicazione: (2026)
BANC: Towards Efficient Binaural Audio Neural Codec for Overlapping Speech
di: Ratnarajah, Anton, et al.
Pubblicazione: (2023)
di: Ratnarajah, Anton, et al.
Pubblicazione: (2023)
Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model
di: Chen, Gehui, et al.
Pubblicazione: (2024)
di: Chen, Gehui, et al.
Pubblicazione: (2024)
Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models
di: Zhang, Jing-Xuan, et al.
Pubblicazione: (2025)
di: Zhang, Jing-Xuan, et al.
Pubblicazione: (2025)
MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model
di: Gong, Jingyao
Pubblicazione: (2026)
di: Gong, Jingyao
Pubblicazione: (2026)
AudioLog: LLMs-Powered Long Audio Logging with Hybrid Token-Semantic Contrastive Learning
di: Bai, Jisheng, et al.
Pubblicazione: (2023)
di: Bai, Jisheng, et al.
Pubblicazione: (2023)
A Novel Markovian Framework for Integrating Absolute and Relative Ordinal Emotion Information
di: Wu, Jingyao, et al.
Pubblicazione: (2021)
di: Wu, Jingyao, et al.
Pubblicazione: (2021)
MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark
di: Wang, Dingdong, et al.
Pubblicazione: (2025)
di: Wang, Dingdong, et al.
Pubblicazione: (2025)
Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization on Long Audio
di: Shi, Mohan, et al.
Pubblicazione: (2025)
di: Shi, Mohan, et al.
Pubblicazione: (2025)
Adapting Speech Foundation Models for Unified Multimodal Speech Recognition with Large Language Models
di: Zhang, Jing-Xuan, et al.
Pubblicazione: (2025)
di: Zhang, Jing-Xuan, et al.
Pubblicazione: (2025)
SimpleSpeech: Towards Simple and Efficient Text-to-Speech with Scalar Latent Transformer Diffusion Models
di: Yang, Dongchao, et al.
Pubblicazione: (2024)
di: Yang, Dongchao, et al.
Pubblicazione: (2024)
Enhancing Situational Awareness in Wearable Audio Devices Using a Lightweight Sound Event Localization and Detection System
di: Yeow, Jun-Wei, et al.
Pubblicazione: (2025)
di: Yeow, Jun-Wei, et al.
Pubblicazione: (2025)
Step-Audio-R1.5 Technical Report
di: Zhang, Yuxin, et al.
Pubblicazione: (2026)
di: Zhang, Yuxin, et al.
Pubblicazione: (2026)
Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
di: Shi, Pujin, et al.
Pubblicazione: (2024)
di: Shi, Pujin, et al.
Pubblicazione: (2024)
SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation
di: Wang, Helin, et al.
Pubblicazione: (2026)
di: Wang, Helin, et al.
Pubblicazione: (2026)
AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval
di: Lin, Jingru, et al.
Pubblicazione: (2026)
di: Lin, Jingru, et al.
Pubblicazione: (2026)
Towards Multimodal Query-Based Spatial Audio Source Extraction
di: Yu, Chenxin, et al.
Pubblicazione: (2025)
di: Yu, Chenxin, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM
di: Cui, Wenqian, et al.
Pubblicazione: (2026) -
TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving
di: Cui, Wenqian, et al.
Pubblicazione: (2025) -
VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models
di: Cui, Wenqian, et al.
Pubblicazione: (2025) -
Recent Advances in Speech Language Models: A Survey
di: Cui, Wenqian, et al.
Pubblicazione: (2024) -
Exploring SSL Discrete Tokens for Multilingual ASR
di: Cui, Mingyu, et al.
Pubblicazione: (2024)