:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Guo, Zhihan, Cui, Wenqian, Lin, Guan-Ting, Tan, Daxin, Li, Jingyao, Zheng, Qiyong, Wang, Dingdong, Xiong, Jing, Shi, Han, Jia, Jiaya, King, Irwin
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2605.21008
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM
di: Cui, Wenqian, et al.
Pubblicazione: (2026)

TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving
di: Cui, Wenqian, et al.
Pubblicazione: (2025)

VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models
di: Cui, Wenqian, et al.
Pubblicazione: (2025)

Recent Advances in Speech Language Models: A Survey
di: Cui, Wenqian, et al.
Pubblicazione: (2024)

Exploring SSL Discrete Tokens for Multilingual ASR
di: Cui, Mingyu, et al.
Pubblicazione: (2024)

ToneUnit: A Speech Discretization Approach for Tonal Language Speech Synthesis
di: Tao, Dehua, et al.
Pubblicazione: (2024)

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation
di: Chan, Nolan, et al.
Pubblicazione: (2026)

UniAudio: An Audio Foundation Model Toward Universal Audio Generation
di: Yang, Dongchao, et al.
Pubblicazione: (2023)

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models
di: Zhang, He, et al.
Pubblicazione: (2025)

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio
di: Chen, Yuanjian, et al.
Pubblicazione: (2026)

Enhancing Code-switched Text-to-Speech Synthesis Capability in Large Language Models with only Monolingual Corpora
di: Xu, Jing, et al.
Pubblicazione: (2024)

Interpretable Audio Editing Evaluation via Chain-of-Thought Difference-Commonality Reasoning with Multimodal LLMs
di: Jia, Yuhang, et al.
Pubblicazione: (2025)

Decoding Ambiguous Emotions with Test-Time Scaling in Audio-Language Models
di: Jia, Hong, et al.
Pubblicazione: (2026)

MoodLoopGP: Generating Emotion-Conditioned Loop Tablature Music with Multi-Granular Features
di: Cui, Wenqian, et al.
Pubblicazione: (2024)

Audio Entailment: Assessing Deductive Reasoning for Audio Understanding
di: Deshmukh, Soham, et al.
Pubblicazione: (2024)

A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models
di: Wang, Dingdong, et al.
Pubblicazione: (2024)

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models
di: Tao, Dehua, et al.
Pubblicazione: (2026)

Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models
di: Li, Longhao, et al.
Pubblicazione: (2026)

SpeechEditBench: A Bilingual Multi-Attribute Benchmark for Instruction-Guided Speech Editing
di: Zhang, Hanlin, et al.
Pubblicazione: (2026)

NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction
di: Wang, Qichao, et al.
Pubblicazione: (2025)

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
di: Shi, Qundong, et al.
Pubblicazione: (2026)

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models
di: Gong, Yitian, et al.
Pubblicazione: (2026)

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs
di: Jia, Yuhang, et al.
Pubblicazione: (2025)

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
di: Yu, Xiaofeng, et al.
Pubblicazione: (2026)

BANC: Towards Efficient Binaural Audio Neural Codec for Overlapping Speech
di: Ratnarajah, Anton, et al.
Pubblicazione: (2023)

Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model
di: Chen, Gehui, et al.
Pubblicazione: (2024)

Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models
di: Zhang, Jing-Xuan, et al.
Pubblicazione: (2025)

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model
di: Gong, Jingyao
Pubblicazione: (2026)

AudioLog: LLMs-Powered Long Audio Logging with Hybrid Token-Semantic Contrastive Learning
di: Bai, Jisheng, et al.
Pubblicazione: (2023)

A Novel Markovian Framework for Integrating Absolute and Relative Ordinal Emotion Information
di: Wu, Jingyao, et al.
Pubblicazione: (2021)

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark
di: Wang, Dingdong, et al.
Pubblicazione: (2025)

Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization on Long Audio
di: Shi, Mohan, et al.
Pubblicazione: (2025)

Adapting Speech Foundation Models for Unified Multimodal Speech Recognition with Large Language Models
di: Zhang, Jing-Xuan, et al.
Pubblicazione: (2025)

SimpleSpeech: Towards Simple and Efficient Text-to-Speech with Scalar Latent Transformer Diffusion Models
di: Yang, Dongchao, et al.
Pubblicazione: (2024)

Enhancing Situational Awareness in Wearable Audio Devices Using a Lightweight Sound Event Localization and Detection System
di: Yeow, Jun-Wei, et al.
Pubblicazione: (2025)

Step-Audio-R1.5 Technical Report
di: Zhang, Yuxin, et al.
Pubblicazione: (2026)

Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
di: Shi, Pujin, et al.
Pubblicazione: (2024)

SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation
di: Wang, Helin, et al.
Pubblicazione: (2026)

AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval
di: Lin, Jingru, et al.
Pubblicazione: (2026)

Towards Multimodal Query-Based Spatial Audio Source Extraction
di: Yu, Chenxin, et al.
Pubblicazione: (2025)