:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Sun, Haoqin, Lyu, Chenyang, Kong, Xiangyu, Zhao, Shiwan, Zhou, Jiaming, Wang, Hui, Kong, Aobo, Zhao, Jinghua, Wang, Longyue, Luo, Weihua, Zhang, Kaifu, Qin, Yong
Format:	Preprint
Publié:	2025
Sujets:	Sound
Accès en ligne:	https://arxiv.org/abs/2509.18729
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Speech-XL: Towards Long-Form Speech Understanding in Large Speech Language Models
par: Sun, Haoqin, et autres
Publié: (2026)

Iterative Prototype Refinement for Ambiguous Speech Emotion Recognition
par: Sun, Haoqin, et autres
Publié: (2024)

Enhancing Emotion Recognition in Incomplete Data: A Novel Cross-Modal Alignment, Reconstruction, and Refinement Framework
par: Sun, Haoqin, et autres
Publié: (2024)

Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment
par: Wang, Xuechen, et autres
Publié: (2024)

M2R-Whisper: Multi-stage and Multi-scale Retrieval Augmentation for Enhancing Whisper
par: Zhou, Jiaming, et autres
Publié: (2024)

Enhancing Dysarthric Speech Recognition for Unseen Speakers via Prototype-Based Adaptation
par: Wang, Shiyao, et autres
Publié: (2024)

RA-CLAP: Relation-Augmented Emotional Speaking Style Contrastive Language-Audio Pretraining For Speech Retrieval
par: Sun, Haoqin, et autres
Publié: (2025)

EmotionTalk: An Interactive Chinese Multimodal Emotion Dataset With Rich Annotations
par: Sun, Haoqin, et autres
Publié: (2025)

The Affective Bridge: Preserving Speech Representations while Enhancing Deepfake Detection vian emotional Constraints
par: Li, Yupei, et autres
Publié: (2025)

MusicEval: A Generative Music Dataset with Expert Ratings for Automatic Text-to-Music Evaluation
par: Liu, Cheng, et autres
Publié: (2025)

DIFFA: Large Language Diffusion Models Can Listen and Understand
par: Zhou, Jiaming, et autres
Publié: (2025)

CS-Dialogue: A 104-Hour Dataset of Spontaneous Mandarin-English Code-Switching Dialogues for Speech Recognition
par: Zhou, Jiaming, et autres
Publié: (2025)

ChildMandarin: A Comprehensive Mandarin Speech Dataset for Young Children Aged 3-5
par: Zhou, Jiaming, et autres
Publié: (2024)

Zero- and One-Shot Data Augmentation for Sentence-Level Dysarthric Speech Recognition in Constrained Scenarios
par: Wang, Shiyao, et autres
Publié: (2025)

Marco-Voice Technical Report
par: Tian, Fengping, et autres
Publié: (2025)

Uncertainty-Aware Mean Opinion Score Prediction
par: Wang, Hui, et autres
Publié: (2024)

A Self-Training Approach for Whisper to Enhance Long Dysarthric Speech Recognition
par: Wang, Shiyao, et autres
Publié: (2025)

PB-LRDWWS System for the SLT 2024 Low-Resource Dysarthria Wake-Up Word Spotting Challenge
par: Wang, Shiyao, et autres
Publié: (2024)

Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
par: Zhou, Jiaming, et autres
Publié: (2024)

Marco-ASR: A Principled and Metric-Driven Framework for Fine-Tuning Large-Scale ASR Models for Domain Adaptation
par: Ni, Xuanfan, et autres
Publié: (2025)

SpeechLLM-as-Judges: Towards General and Interpretable Speech Quality Evaluation
par: Wang, Hui, et autres
Publié: (2025)

Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering
par: Zhao, Jinghua, et autres
Publié: (2025)

LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech
par: Yang, Fei, et autres
Publié: (2026)

GLAD: Global-Local Aware Dynamic Mixture-of-Experts for Multi-Talker ASR
par: Guo, Yujie, et autres
Publié: (2025)

AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation
par: Wang, Hui, et autres
Publié: (2025)

AudioEditor: A Training-Free Diffusion-Based Audio Editing Framework
par: Jia, Yuhang, et autres
Publié: (2024)

TTA-Bench: A Comprehensive Benchmark for Evaluating Text-to-Audio Models
par: Wang, Hui, et autres
Publié: (2025)

Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning
par: Zhao, Shiwan, et autres
Publié: (2025)

kNN-CTC: Enhancing ASR via Retrieval of CTC Pseudo Labels
par: Zhou, Jiaming, et autres
Publié: (2023)

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs
par: Jia, Yuhang, et autres
Publié: (2025)

WildElder: A Chinese Elderly Speech Dataset from the Wild with Fine-Grained Manual Annotations
par: Wang, Hui, et autres
Publié: (2025)

FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching
par: Wang, Hui, et autres
Publié: (2025)

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding
par: Zhou, Jiaming, et autres
Publié: (2026)

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning
par: Wang, Dingdong, et autres
Publié: (2026)

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions
par: Jing, Xin, et autres
Publié: (2026)

Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs
par: Kong, Aobo, et autres
Publié: (2024)

Discrete Audio Representations for Automated Audio Captioning
par: Tian, Jingguang, et autres
Publié: (2025)

EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition
par: Li, Pengcheng, et autres
Publié: (2025)

Semantic-Emotional Resonance Embedding: A Semi-Supervised Paradigm for Cross-Lingual Speech Emotion Recognition
par: Zhao, Ya, et autres
Publié: (2026)

EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation
par: Manivannan, Mithun, et autres
Publié: (2024)