Enregistré dans:
| Auteurs principaux: | Sun, Haoqin, Lyu, Chenyang, Kong, Xiangyu, Zhao, Shiwan, Zhou, Jiaming, Wang, Hui, Kong, Aobo, Zhao, Jinghua, Wang, Longyue, Luo, Weihua, Zhang, Kaifu, Qin, Yong |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2509.18729 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Speech-XL: Towards Long-Form Speech Understanding in Large Speech Language Models
par: Sun, Haoqin, et autres
Publié: (2026)
par: Sun, Haoqin, et autres
Publié: (2026)
Iterative Prototype Refinement for Ambiguous Speech Emotion Recognition
par: Sun, Haoqin, et autres
Publié: (2024)
par: Sun, Haoqin, et autres
Publié: (2024)
Enhancing Emotion Recognition in Incomplete Data: A Novel Cross-Modal Alignment, Reconstruction, and Refinement Framework
par: Sun, Haoqin, et autres
Publié: (2024)
par: Sun, Haoqin, et autres
Publié: (2024)
Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment
par: Wang, Xuechen, et autres
Publié: (2024)
par: Wang, Xuechen, et autres
Publié: (2024)
M2R-Whisper: Multi-stage and Multi-scale Retrieval Augmentation for Enhancing Whisper
par: Zhou, Jiaming, et autres
Publié: (2024)
par: Zhou, Jiaming, et autres
Publié: (2024)
Enhancing Dysarthric Speech Recognition for Unseen Speakers via Prototype-Based Adaptation
par: Wang, Shiyao, et autres
Publié: (2024)
par: Wang, Shiyao, et autres
Publié: (2024)
RA-CLAP: Relation-Augmented Emotional Speaking Style Contrastive Language-Audio Pretraining For Speech Retrieval
par: Sun, Haoqin, et autres
Publié: (2025)
par: Sun, Haoqin, et autres
Publié: (2025)
EmotionTalk: An Interactive Chinese Multimodal Emotion Dataset With Rich Annotations
par: Sun, Haoqin, et autres
Publié: (2025)
par: Sun, Haoqin, et autres
Publié: (2025)
The Affective Bridge: Preserving Speech Representations while Enhancing Deepfake Detection vian emotional Constraints
par: Li, Yupei, et autres
Publié: (2025)
par: Li, Yupei, et autres
Publié: (2025)
MusicEval: A Generative Music Dataset with Expert Ratings for Automatic Text-to-Music Evaluation
par: Liu, Cheng, et autres
Publié: (2025)
par: Liu, Cheng, et autres
Publié: (2025)
DIFFA: Large Language Diffusion Models Can Listen and Understand
par: Zhou, Jiaming, et autres
Publié: (2025)
par: Zhou, Jiaming, et autres
Publié: (2025)
CS-Dialogue: A 104-Hour Dataset of Spontaneous Mandarin-English Code-Switching Dialogues for Speech Recognition
par: Zhou, Jiaming, et autres
Publié: (2025)
par: Zhou, Jiaming, et autres
Publié: (2025)
ChildMandarin: A Comprehensive Mandarin Speech Dataset for Young Children Aged 3-5
par: Zhou, Jiaming, et autres
Publié: (2024)
par: Zhou, Jiaming, et autres
Publié: (2024)
Zero- and One-Shot Data Augmentation for Sentence-Level Dysarthric Speech Recognition in Constrained Scenarios
par: Wang, Shiyao, et autres
Publié: (2025)
par: Wang, Shiyao, et autres
Publié: (2025)
Marco-Voice Technical Report
par: Tian, Fengping, et autres
Publié: (2025)
par: Tian, Fengping, et autres
Publié: (2025)
Uncertainty-Aware Mean Opinion Score Prediction
par: Wang, Hui, et autres
Publié: (2024)
par: Wang, Hui, et autres
Publié: (2024)
A Self-Training Approach for Whisper to Enhance Long Dysarthric Speech Recognition
par: Wang, Shiyao, et autres
Publié: (2025)
par: Wang, Shiyao, et autres
Publié: (2025)
PB-LRDWWS System for the SLT 2024 Low-Resource Dysarthria Wake-Up Word Spotting Challenge
par: Wang, Shiyao, et autres
Publié: (2024)
par: Wang, Shiyao, et autres
Publié: (2024)
Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
par: Zhou, Jiaming, et autres
Publié: (2024)
par: Zhou, Jiaming, et autres
Publié: (2024)
Marco-ASR: A Principled and Metric-Driven Framework for Fine-Tuning Large-Scale ASR Models for Domain Adaptation
par: Ni, Xuanfan, et autres
Publié: (2025)
par: Ni, Xuanfan, et autres
Publié: (2025)
SpeechLLM-as-Judges: Towards General and Interpretable Speech Quality Evaluation
par: Wang, Hui, et autres
Publié: (2025)
par: Wang, Hui, et autres
Publié: (2025)
Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering
par: Zhao, Jinghua, et autres
Publié: (2025)
par: Zhao, Jinghua, et autres
Publié: (2025)
LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech
par: Yang, Fei, et autres
Publié: (2026)
par: Yang, Fei, et autres
Publié: (2026)
GLAD: Global-Local Aware Dynamic Mixture-of-Experts for Multi-Talker ASR
par: Guo, Yujie, et autres
Publié: (2025)
par: Guo, Yujie, et autres
Publié: (2025)
AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation
par: Wang, Hui, et autres
Publié: (2025)
par: Wang, Hui, et autres
Publié: (2025)
AudioEditor: A Training-Free Diffusion-Based Audio Editing Framework
par: Jia, Yuhang, et autres
Publié: (2024)
par: Jia, Yuhang, et autres
Publié: (2024)
TTA-Bench: A Comprehensive Benchmark for Evaluating Text-to-Audio Models
par: Wang, Hui, et autres
Publié: (2025)
par: Wang, Hui, et autres
Publié: (2025)
Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning
par: Zhao, Shiwan, et autres
Publié: (2025)
par: Zhao, Shiwan, et autres
Publié: (2025)
kNN-CTC: Enhancing ASR via Retrieval of CTC Pseudo Labels
par: Zhou, Jiaming, et autres
Publié: (2023)
par: Zhou, Jiaming, et autres
Publié: (2023)
From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs
par: Jia, Yuhang, et autres
Publié: (2025)
par: Jia, Yuhang, et autres
Publié: (2025)
WildElder: A Chinese Elderly Speech Dataset from the Wild with Fine-Grained Manual Annotations
par: Wang, Hui, et autres
Publié: (2025)
par: Wang, Hui, et autres
Publié: (2025)
FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching
par: Wang, Hui, et autres
Publié: (2025)
par: Wang, Hui, et autres
Publié: (2025)
DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding
par: Zhou, Jiaming, et autres
Publié: (2026)
par: Zhou, Jiaming, et autres
Publié: (2026)
EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning
par: Wang, Dingdong, et autres
Publié: (2026)
par: Wang, Dingdong, et autres
Publié: (2026)
EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions
par: Jing, Xin, et autres
Publié: (2026)
par: Jing, Xin, et autres
Publié: (2026)
Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs
par: Kong, Aobo, et autres
Publié: (2024)
par: Kong, Aobo, et autres
Publié: (2024)
Discrete Audio Representations for Automated Audio Captioning
par: Tian, Jingguang, et autres
Publié: (2025)
par: Tian, Jingguang, et autres
Publié: (2025)
EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition
par: Li, Pengcheng, et autres
Publié: (2025)
par: Li, Pengcheng, et autres
Publié: (2025)
Semantic-Emotional Resonance Embedding: A Semi-Supervised Paradigm for Cross-Lingual Speech Emotion Recognition
par: Zhao, Ya, et autres
Publié: (2026)
par: Zhao, Ya, et autres
Publié: (2026)
EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation
par: Manivannan, Mithun, et autres
Publié: (2024)
par: Manivannan, Mithun, et autres
Publié: (2024)
Documents similaires
-
Speech-XL: Towards Long-Form Speech Understanding in Large Speech Language Models
par: Sun, Haoqin, et autres
Publié: (2026) -
Iterative Prototype Refinement for Ambiguous Speech Emotion Recognition
par: Sun, Haoqin, et autres
Publié: (2024) -
Enhancing Emotion Recognition in Incomplete Data: A Novel Cross-Modal Alignment, Reconstruction, and Refinement Framework
par: Sun, Haoqin, et autres
Publié: (2024) -
Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment
par: Wang, Xuechen, et autres
Publié: (2024) -
M2R-Whisper: Multi-stage and Multi-scale Retrieval Augmentation for Enhancing Whisper
par: Zhou, Jiaming, et autres
Publié: (2024)