Enregistré dans:
| Auteurs principaux: | Shi, Ying, Li, Lantian, Yin, Shi, Wang, Dong, Han, Jiqing |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2407.03966 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Serialized Output Prompting for Large Language Model-based Multi-Talker Speech Recognition
par: Shi, Hao, et autres
Publié: (2025)
par: Shi, Hao, et autres
Publié: (2025)
A Comprehensive Investigation on Speaker Augmentation for Speaker Recognition
par: Zhou, Zhenyu, et autres
Publié: (2024)
par: Zhou, Zhenyu, et autres
Publié: (2024)
Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
par: Shi, Hao, et autres
Publié: (2024)
par: Shi, Hao, et autres
Publié: (2024)
Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets
par: Liu, Chenlin, et autres
Publié: (2025)
par: Liu, Chenlin, et autres
Publié: (2025)
Serial-Parallel Dual-Path Architecture for Speaking Style Recognition
par: Li, Guojian, et autres
Publié: (2025)
par: Li, Guojian, et autres
Publié: (2025)
CosyAccent: Duration-Controllable Accent Normalization Using Source-Synthesis Training Data
par: Bai, Qibing, et autres
Publié: (2026)
par: Bai, Qibing, et autres
Publié: (2026)
SA-SOT: Speaker-Aware Serialized Output Training for Multi-Talker ASR
par: Fan, Zhiyun, et autres
Publié: (2024)
par: Fan, Zhiyun, et autres
Publié: (2024)
Training-Free Intelligibility-Guided Observation Addition for Noisy ASR
par: Li, Haoyang, et autres
Publié: (2026)
par: Li, Haoyang, et autres
Publié: (2026)
SE/BN Adapter: Parametric Efficient Domain Adaptation for Speaker Recognition
par: Wang, Tianhao, et autres
Publié: (2024)
par: Wang, Tianhao, et autres
Publié: (2024)
Joint ASR and Speaker Role Tagging with Serialized Output Training
par: Xu, Anfeng, et autres
Publié: (2025)
par: Xu, Anfeng, et autres
Publié: (2025)
EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling
par: Yin, Hao, et autres
Publié: (2025)
par: Yin, Hao, et autres
Publié: (2025)
SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training
par: Mei, Xinhao, et autres
Publié: (2026)
par: Mei, Xinhao, et autres
Publié: (2026)
EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering
par: Xie, Tianxin, et autres
Publié: (2025)
par: Xie, Tianxin, et autres
Publié: (2025)
Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition
par: Li, Dongyuan, et autres
Publié: (2024)
par: Li, Dongyuan, et autres
Publié: (2024)
Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
par: Shi, Pujin, et autres
Publié: (2024)
par: Shi, Pujin, et autres
Publié: (2024)
CloneShield: A Framework for Universal Perturbation Against Zero-Shot Voice Cloning
par: Li, Renyuan, et autres
Publié: (2025)
par: Li, Renyuan, et autres
Publié: (2025)
An Investigation on Speaker Augmentation for End-to-End Speaker Extraction
par: You, Zhenghai, et autres
Publié: (2025)
par: You, Zhenghai, et autres
Publié: (2025)
Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples
par: Fan, Qi, et autres
Publié: (2024)
par: Fan, Qi, et autres
Publié: (2024)
SepPrune: Structured Pruning for Efficient Deep Speech Separation
par: Li, Yuqi, et autres
Publié: (2025)
par: Li, Yuqi, et autres
Publié: (2025)
DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization
par: Lee, Geonyoung, et autres
Publié: (2025)
par: Lee, Geonyoung, et autres
Publié: (2025)
How phonemes contribute to deep speaker models?
par: Li, Pengqi, et autres
Publié: (2024)
par: Li, Pengqi, et autres
Publié: (2024)
Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples
par: Wang, Zhenyu, et autres
Publié: (2024)
par: Wang, Zhenyu, et autres
Publié: (2024)
Unlocking Strong Supervision: A Data-Centric Study of General-Purpose Audio Pre-Training Methods
par: Zhou, Xuanru, et autres
Publié: (2026)
par: Zhou, Xuanru, et autres
Publié: (2026)
Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting
par: Wang, Zhenyu, et autres
Publié: (2024)
par: Wang, Zhenyu, et autres
Publié: (2024)
SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment
par: Tang, Yuxun, et autres
Publié: (2025)
par: Tang, Yuxun, et autres
Publié: (2025)
Do Neural Codecs Generalize? A Controlled Study Across Unseen Languages and Non-Speech Tasks
par: Wang, Shih-Heng, et autres
Publié: (2026)
par: Wang, Shih-Heng, et autres
Publié: (2026)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification
par: Liu, Bei, et autres
Publié: (2024)
par: Liu, Bei, et autres
Publié: (2024)
HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding
par: Li, Bohan, et autres
Publié: (2026)
par: Li, Bohan, et autres
Publié: (2026)
Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection
par: Ryu, Myeonghoon, et autres
Publié: (2025)
par: Ryu, Myeonghoon, et autres
Publié: (2025)
A Survey of Foundation Models for Music Understanding
par: Li, Wenjun, et autres
Publié: (2024)
par: Li, Wenjun, et autres
Publié: (2024)
ES4R: Speech Encoding Based on Prepositive Affective Modeling for Empathetic Response Generation
par: Gao, Zhuoyue, et autres
Publié: (2026)
par: Gao, Zhuoyue, et autres
Publié: (2026)
Explore the Reinforcement Learning for the LLM based ASR and TTS system
par: Gao, Changfeng, et autres
Publié: (2025)
par: Gao, Changfeng, et autres
Publié: (2025)
Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play
par: Shi, Jiatong, et autres
Publié: (2025)
par: Shi, Jiatong, et autres
Publié: (2025)
Enhancing the Robustness of Contextual ASR to Varying Biasing Information Volumes Through Purified Semantic Correlation Joint Modeling
par: Gu, Yue, et autres
Publié: (2025)
par: Gu, Yue, et autres
Publié: (2025)
ESPnet-EZ: Python-only ESPnet for Easy Fine-tuning and Integration
par: Someki, Masao, et autres
Publié: (2024)
par: Someki, Masao, et autres
Publié: (2024)
Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models
par: Zheng, Xinhu, et autres
Publié: (2024)
par: Zheng, Xinhu, et autres
Publié: (2024)
EnvSDD: Benchmarking Environmental Sound Deepfake Detection
par: Yin, Han, et autres
Publié: (2025)
par: Yin, Han, et autres
Publié: (2025)
Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
par: Feng, Tiantian, et autres
Publié: (2024)
par: Feng, Tiantian, et autres
Publié: (2024)
Speech-based Clinical Depression Screening: An Empirical Study
par: Chen, Yangbin, et autres
Publié: (2024)
par: Chen, Yangbin, et autres
Publié: (2024)
NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
par: Wang, Yashan, et autres
Publié: (2025)
par: Wang, Yashan, et autres
Publié: (2025)
Documents similaires
-
Serialized Output Prompting for Large Language Model-based Multi-Talker Speech Recognition
par: Shi, Hao, et autres
Publié: (2025) -
A Comprehensive Investigation on Speaker Augmentation for Speaker Recognition
par: Zhou, Zhenyu, et autres
Publié: (2024) -
Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
par: Shi, Hao, et autres
Publié: (2024) -
Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets
par: Liu, Chenlin, et autres
Publié: (2025) -
Serial-Parallel Dual-Path Architecture for Speaking Style Recognition
par: Li, Guojian, et autres
Publié: (2025)