:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Shi, Ying, Li, Lantian, Yin, Shi, Wang, Dong, Han, Jiqing
Format:	Preprint
Publié:	2024
Sujets:	Sound Artificial Intelligence Audio and Speech Processing
Accès en ligne:	https://arxiv.org/abs/2407.03966
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Serialized Output Prompting for Large Language Model-based Multi-Talker Speech Recognition
par: Shi, Hao, et autres
Publié: (2025)

A Comprehensive Investigation on Speaker Augmentation for Speaker Recognition
par: Zhou, Zhenyu, et autres
Publié: (2024)

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
par: Shi, Hao, et autres
Publié: (2024)

Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets
par: Liu, Chenlin, et autres
Publié: (2025)

Serial-Parallel Dual-Path Architecture for Speaking Style Recognition
par: Li, Guojian, et autres
Publié: (2025)

CosyAccent: Duration-Controllable Accent Normalization Using Source-Synthesis Training Data
par: Bai, Qibing, et autres
Publié: (2026)

SA-SOT: Speaker-Aware Serialized Output Training for Multi-Talker ASR
par: Fan, Zhiyun, et autres
Publié: (2024)

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR
par: Li, Haoyang, et autres
Publié: (2026)

SE/BN Adapter: Parametric Efficient Domain Adaptation for Speaker Recognition
par: Wang, Tianhao, et autres
Publié: (2024)

Joint ASR and Speaker Role Tagging with Serialized Output Training
par: Xu, Anfeng, et autres
Publié: (2025)

EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling
par: Yin, Hao, et autres
Publié: (2025)

SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training
par: Mei, Xinhao, et autres
Publié: (2026)

EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering
par: Xie, Tianxin, et autres
Publié: (2025)

Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition
par: Li, Dongyuan, et autres
Publié: (2024)

Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
par: Shi, Pujin, et autres
Publié: (2024)

CloneShield: A Framework for Universal Perturbation Against Zero-Shot Voice Cloning
par: Li, Renyuan, et autres
Publié: (2025)

An Investigation on Speaker Augmentation for End-to-End Speaker Extraction
par: You, Zhenghai, et autres
Publié: (2025)

Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples
par: Fan, Qi, et autres
Publié: (2024)

SepPrune: Structured Pruning for Efficient Deep Speech Separation
par: Li, Yuqi, et autres
Publié: (2025)

DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization
par: Lee, Geonyoung, et autres
Publié: (2025)

How phonemes contribute to deep speaker models?
par: Li, Pengqi, et autres
Publié: (2024)

Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples
par: Wang, Zhenyu, et autres
Publié: (2024)

Unlocking Strong Supervision: A Data-Centric Study of General-Purpose Audio Pre-Training Methods
par: Zhou, Xuanru, et autres
Publié: (2026)

Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting
par: Wang, Zhenyu, et autres
Publié: (2024)

SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment
par: Tang, Yuxun, et autres
Publié: (2025)

Do Neural Codecs Generalize? A Controlled Study Across Unseen Languages and Non-Speech Tasks
par: Wang, Shih-Heng, et autres
Publié: (2026)

Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification
par: Liu, Bei, et autres
Publié: (2024)

HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding
par: Li, Bohan, et autres
Publié: (2026)

Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection
par: Ryu, Myeonghoon, et autres
Publié: (2025)

A Survey of Foundation Models for Music Understanding
par: Li, Wenjun, et autres
Publié: (2024)

ES4R: Speech Encoding Based on Prepositive Affective Modeling for Empathetic Response Generation
par: Gao, Zhuoyue, et autres
Publié: (2026)

Explore the Reinforcement Learning for the LLM based ASR and TTS system
par: Gao, Changfeng, et autres
Publié: (2025)

Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play
par: Shi, Jiatong, et autres
Publié: (2025)

Enhancing the Robustness of Contextual ASR to Varying Biasing Information Volumes Through Purified Semantic Correlation Joint Modeling
par: Gu, Yue, et autres
Publié: (2025)

ESPnet-EZ: Python-only ESPnet for Easy Fine-tuning and Integration
par: Someki, Masao, et autres
Publié: (2024)

Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models
par: Zheng, Xinhu, et autres
Publié: (2024)

EnvSDD: Benchmarking Environmental Sound Deepfake Detection
par: Yin, Han, et autres
Publié: (2025)

Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
par: Feng, Tiantian, et autres
Publié: (2024)

Speech-based Clinical Depression Screening: An Empirical Study
par: Chen, Yangbin, et autres
Publié: (2024)

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
par: Wang, Yashan, et autres
Publié: (2025)