Salvato in:
| Autori principali: | Yu, Xincheng, Guo, Dongyue, Zhang, Jianwei, Lin, Yi |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2023
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2312.06118 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
RAS: a Reliability Oriented Metric for Automatic Speech Recognition
di: Huang, Wenbin, et al.
Pubblicazione: (2026)
di: Huang, Wenbin, et al.
Pubblicazione: (2026)
Integrating spoken instructions into flight trajectory prediction to optimize automation in air traffic control
di: Guo, Dongyue, et al.
Pubblicazione: (2023)
di: Guo, Dongyue, et al.
Pubblicazione: (2023)
LLM-Guided Reinforcement Learning for Audio-Visual Speech Enhancement
di: Chen, Chih-Ning, et al.
Pubblicazione: (2026)
di: Chen, Chih-Ning, et al.
Pubblicazione: (2026)
Speech Emotion Recognition via Entropy-Aware Score Selection
di: Chua, ChenYi, et al.
Pubblicazione: (2025)
di: Chua, ChenYi, et al.
Pubblicazione: (2025)
Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database
di: Xiao, Qing, et al.
Pubblicazione: (2025)
di: Xiao, Qing, et al.
Pubblicazione: (2025)
Continuous Modeling of the Denoising Process for Speech Enhancement Based on Deep Learning
di: Guo, Zilu, et al.
Pubblicazione: (2023)
di: Guo, Zilu, et al.
Pubblicazione: (2023)
Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework
di: Kim, Yunsik, et al.
Pubblicazione: (2025)
di: Kim, Yunsik, et al.
Pubblicazione: (2025)
UniSE: A Unified Framework for Decoder-only Autoregressive LM-based Speech Enhancement
di: Yan, Haoyin, et al.
Pubblicazione: (2025)
di: Yan, Haoyin, et al.
Pubblicazione: (2025)
Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech
di: Fu, Szu-Wei, et al.
Pubblicazione: (2024)
di: Fu, Szu-Wei, et al.
Pubblicazione: (2024)
A Two-Stage Hierarchical Deep Filtering Framework for Real-Time Speech Enhancement
di: Lu, Shenghui, et al.
Pubblicazione: (2025)
di: Lu, Shenghui, et al.
Pubblicazione: (2025)
MF-Speech: Achieving Fine-Grained and Compositional Control in Speech Generation via Factor Disentanglement
di: Yu, Xinyue, et al.
Pubblicazione: (2025)
di: Yu, Xinyue, et al.
Pubblicazione: (2025)
Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers
di: Cai, Runyuan, et al.
Pubblicazione: (2026)
di: Cai, Runyuan, et al.
Pubblicazione: (2026)
AST: Adaptive, Seamless, and Training-Free Precise Speech Editing
di: Lv, Sihan, et al.
Pubblicazione: (2026)
di: Lv, Sihan, et al.
Pubblicazione: (2026)
LLMs-Integrated Automatic Hate Speech Recognition Using Controllable Text Generation Models
di: Oshima, Ryutaro, et al.
Pubblicazione: (2026)
di: Oshima, Ryutaro, et al.
Pubblicazione: (2026)
Unifying EEG and Speech for Emotion Recognition: A Two-Step Joint Learning Framework for Handling Missing EEG Data During Inference
di: Tiwari, Upasana, et al.
Pubblicazione: (2025)
di: Tiwari, Upasana, et al.
Pubblicazione: (2025)
Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language
di: Wiafe, Isaac, et al.
Pubblicazione: (2026)
di: Wiafe, Isaac, et al.
Pubblicazione: (2026)
MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition
di: Pan, Yu, et al.
Pubblicazione: (2023)
di: Pan, Yu, et al.
Pubblicazione: (2023)
StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning
di: Zhang, Shaolei, et al.
Pubblicazione: (2024)
di: Zhang, Shaolei, et al.
Pubblicazione: (2024)
Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms
di: Penumajji, Niketa
Pubblicazione: (2025)
di: Penumajji, Niketa
Pubblicazione: (2025)
MERaLiON-SER: Robust Speech Emotion Recognition Model for English and SEA Languages
di: Sailor, Hardik B., et al.
Pubblicazione: (2025)
di: Sailor, Hardik B., et al.
Pubblicazione: (2025)
An Investigation of Incorporating Mamba for Speech Enhancement
di: Chao, Rong, et al.
Pubblicazione: (2024)
di: Chao, Rong, et al.
Pubblicazione: (2024)
GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition
di: Pan, Yu, et al.
Pubblicazione: (2024)
di: Pan, Yu, et al.
Pubblicazione: (2024)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition
di: Wang, He, et al.
Pubblicazione: (2024)
di: Wang, He, et al.
Pubblicazione: (2024)
Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
di: Wu, Linzhi, et al.
Pubblicazione: (2026)
di: Wu, Linzhi, et al.
Pubblicazione: (2026)
ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge
di: Wang, He, et al.
Pubblicazione: (2024)
di: Wang, He, et al.
Pubblicazione: (2024)
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement
di: Wang, Junyu, et al.
Pubblicazione: (2024)
di: Wang, Junyu, et al.
Pubblicazione: (2024)
Speech Emotion Recognition Using MFCC Features and LSTM-Based Deep Learning Model
di: Oluwademilade, Adelekun, et al.
Pubblicazione: (2026)
di: Oluwademilade, Adelekun, et al.
Pubblicazione: (2026)
ArtiFree: Detecting and Reducing Generative Artifacts in Diffusion-based Speech Enhancement
di: Chhaglani, Bhawana, et al.
Pubblicazione: (2025)
di: Chhaglani, Bhawana, et al.
Pubblicazione: (2025)
MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention
di: Jiao, Xinxin, et al.
Pubblicazione: (2024)
di: Jiao, Xinxin, et al.
Pubblicazione: (2024)
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
di: Kang, Jiawen, et al.
Pubblicazione: (2024)
di: Kang, Jiawen, et al.
Pubblicazione: (2024)
A Novel Automatic Framework for Speaker Drift Detection in Synthesized Speech
di: Huang, Jia-Hong, et al.
Pubblicazione: (2026)
di: Huang, Jia-Hong, et al.
Pubblicazione: (2026)
Learning Physiology-Informed Vocal Spectrotemporal Representations for Speech Emotion Recognition
di: Zhang, Xu, et al.
Pubblicazione: (2026)
di: Zhang, Xu, et al.
Pubblicazione: (2026)
Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation
di: Zhang, Xueyao, et al.
Pubblicazione: (2025)
di: Zhang, Xueyao, et al.
Pubblicazione: (2025)
Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition
di: Kim, Jaeyoung, et al.
Pubblicazione: (2024)
di: Kim, Jaeyoung, et al.
Pubblicazione: (2024)
Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition
di: Li, Dongyuan, et al.
Pubblicazione: (2024)
di: Li, Dongyuan, et al.
Pubblicazione: (2024)
Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention
di: Wang, Cong, et al.
Pubblicazione: (2025)
di: Wang, Cong, et al.
Pubblicazione: (2025)
Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
di: Shi, Hao, et al.
Pubblicazione: (2024)
di: Shi, Hao, et al.
Pubblicazione: (2024)
PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition
di: Su, Xun, et al.
Pubblicazione: (2026)
di: Su, Xun, et al.
Pubblicazione: (2026)
Shortcut Flow Matching for Speech Enhancement: Step-Invariant flows via single stage training
di: Zhou, Naisong, et al.
Pubblicazione: (2025)
di: Zhou, Naisong, et al.
Pubblicazione: (2025)
Multimodal Emotion Regression with Multi-Objective Optimization and VAD-Aware Audio Modeling for the 10th ABAW EMI Track
di: Huang, Jiawen, et al.
Pubblicazione: (2026)
di: Huang, Jiawen, et al.
Pubblicazione: (2026)
Documenti analoghi
-
RAS: a Reliability Oriented Metric for Automatic Speech Recognition
di: Huang, Wenbin, et al.
Pubblicazione: (2026) -
Integrating spoken instructions into flight trajectory prediction to optimize automation in air traffic control
di: Guo, Dongyue, et al.
Pubblicazione: (2023) -
LLM-Guided Reinforcement Learning for Audio-Visual Speech Enhancement
di: Chen, Chih-Ning, et al.
Pubblicazione: (2026) -
Speech Emotion Recognition via Entropy-Aware Score Selection
di: Chua, ChenYi, et al.
Pubblicazione: (2025) -
Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database
di: Xiao, Qing, et al.
Pubblicazione: (2025)