:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Yu, Xincheng, Guo, Dongyue, Zhang, Jianwei, Lin, Yi
Natura:	Preprint
Pubblicazione:	2023
Soggetti:	Sound Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2312.06118
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

RAS: a Reliability Oriented Metric for Automatic Speech Recognition
di: Huang, Wenbin, et al.
Pubblicazione: (2026)

Integrating spoken instructions into flight trajectory prediction to optimize automation in air traffic control
di: Guo, Dongyue, et al.
Pubblicazione: (2023)

LLM-Guided Reinforcement Learning for Audio-Visual Speech Enhancement
di: Chen, Chih-Ning, et al.
Pubblicazione: (2026)

Speech Emotion Recognition via Entropy-Aware Score Selection
di: Chua, ChenYi, et al.
Pubblicazione: (2025)

Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database
di: Xiao, Qing, et al.
Pubblicazione: (2025)

Continuous Modeling of the Denoising Process for Speech Enhancement Based on Deep Learning
di: Guo, Zilu, et al.
Pubblicazione: (2023)

Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework
di: Kim, Yunsik, et al.
Pubblicazione: (2025)

UniSE: A Unified Framework for Decoder-only Autoregressive LM-based Speech Enhancement
di: Yan, Haoyin, et al.
Pubblicazione: (2025)

Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech
di: Fu, Szu-Wei, et al.
Pubblicazione: (2024)

A Two-Stage Hierarchical Deep Filtering Framework for Real-Time Speech Enhancement
di: Lu, Shenghui, et al.
Pubblicazione: (2025)

MF-Speech: Achieving Fine-Grained and Compositional Control in Speech Generation via Factor Disentanglement
di: Yu, Xinyue, et al.
Pubblicazione: (2025)

Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers
di: Cai, Runyuan, et al.
Pubblicazione: (2026)

AST: Adaptive, Seamless, and Training-Free Precise Speech Editing
di: Lv, Sihan, et al.
Pubblicazione: (2026)

LLMs-Integrated Automatic Hate Speech Recognition Using Controllable Text Generation Models
di: Oshima, Ryutaro, et al.
Pubblicazione: (2026)

Unifying EEG and Speech for Emotion Recognition: A Two-Step Joint Learning Framework for Handling Missing EEG Data During Inference
di: Tiwari, Upasana, et al.
Pubblicazione: (2025)

Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language
di: Wiafe, Isaac, et al.
Pubblicazione: (2026)

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition
di: Pan, Yu, et al.
Pubblicazione: (2023)

StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning
di: Zhang, Shaolei, et al.
Pubblicazione: (2024)

Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms
di: Penumajji, Niketa
Pubblicazione: (2025)

MERaLiON-SER: Robust Speech Emotion Recognition Model for English and SEA Languages
di: Sailor, Hardik B., et al.
Pubblicazione: (2025)

An Investigation of Incorporating Mamba for Speech Enhancement
di: Chao, Rong, et al.
Pubblicazione: (2024)

GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition
di: Pan, Yu, et al.
Pubblicazione: (2024)

MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition
di: Wang, He, et al.
Pubblicazione: (2024)

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
di: Wu, Linzhi, et al.
Pubblicazione: (2026)

ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge
di: Wang, He, et al.
Pubblicazione: (2024)

Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement
di: Wang, Junyu, et al.
Pubblicazione: (2024)

Speech Emotion Recognition Using MFCC Features and LSTM-Based Deep Learning Model
di: Oluwademilade, Adelekun, et al.
Pubblicazione: (2026)

ArtiFree: Detecting and Reducing Generative Artifacts in Diffusion-based Speech Enhancement
di: Chhaglani, Bhawana, et al.
Pubblicazione: (2025)

MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention
di: Jiao, Xinxin, et al.
Pubblicazione: (2024)

Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
di: Kang, Jiawen, et al.
Pubblicazione: (2024)

A Novel Automatic Framework for Speaker Drift Detection in Synthesized Speech
di: Huang, Jia-Hong, et al.
Pubblicazione: (2026)

Learning Physiology-Informed Vocal Spectrotemporal Representations for Speech Emotion Recognition
di: Zhang, Xu, et al.
Pubblicazione: (2026)

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation
di: Zhang, Xueyao, et al.
Pubblicazione: (2025)

Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition
di: Kim, Jaeyoung, et al.
Pubblicazione: (2024)

Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition
di: Li, Dongyuan, et al.
Pubblicazione: (2024)

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention
di: Wang, Cong, et al.
Pubblicazione: (2025)

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
di: Shi, Hao, et al.
Pubblicazione: (2024)

PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition
di: Su, Xun, et al.
Pubblicazione: (2026)

Shortcut Flow Matching for Speech Enhancement: Step-Invariant flows via single stage training
di: Zhou, Naisong, et al.
Pubblicazione: (2025)

Multimodal Emotion Regression with Multi-Objective Optimization and VAD-Aware Audio Modeling for the 10th ABAW EMI Track
di: Huang, Jiawen, et al.
Pubblicazione: (2026)