:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Schwarzer, Will, Chaudhari, Neel, Thomas, Philip S., Fanelli, Andrea, Liu, Xiaoyu
Format:	Preprint
Publié:	2025
Sujets:	Sound Machine Learning Audio and Speech Processing
Accès en ligne:	https://arxiv.org/abs/2503.11627
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition
par: Chen, Chengxin, et autres
Publié: (2024)

Comparative Study on Noise-Augmented Training and its Effect on Adversarial Robustness in ASR Systems
par: Pizzi, Karla, et autres
Publié: (2024)

Noise-aware Speech Enhancement using Diffusion Probabilistic Model
par: Hu, Yuchen, et autres
Publié: (2023)

Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR
par: Hu, Yuchen, et autres
Publié: (2023)

Knowledge Distillation for Speech Denoising by Latent Representation Alignment with Cosine Distance
par: Luong, Diep, et autres
Publié: (2025)

Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS
par: Ko, Myeongjin, et autres
Publié: (2023)

Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising
par: Fujita, Yoto, et autres
Publié: (2024)

Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks?
par: Makarov, Rostislav, et autres
Publié: (2025)

Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning
par: Wu, Haibin, et autres
Publié: (2021)

HiFi-Stream: Streaming Speech Enhancement with Generative Adversarial Networks
par: Dmitrieva, Ekaterina, et autres
Publié: (2025)

RobustSpeechFlow: Learning Robust Text-to-Speech Trajectories via Augmentation-based Contrastive Flow Matching
par: Yang, Jinhyeok, et autres
Publié: (2026)

Adversarial Data Augmentation for Robust Speaker Verification
par: Zhou, Zhenyu, et autres
Publié: (2024)

SSNAPS: Audio-Visual Separation of Speech and Background Noise with Diffusion Inverse Sampling
par: Yemini, Yochai, et autres
Publié: (2026)

Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training
par: Melechovsky, Jan, et autres
Publié: (2024)

GLA-Grad++: An Improved Griffin-Lim Guided Diffusion Model for Speech Synthesis
par: Baoueb, Teysir, et autres
Publié: (2025)

Quantifying Quanvolutional Neural Networks Robustness for Speech in Healthcare Applications
par: Tran, Ha, et autres
Publié: (2026)

A Comparative Evaluation of Deep Learning Models for Speech Enhancement in Real-World Noisy Environments
par: Khondkar, Md Jahangir Alam, et autres
Publié: (2025)

Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition
par: Ravenscroft, William, et autres
Publié: (2024)

Automatic Contextual Audio Denoising
par: Luong, Diep, et autres
Publié: (2026)

IoT-based Noise Monitoring using Mobile Nodes for Smart Cities
par: Manthina, Bhima Sankar, et autres
Publié: (2025)

Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features
par: Zezario, Ryandhimas E., et autres
Publié: (2021)

Dynamic nsNet2: Efficient Deep Noise Suppression with Early Exiting
par: Miccini, Riccardo, et autres
Publié: (2023)

XAttnMark: Learning Robust Audio Watermarking with Cross-Attention
par: Liu, Yixin, et autres
Publié: (2025)

CPT-Boosted Wav2vec2.0: Towards Noise Robust Speech Recognition for Classroom Environments
par: Attia, Ahmed Adel, et autres
Publié: (2024)

SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis
par: Baoueb, Teysir, et autres
Publié: (2024)

Unsupervised CP-UNet Framework for Denoising DAS Data with Decay Noise
par: Huang, Tianye, et autres
Publié: (2025)

TextrolSpeech: A Text Style Control Speech Corpus With Codec Language Text-to-Speech Models
par: Ji, Shengpeng, et autres
Publié: (2023)

Investigating the Effects of Diffusion-based Conditional Generative Speech Models Used for Speech Enhancement on Dysarthric Speech
par: Reszka, Joanna, et autres
Publié: (2024)

Parameter Efficient Finetuning for Speech Emotion Recognition and Domain Adaptation
par: Lashkarashvili, Nineli, et autres
Publié: (2024)

Lightweight DNN for Full-Band Speech Denoising on Mobile Devices: Exploiting Long and Short Temporal Patterns
par: Drossos, Konstantinos, et autres
Publié: (2025)

DDTSE: Discriminative Diffusion Model for Target Speech Extraction
par: Zhang, Leying, et autres
Publié: (2023)

Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment
par: Leem, Seong-Gyun, et autres
Publié: (2024)

Domain Adapting Deep Reinforcement Learning for Real-world Speech Emotion Recognition
par: Rajapakshe, Thejan, et autres
Publié: (2022)

MaskSR: Masked Language Model for Full-band Speech Restoration
par: Li, Xu, et autres
Publié: (2024)

Non-intrusive Speech Quality Assessment with Diffusion Models Trained on Clean Speech
par: de Oliveira, Danilo, et autres
Publié: (2024)

UniPET-SPK: A Unified Framework for Parameter-Efficient Tuning of Pre-trained Speech Models for Robust Speaker Verification
par: Sang, Mufan, et autres
Publié: (2025)

Denoising by neural network for muzzle blast detection
par: Pujol, Hadrien, et autres
Publié: (2025)

TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling
par: Wang, Yuancheng, et autres
Publié: (2025)

Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters
par: Tesch, Kristina, et autres
Publié: (2023)

Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation
par: Hirschkind, Nameer, et autres
Publié: (2024)