:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Xie, Xuemai, Wang, Xianrui, Zhang, Liyuan, Yang, Yichen, Makino, Shoji
Format:	Preprint
Publié:	2025
Sujets:	Sound Audio and Speech Processing
Accès en ligne:	https://arxiv.org/abs/2510.02382
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Robust Online Overdetermined Independent Vector Analysis Based on Bilinear Decomposition
par: Chen, Kang, et autres
Publié: (2026)

Determined Multichannel Blind Source Separation with Clustered Source Model
par: Wang, Jianyu, et autres
Publié: (2024)

Unrestricted Global Phase Bias-Aware Single-channel Speech Enhancement with Conformer-based Metric GAN
par: Zhang, Shiqi, et autres
Publié: (2024)

Low algorithmic delay implementation of convolutional beamformer for online joint source separation and dereverberation
par: Mo, Kaien, et autres
Publié: (2024)

Multichannel AV-wav2vec2: A Framework for Learning Multichannel Multi-Modal Speech Representation
par: Zhu, Qiushi, et autres
Publié: (2024)

Multichannel Voice Trigger Detection Based on Transform-average-concatenate
par: Higuchi, Takuya, et autres
Publié: (2023)

Neural Network-Based Time-Frequency-Bin-Wise Linear Combination of Beamformers for Underdetermined Target Source Extraction
par: Chen, Changda, et autres
Publié: (2026)

Multichannel-to-Multichannel Target Sound Extraction Using Direction and Timestamp Clues
par: Choi, Dayun, et autres
Publié: (2024)

Joint Speaker Features Learning for Audio-visual Multichannel Speech Separation and Recognition
par: Li, Guinan, et autres
Publié: (2024)

Multichannel Keyword Spotting for Noisy Conditions
par: Saladukha, Dzmitry, et autres
Publié: (2025)

Steered Response Power for Sound Source Localization: A Tutorial Review
par: Grinstein, Eric, et autres
Publié: (2024)

Multichannel blind speech source separation with a disjoint constraint source model
par: Wang, Jianyu, et autres
Publié: (2024)

A Steered Response Power Method for Sound Source Localization With Generic Acoustic Models
par: Müller, Kaspar, et autres
Publié: (2025)

Leveraging Joint Spectral and Spatial Learning with MAMBA for Multichannel Speech Enhancement
par: Ren, Wenze, et autres
Publié: (2024)

A Phoneme-Scale Assessment of Multichannel Speech Enhancement Algorithms
par: Monir, Nasser-Eddine, et autres
Publié: (2024)

Llasa+: Free Lunch for Accelerated and Streaming Llama-Based Speech Synthesis
par: Tian, Wenjie, et autres
Publié: (2025)

Decoupled Spatial and Temporal Processing for Resource Efficient Multichannel Speech Enhancement
par: Pandey, Ashutosh, et autres
Publié: (2024)

On the Importance of Neural Wiener Filter for Resource Efficient Multichannel Speech Enhancement
par: Hsieh, Tsun-An, et autres
Publié: (2024)

Evaluating Multichannel Speech Enhancement Algorithms at the Phoneme Scale Across Genders
par: Monir, Nasser-Eddine, et autres
Publié: (2025)

LABNet: A Lightweight Attentive Beamforming Network for Ad-hoc Multichannel Microphone Invariant Real-Time Speech Enhancement
par: Yan, Haoyin, et autres
Publié: (2025)

Mel-McNet: A Mel-Scale Framework for Online Multichannel Speech Enhancement
par: Yang, Yujie, et autres
Publié: (2025)

DeFT-Mamba: Universal Multichannel Sound Separation and Polyphonic Audio Classification
par: Lee, Dongheon, et autres
Publié: (2024)

A Novel Deep Learning Framework for Efficient Multichannel Acoustic Feedback Control
par: Wu, Yuan-Kuei, et autres
Publié: (2025)

Multichannel Long-Term Streaming Neural Speech Enhancement for Static and Moving Speakers
par: Quan, Changsheng, et autres
Publié: (2024)

Neural Steerer: Novel Steering Vector Synthesis with a Causal Neural Field over Frequency and Source Positions
par: Di Carlo, Diego, et autres
Publié: (2023)

Accelerating Flow-Matching-Based Text-to-Speech via Empirically Pruned Step Sampling
par: Zheng, Qixi, et autres
Publié: (2025)

Head-Related Transfer Function Individualization Using Anthropometric Features and Spatially Independent Latent Representation
par: Niu, Ryan, et autres
Publié: (2025)

Speaker Contrastive Learning for Source Speaker Tracing
par: Wang, Qing, et autres
Publié: (2024)

Event Classification by Physics-informed Inpainting for Distributed Multichannel Acoustic Sensor with Partially Degraded Channels
par: Tonami, Noriyuki, et autres
Publié: (2026)

Embedding-Based Intrusive Evaluation Metrics for Musical Source Separation Using MERT Representations
par: Bereuter, Paul A., et autres
Publié: (2026)

EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering
par: Xie, Tianxin, et autres
Publié: (2025)

3D Room Geometry Inference from Multichannel Room Impulse Response using Deep Neural Network
par: Yeon, Inmo, et autres
Publié: (2024)

DualVC 2: Dynamic Masked Convolution for Unified Streaming and Non-Streaming Voice Conversion
par: Ning, Ziqian, et autres
Publié: (2023)

Unraveling Complex Data Diversity in Underwater Acoustic Target Recognition through Convolution-based Mixture of Experts
par: Xie, Yuan, et autres
Publié: (2024)

EDSep: An Effective Diffusion-Based Method for Speech Source Separation
par: Dong, Jinwei, et autres
Publié: (2025)

Low-Complexity Acoustic Scene Classification Using Parallel Attention-Convolution Network
par: Li, Yanxiong, et autres
Publié: (2024)

Steer-by-prior Editing of Symbolic Music Loops
par: Jonason, Nicolas, et autres
Publié: (2024)

Advancing Continual Learning for Robust Deepfake Audio Classification
par: Dong, Feiyi, et autres
Publié: (2024)

D3-Guard: Acoustic-based Drowsy Driving Detection Using Smartphones
par: Xie, Yadong, et autres
Publié: (2025)

Iterative Prototype Refinement for Ambiguous Speech Emotion Recognition
par: Sun, Haoqin, et autres
Publié: (2024)