:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Zhang, Yuanming, Lu, Jing, Chen, Fei, Du, Haoliang, Gao, Xia, Lin, Zhibin
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Sound Artificial Intelligence Computation and Language Audio and Speech Processing
Online-Zugang:	https://arxiv.org/abs/2411.06928
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Decoding Speech Envelopes from Electroencephalogram with a Contrastive Pearson Correlation Coefficient Loss
von: Liang, Yayun, et al.
Veröffentlicht: (2026)

APCodec: A Neural Audio Codec with Parallel Amplitude and Phase Spectrum Encoding and Decoding
von: Ai, Yang, et al.
Veröffentlicht: (2024)

Incorporating Spatial Cues in Modular Speaker Diarization for Multi-channel Multi-party Meetings
von: Wang, Ruoyu, et al.
Veröffentlicht: (2024)

Audio-Visual Speaker Tracking: Progress, Challenges, and Future Directions
von: Zhao, Jinzheng, et al.
Veröffentlicht: (2023)

Review of MEMS Speakers for Audio Applications
von: Wittek, Nils, et al.
Veröffentlicht: (2025)

Utilizing Speaker Profiles for Impersonation Audio Detection
von: Gu, Hao, et al.
Veröffentlicht: (2024)

Online Audio-Visual Autoregressive Speaker Extraction
von: Pan, Zexu, et al.
Veröffentlicht: (2025)

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
von: Jin, Zhan, et al.
Veröffentlicht: (2025)

AVFSNet: Audio-Visual Speech Separation for Flexible Number of Speakers with Multi-Scale and Multi-Task Learning
von: Zhang, Daning, et al.
Veröffentlicht: (2025)

Multi-Speaker Multi-Lingual VQTTS System for LIMMITS 2023 Challenge
von: Du, Chenpeng, et al.
Veröffentlicht: (2023)

Speaker Distance Estimation in Enclosures from Single-Channel Audio
von: Neri, Michael, et al.
Veröffentlicht: (2024)

Can Audio Large Language Models Verify Speaker Identity?
von: Ren, Yiming, et al.
Veröffentlicht: (2025)

Integrated Multi-Level Knowledge Distillation for Enhanced Speaker Verification
von: Yang, Wenhao, et al.
Veröffentlicht: (2024)

Quality-Aware End-to-End Audio-Visual Neural Speaker Diarization
von: He, Mao-Kui, et al.
Veröffentlicht: (2024)

Speaker Contrastive Learning for Source Speaker Tracing
von: Wang, Qing, et al.
Veröffentlicht: (2024)

Pretraining Multi-Speaker Identification for Neural Speaker Diarization
von: Horiguchi, Shota, et al.
Veröffentlicht: (2025)

Multi-Level Speaker Representation for Target Speaker Extraction
von: Zhang, Ke, et al.
Veröffentlicht: (2024)

Decoding Speaker-Normalized Pitch from EEG for Mandarin Perception
von: Chen, Jiaxin, et al.
Veröffentlicht: (2025)

Channel Adaptation for Speaker Verification Using Optimal Transport with Pseudo Label
von: Yang, Wenhao, et al.
Veröffentlicht: (2024)

Robust Target Speaker Direction of Arrival Estimation
von: Li, Zixuan, et al.
Veröffentlicht: (2024)

Pitch-and-Spectrum-Aware Singing Quality Assessment with Bias Correction and Model Fusion
von: Shi, Yu-Fei, et al.
Veröffentlicht: (2024)

Can Large Language Models Understand Spatial Audio?
von: Tang, Changli, et al.
Veröffentlicht: (2024)

Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention
von: Tao, Ruijie, et al.
Veröffentlicht: (2024)

Boosting Unknown-number Speaker Separation with Transformer Decoder-based Attractor
von: Lee, Younglo, et al.
Veröffentlicht: (2024)

Discriminative-Generative Target Speaker Extraction with Decoder-Only Language Models
von: Zeng, Bang, et al.
Veröffentlicht: (2026)

SA-SOT: Speaker-Aware Serialized Output Training for Multi-Talker ASR
von: Fan, Zhiyun, et al.
Veröffentlicht: (2024)

Emotional Styles Hide in Deep Speaker Embeddings: Disentangle Deep Speaker Embeddings for Speaker Clustering
von: Lin, Chaohao, et al.
Veröffentlicht: (2025)

Improving Speaker Representations Using Contrastive Losses on Multi-scale Features
von: Dixit, Satvik, et al.
Veröffentlicht: (2024)

Analysis of Speaker Verification Performance Trade-offs with Neural Audio Codec Transmission
von: Thakur, Nirmalya Mallick, et al.
Veröffentlicht: (2025)

HearFit+: Personalized Fitness Monitoring via Audio Signals on Smart Speakers
von: Xie, Yadong, et al.
Veröffentlicht: (2025)

Joint Speaker Features Learning for Audio-visual Multichannel Speech Separation and Recognition
von: Li, Guinan, et al.
Veröffentlicht: (2024)

Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
von: Jeon, Yejin, et al.
Veröffentlicht: (2024)

Speaker Targeting via Self-Speaker Adaptation for Multi-talker ASR
von: Wang, Weiqing, et al.
Veröffentlicht: (2025)

Universal Spatial Audio Transcoder
von: Sagasti, Amaia, et al.
Veröffentlicht: (2024)

Moving Speaker Separation via Parallel Spectral-Spatial Processing
von: Wang, Yuzhu, et al.
Veröffentlicht: (2026)

Can We Really Repurpose Multi-Speaker ASR Corpus for Speaker Diarization?
von: Horiguchi, Shota, et al.
Veröffentlicht: (2025)

Recursive Attentive Pooling for Extracting Speaker Embeddings from Multi-Speaker Recordings
von: Horiguchi, Shota, et al.
Veröffentlicht: (2024)

From Independence to Interaction: Speaker-Aware Simulation of Multi-Speaker Conversational Timing
von: Gedeon, Máté, et al.
Veröffentlicht: (2025)

Diff-SAGe: End-to-End Spatial Audio Generation Using Diffusion Models
von: Kushwaha, Saksham Singh, et al.
Veröffentlicht: (2024)

APCodec+: A Spectrum-Coding-Based High-Fidelity and High-Compression-Rate Neural Audio Codec with Staged Training Paradigm
von: Du, Hui-Peng, et al.
Veröffentlicht: (2024)