Gespeichert in:
| Hauptverfasser: | Zhang, Yuanming, Lu, Jing, Chen, Fei, Du, Haoliang, Gao, Xia, Lin, Zhibin |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2411.06928 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Decoding Speech Envelopes from Electroencephalogram with a Contrastive Pearson Correlation Coefficient Loss
von: Liang, Yayun, et al.
Veröffentlicht: (2026)
von: Liang, Yayun, et al.
Veröffentlicht: (2026)
APCodec: A Neural Audio Codec with Parallel Amplitude and Phase Spectrum Encoding and Decoding
von: Ai, Yang, et al.
Veröffentlicht: (2024)
von: Ai, Yang, et al.
Veröffentlicht: (2024)
Incorporating Spatial Cues in Modular Speaker Diarization for Multi-channel Multi-party Meetings
von: Wang, Ruoyu, et al.
Veröffentlicht: (2024)
von: Wang, Ruoyu, et al.
Veröffentlicht: (2024)
Audio-Visual Speaker Tracking: Progress, Challenges, and Future Directions
von: Zhao, Jinzheng, et al.
Veröffentlicht: (2023)
von: Zhao, Jinzheng, et al.
Veröffentlicht: (2023)
Review of MEMS Speakers for Audio Applications
von: Wittek, Nils, et al.
Veröffentlicht: (2025)
von: Wittek, Nils, et al.
Veröffentlicht: (2025)
Utilizing Speaker Profiles for Impersonation Audio Detection
von: Gu, Hao, et al.
Veröffentlicht: (2024)
von: Gu, Hao, et al.
Veröffentlicht: (2024)
Online Audio-Visual Autoregressive Speaker Extraction
von: Pan, Zexu, et al.
Veröffentlicht: (2025)
von: Pan, Zexu, et al.
Veröffentlicht: (2025)
Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
von: Jin, Zhan, et al.
Veröffentlicht: (2025)
von: Jin, Zhan, et al.
Veröffentlicht: (2025)
AVFSNet: Audio-Visual Speech Separation for Flexible Number of Speakers with Multi-Scale and Multi-Task Learning
von: Zhang, Daning, et al.
Veröffentlicht: (2025)
von: Zhang, Daning, et al.
Veröffentlicht: (2025)
Multi-Speaker Multi-Lingual VQTTS System for LIMMITS 2023 Challenge
von: Du, Chenpeng, et al.
Veröffentlicht: (2023)
von: Du, Chenpeng, et al.
Veröffentlicht: (2023)
Speaker Distance Estimation in Enclosures from Single-Channel Audio
von: Neri, Michael, et al.
Veröffentlicht: (2024)
von: Neri, Michael, et al.
Veröffentlicht: (2024)
Can Audio Large Language Models Verify Speaker Identity?
von: Ren, Yiming, et al.
Veröffentlicht: (2025)
von: Ren, Yiming, et al.
Veröffentlicht: (2025)
Integrated Multi-Level Knowledge Distillation for Enhanced Speaker Verification
von: Yang, Wenhao, et al.
Veröffentlicht: (2024)
von: Yang, Wenhao, et al.
Veröffentlicht: (2024)
Quality-Aware End-to-End Audio-Visual Neural Speaker Diarization
von: He, Mao-Kui, et al.
Veröffentlicht: (2024)
von: He, Mao-Kui, et al.
Veröffentlicht: (2024)
Speaker Contrastive Learning for Source Speaker Tracing
von: Wang, Qing, et al.
Veröffentlicht: (2024)
von: Wang, Qing, et al.
Veröffentlicht: (2024)
Pretraining Multi-Speaker Identification for Neural Speaker Diarization
von: Horiguchi, Shota, et al.
Veröffentlicht: (2025)
von: Horiguchi, Shota, et al.
Veröffentlicht: (2025)
Multi-Level Speaker Representation for Target Speaker Extraction
von: Zhang, Ke, et al.
Veröffentlicht: (2024)
von: Zhang, Ke, et al.
Veröffentlicht: (2024)
Decoding Speaker-Normalized Pitch from EEG for Mandarin Perception
von: Chen, Jiaxin, et al.
Veröffentlicht: (2025)
von: Chen, Jiaxin, et al.
Veröffentlicht: (2025)
Channel Adaptation for Speaker Verification Using Optimal Transport with Pseudo Label
von: Yang, Wenhao, et al.
Veröffentlicht: (2024)
von: Yang, Wenhao, et al.
Veröffentlicht: (2024)
Robust Target Speaker Direction of Arrival Estimation
von: Li, Zixuan, et al.
Veröffentlicht: (2024)
von: Li, Zixuan, et al.
Veröffentlicht: (2024)
Pitch-and-Spectrum-Aware Singing Quality Assessment with Bias Correction and Model Fusion
von: Shi, Yu-Fei, et al.
Veröffentlicht: (2024)
von: Shi, Yu-Fei, et al.
Veröffentlicht: (2024)
Can Large Language Models Understand Spatial Audio?
von: Tang, Changli, et al.
Veröffentlicht: (2024)
von: Tang, Changli, et al.
Veröffentlicht: (2024)
Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention
von: Tao, Ruijie, et al.
Veröffentlicht: (2024)
von: Tao, Ruijie, et al.
Veröffentlicht: (2024)
Boosting Unknown-number Speaker Separation with Transformer Decoder-based Attractor
von: Lee, Younglo, et al.
Veröffentlicht: (2024)
von: Lee, Younglo, et al.
Veröffentlicht: (2024)
Discriminative-Generative Target Speaker Extraction with Decoder-Only Language Models
von: Zeng, Bang, et al.
Veröffentlicht: (2026)
von: Zeng, Bang, et al.
Veröffentlicht: (2026)
SA-SOT: Speaker-Aware Serialized Output Training for Multi-Talker ASR
von: Fan, Zhiyun, et al.
Veröffentlicht: (2024)
von: Fan, Zhiyun, et al.
Veröffentlicht: (2024)
Emotional Styles Hide in Deep Speaker Embeddings: Disentangle Deep Speaker Embeddings for Speaker Clustering
von: Lin, Chaohao, et al.
Veröffentlicht: (2025)
von: Lin, Chaohao, et al.
Veröffentlicht: (2025)
Improving Speaker Representations Using Contrastive Losses on Multi-scale Features
von: Dixit, Satvik, et al.
Veröffentlicht: (2024)
von: Dixit, Satvik, et al.
Veröffentlicht: (2024)
Analysis of Speaker Verification Performance Trade-offs with Neural Audio Codec Transmission
von: Thakur, Nirmalya Mallick, et al.
Veröffentlicht: (2025)
von: Thakur, Nirmalya Mallick, et al.
Veröffentlicht: (2025)
HearFit+: Personalized Fitness Monitoring via Audio Signals on Smart Speakers
von: Xie, Yadong, et al.
Veröffentlicht: (2025)
von: Xie, Yadong, et al.
Veröffentlicht: (2025)
Joint Speaker Features Learning for Audio-visual Multichannel Speech Separation and Recognition
von: Li, Guinan, et al.
Veröffentlicht: (2024)
von: Li, Guinan, et al.
Veröffentlicht: (2024)
Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
von: Jeon, Yejin, et al.
Veröffentlicht: (2024)
von: Jeon, Yejin, et al.
Veröffentlicht: (2024)
Speaker Targeting via Self-Speaker Adaptation for Multi-talker ASR
von: Wang, Weiqing, et al.
Veröffentlicht: (2025)
von: Wang, Weiqing, et al.
Veröffentlicht: (2025)
Universal Spatial Audio Transcoder
von: Sagasti, Amaia, et al.
Veröffentlicht: (2024)
von: Sagasti, Amaia, et al.
Veröffentlicht: (2024)
Moving Speaker Separation via Parallel Spectral-Spatial Processing
von: Wang, Yuzhu, et al.
Veröffentlicht: (2026)
von: Wang, Yuzhu, et al.
Veröffentlicht: (2026)
Can We Really Repurpose Multi-Speaker ASR Corpus for Speaker Diarization?
von: Horiguchi, Shota, et al.
Veröffentlicht: (2025)
von: Horiguchi, Shota, et al.
Veröffentlicht: (2025)
Recursive Attentive Pooling for Extracting Speaker Embeddings from Multi-Speaker Recordings
von: Horiguchi, Shota, et al.
Veröffentlicht: (2024)
von: Horiguchi, Shota, et al.
Veröffentlicht: (2024)
From Independence to Interaction: Speaker-Aware Simulation of Multi-Speaker Conversational Timing
von: Gedeon, Máté, et al.
Veröffentlicht: (2025)
von: Gedeon, Máté, et al.
Veröffentlicht: (2025)
Diff-SAGe: End-to-End Spatial Audio Generation Using Diffusion Models
von: Kushwaha, Saksham Singh, et al.
Veröffentlicht: (2024)
von: Kushwaha, Saksham Singh, et al.
Veröffentlicht: (2024)
APCodec+: A Spectrum-Coding-Based High-Fidelity and High-Compression-Rate Neural Audio Codec with Staged Training Paradigm
von: Du, Hui-Peng, et al.
Veröffentlicht: (2024)
von: Du, Hui-Peng, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Decoding Speech Envelopes from Electroencephalogram with a Contrastive Pearson Correlation Coefficient Loss
von: Liang, Yayun, et al.
Veröffentlicht: (2026) -
APCodec: A Neural Audio Codec with Parallel Amplitude and Phase Spectrum Encoding and Decoding
von: Ai, Yang, et al.
Veröffentlicht: (2024) -
Incorporating Spatial Cues in Modular Speaker Diarization for Multi-channel Multi-party Meetings
von: Wang, Ruoyu, et al.
Veröffentlicht: (2024) -
Audio-Visual Speaker Tracking: Progress, Challenges, and Future Directions
von: Zhao, Jinzheng, et al.
Veröffentlicht: (2023) -
Review of MEMS Speakers for Audio Applications
von: Wittek, Nils, et al.
Veröffentlicht: (2025)