Salvato in:
| Autori principali: | Liu, Tianchi, Tao, Ruijie, Wang, Qiongqiong, Jiang, Yidi, Sailor, Hardik B., Zhang, Ke, Lin, Jingru, Li, Haizhou |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2508.19210 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation
di: Wang, Qiongqiong, et al.
Pubblicazione: (2025)
di: Wang, Qiongqiong, et al.
Pubblicazione: (2025)
Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection
di: Pan, Zihan, et al.
Pubblicazione: (2024)
di: Pan, Zihan, et al.
Pubblicazione: (2024)
Voice Conversion Augmentation for Speaker Recognition on Defective Datasets
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024
di: Guragain, Anmol, et al.
Pubblicazione: (2024)
di: Guragain, Anmol, et al.
Pubblicazione: (2024)
Towards Quantifying and Reducing Language Mismatch Effects in Cross-Lingual Speech Anti-Spoofing
di: Liu, Tianchi, et al.
Pubblicazione: (2024)
di: Liu, Tianchi, et al.
Pubblicazione: (2024)
Golden Gemini is All You Need: Finding the Sweet Spots for Speaker Verification
di: Liu, Tianchi, et al.
Pubblicazione: (2023)
di: Liu, Tianchi, et al.
Pubblicazione: (2023)
Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models
di: Wang, Qiongqiong, et al.
Pubblicazione: (2025)
di: Wang, Qiongqiong, et al.
Pubblicazione: (2025)
ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification
di: Ma, Yi, et al.
Pubblicazione: (2025)
di: Ma, Yi, et al.
Pubblicazione: (2025)
Multi-Stage Face-Voice Association Learning with Keynote Speaker Diarization
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio?
di: Liu, Tianchi, et al.
Pubblicazione: (2024)
di: Liu, Tianchi, et al.
Pubblicazione: (2024)
Target Speech Diarization with Multimodal Prompts
di: Jiang, Yidi, et al.
Pubblicazione: (2024)
di: Jiang, Yidi, et al.
Pubblicazione: (2024)
PhiNet: Speaker Verification with Phonetic Interpretability
di: Ma, Yi, et al.
Pubblicazione: (2026)
di: Ma, Yi, et al.
Pubblicazione: (2026)
MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond
di: Huzaifah, Muhammad, et al.
Pubblicazione: (2024)
di: Huzaifah, Muhammad, et al.
Pubblicazione: (2024)
SA-WavLM: Speaker-Aware Self-Supervised Pre-training for Mixture Speech
di: Lin, Jingru, et al.
Pubblicazione: (2024)
di: Lin, Jingru, et al.
Pubblicazione: (2024)
Prompt-driven Target Speech Diarization
di: Jiang, Yidi, et al.
Pubblicazione: (2023)
di: Jiang, Yidi, et al.
Pubblicazione: (2023)
Cosine Scoring with Uncertainty for Neural Speaker Embedding
di: Wang, Qiongqiong, et al.
Pubblicazione: (2024)
di: Wang, Qiongqiong, et al.
Pubblicazione: (2024)
Detect, Attend and Extract: Keyword Guided Target Speaker Extraction
di: Li, Haoyu, et al.
Pubblicazione: (2026)
di: Li, Haoyu, et al.
Pubblicazione: (2026)
USED: Universal Speaker Extraction and Diarization
di: Ao, Junyi, et al.
Pubblicazione: (2023)
di: Ao, Junyi, et al.
Pubblicazione: (2023)
Quantizer-Aware Hierarchical Neural Codec Modeling for Speech Deepfake Detection
di: Wu, Jinyang, et al.
Pubblicazione: (2026)
di: Wu, Jinyang, et al.
Pubblicazione: (2026)
Xi+: Uncertainty Supervision for Robust Speaker Embedding
di: Li, Junjie, et al.
Pubblicazione: (2025)
di: Li, Junjie, et al.
Pubblicazione: (2025)
M-Vec: Matryoshka Speaker Embeddings with Flexible Dimensions
di: Wang, Shuai, et al.
Pubblicazione: (2024)
di: Wang, Shuai, et al.
Pubblicazione: (2024)
Enhancing Real-World Active Speaker Detection with Multi-Modal Extraction Pre-Training
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
Unified Audio Event Detection
di: Jiang, Yidi, et al.
Pubblicazione: (2024)
di: Jiang, Yidi, et al.
Pubblicazione: (2024)
Nes2Net: A Lightweight Nested Architecture for Foundation Model Driven Speech Anti-spoofing
di: Liu, Tianchi, et al.
Pubblicazione: (2025)
di: Liu, Tianchi, et al.
Pubblicazione: (2025)
AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval
di: Lin, Jingru, et al.
Pubblicazione: (2026)
di: Lin, Jingru, et al.
Pubblicazione: (2026)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification
di: Liu, Bei, et al.
Pubblicazione: (2024)
di: Liu, Bei, et al.
Pubblicazione: (2024)
Multi-Level Speaker Representation for Target Speaker Extraction
di: Zhang, Ke, et al.
Pubblicazione: (2024)
di: Zhang, Ke, et al.
Pubblicazione: (2024)
Generalizing Speaker Verification for Spoof Awareness in the Embedding Space
di: Liu, Xuechen, et al.
Pubblicazione: (2024)
di: Liu, Xuechen, et al.
Pubblicazione: (2024)
Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers
di: Iatariene, Taous, et al.
Pubblicazione: (2025)
di: Iatariene, Taous, et al.
Pubblicazione: (2025)
SEED: Speaker Embedding Enhancement Diffusion Model
di: Nam, KiHyun, et al.
Pubblicazione: (2025)
di: Nam, KiHyun, et al.
Pubblicazione: (2025)
NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention
di: De Silva, Dashanka, et al.
Pubblicazione: (2024)
di: De Silva, Dashanka, et al.
Pubblicazione: (2024)
Context-Aware Two-Step Training Scheme for Domain Invariant Speech Separation
di: Wang, Wupeng, et al.
Pubblicazione: (2025)
di: Wang, Wupeng, et al.
Pubblicazione: (2025)
Interpreting the Dimensions of Speaker Embedding Space
di: Huckvale, Mark
Pubblicazione: (2025)
di: Huckvale, Mark
Pubblicazione: (2025)
Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios
di: Alvarez-Trejos, Juan Ignacio, et al.
Pubblicazione: (2024)
di: Alvarez-Trejos, Juan Ignacio, et al.
Pubblicazione: (2024)
Emotional Styles Hide in Deep Speaker Embeddings: Disentangle Deep Speaker Embeddings for Speaker Clustering
di: Lin, Chaohao, et al.
Pubblicazione: (2025)
di: Lin, Chaohao, et al.
Pubblicazione: (2025)
Evaluating Speaker Identity Coding in Self-supervised Models and Humans
di: Elbanna, Gasser
Pubblicazione: (2024)
di: Elbanna, Gasser
Pubblicazione: (2024)
Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs
di: Zhang, Wenyu, et al.
Pubblicazione: (2025)
di: Zhang, Wenyu, et al.
Pubblicazione: (2025)
Flow-TSVAD: Target-Speaker Voice Activity Detection via Latent Flow Matching
di: Chen, Zhengyang, et al.
Pubblicazione: (2024)
di: Chen, Zhengyang, et al.
Pubblicazione: (2024)
DAME: Duration-Aware Matryoshka Embedding for Duration-Robust Speaker Verification
di: Jung, Youngmoon, et al.
Pubblicazione: (2026)
di: Jung, Youngmoon, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation
di: Wang, Qiongqiong, et al.
Pubblicazione: (2025) -
Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection
di: Pan, Zihan, et al.
Pubblicazione: (2024) -
Voice Conversion Augmentation for Speaker Recognition on Defective Datasets
di: Tao, Ruijie, et al.
Pubblicazione: (2024) -
Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024
di: Guragain, Anmol, et al.
Pubblicazione: (2024) -
Towards Quantifying and Reducing Language Mismatch Effects in Cross-Lingual Speech Anti-Spoofing
di: Liu, Tianchi, et al.
Pubblicazione: (2024)