:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Liu, Tianchi, Tao, Ruijie, Wang, Qiongqiong, Jiang, Yidi, Sailor, Hardik B., Zhang, Ke, Lin, Jingru, Li, Haizhou
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Audio and Speech Processing Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2508.19210
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation
di: Wang, Qiongqiong, et al.
Pubblicazione: (2025)

Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection
di: Pan, Zihan, et al.
Pubblicazione: (2024)

Voice Conversion Augmentation for Speaker Recognition on Defective Datasets
di: Tao, Ruijie, et al.
Pubblicazione: (2024)

Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024
di: Guragain, Anmol, et al.
Pubblicazione: (2024)

Towards Quantifying and Reducing Language Mismatch Effects in Cross-Lingual Speech Anti-Spoofing
di: Liu, Tianchi, et al.
Pubblicazione: (2024)

Golden Gemini is All You Need: Finding the Sweet Spots for Speaker Verification
di: Liu, Tianchi, et al.
Pubblicazione: (2023)

Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention
di: Tao, Ruijie, et al.
Pubblicazione: (2024)

Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models
di: Wang, Qiongqiong, et al.
Pubblicazione: (2025)

ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification
di: Ma, Yi, et al.
Pubblicazione: (2025)

Multi-Stage Face-Voice Association Learning with Keynote Speaker Diarization
di: Tao, Ruijie, et al.
Pubblicazione: (2024)

How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio?
di: Liu, Tianchi, et al.
Pubblicazione: (2024)

Target Speech Diarization with Multimodal Prompts
di: Jiang, Yidi, et al.
Pubblicazione: (2024)

PhiNet: Speaker Verification with Phonetic Interpretability
di: Ma, Yi, et al.
Pubblicazione: (2026)

MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond
di: Huzaifah, Muhammad, et al.
Pubblicazione: (2024)

SA-WavLM: Speaker-Aware Self-Supervised Pre-training for Mixture Speech
di: Lin, Jingru, et al.
Pubblicazione: (2024)

Prompt-driven Target Speech Diarization
di: Jiang, Yidi, et al.
Pubblicazione: (2023)

Cosine Scoring with Uncertainty for Neural Speaker Embedding
di: Wang, Qiongqiong, et al.
Pubblicazione: (2024)

Detect, Attend and Extract: Keyword Guided Target Speaker Extraction
di: Li, Haoyu, et al.
Pubblicazione: (2026)

USED: Universal Speaker Extraction and Diarization
di: Ao, Junyi, et al.
Pubblicazione: (2023)

Quantizer-Aware Hierarchical Neural Codec Modeling for Speech Deepfake Detection
di: Wu, Jinyang, et al.
Pubblicazione: (2026)

Xi+: Uncertainty Supervision for Robust Speaker Embedding
di: Li, Junjie, et al.
Pubblicazione: (2025)

M-Vec: Matryoshka Speaker Embeddings with Flexible Dimensions
di: Wang, Shuai, et al.
Pubblicazione: (2024)

Enhancing Real-World Active Speaker Detection with Multi-Modal Extraction Pre-Training
di: Tao, Ruijie, et al.
Pubblicazione: (2024)

Unified Audio Event Detection
di: Jiang, Yidi, et al.
Pubblicazione: (2024)

Nes2Net: A Lightweight Nested Architecture for Foundation Model Driven Speech Anti-spoofing
di: Liu, Tianchi, et al.
Pubblicazione: (2025)

AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval
di: Lin, Jingru, et al.
Pubblicazione: (2026)

Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification
di: Liu, Bei, et al.
Pubblicazione: (2024)

Multi-Level Speaker Representation for Target Speaker Extraction
di: Zhang, Ke, et al.
Pubblicazione: (2024)

Generalizing Speaker Verification for Spoof Awareness in the Embedding Space
di: Liu, Xuechen, et al.
Pubblicazione: (2024)

Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers
di: Iatariene, Taous, et al.
Pubblicazione: (2025)

SEED: Speaker Embedding Enhancement Diffusion Model
di: Nam, KiHyun, et al.
Pubblicazione: (2025)

NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention
di: De Silva, Dashanka, et al.
Pubblicazione: (2024)

Context-Aware Two-Step Training Scheme for Domain Invariant Speech Separation
di: Wang, Wupeng, et al.
Pubblicazione: (2025)

Interpreting the Dimensions of Speaker Embedding Space
di: Huckvale, Mark
Pubblicazione: (2025)

Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios
di: Alvarez-Trejos, Juan Ignacio, et al.
Pubblicazione: (2024)

Emotional Styles Hide in Deep Speaker Embeddings: Disentangle Deep Speaker Embeddings for Speaker Clustering
di: Lin, Chaohao, et al.
Pubblicazione: (2025)

Evaluating Speaker Identity Coding in Self-supervised Models and Humans
di: Elbanna, Gasser
Pubblicazione: (2024)

Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs
di: Zhang, Wenyu, et al.
Pubblicazione: (2025)

Flow-TSVAD: Target-Speaker Voice Activity Detection via Latent Flow Matching
di: Chen, Zhengyang, et al.
Pubblicazione: (2024)

DAME: Duration-Aware Matryoshka Embedding for Duration-Robust Speaker Verification
di: Jung, Youngmoon, et al.
Pubblicazione: (2026)