:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Singh, Anup, Arora, Vipul, Demuynck, Kris
Format:	Preprint
Publié:	2025
Sujets:	Audio and Speech Processing
Accès en ligne:	https://arxiv.org/abs/2512.16395
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection
par: Singh, Anup, et autres
Publié: (2024)

Attention-Based Audio Embeddings for Query-by-Example
par: Singh, Anup, et autres
Publié: (2022)

Harmonic Summation-Based Robust Pitch Estimation in Noisy and Reverberant Environments
par: Singh, Anup, et autres
Publié: (2025)

H-QuEST: Accelerating Query-by-Example Spoken Term Detection with Hierarchical Indexing
par: Singh, Akanksha, et autres
Publié: (2025)

Speaker Embeddings With Weakly Supervised Voice Activity Detection For Efficient Speaker Diarization
par: Thienpondt, Jenthe, et autres
Publié: (2024)

ECAPA2: A Hybrid Neural Network Architecture and Training Strategy for Robust Speaker Embeddings
par: Thienpondt, Jenthe, et autres
Publié: (2024)

Weakly Supervised Phonological Features for Pathological Speech Analysis
par: Thienpondt, Jenthe, et autres
Publié: (2025)

Improving Active Learning for Melody Estimation by Disentangling Uncertainties
par: Jaiswal, Aayush, et autres
Publié: (2025)

Explainable Deep Learning Analysis for Raga Identification in Indian Art Music
par: Singh, Parampreet, et autres
Publié: (2024)

Spoken-Term Discovery using Discrete Speech Units
par: van Niekerk, Benjamin, et autres
Publié: (2024)

AudioNet: Supervised Deep Hashing for Retrieval of Similar Audio Events
par: Dutta, Sagar, et autres
Publié: (2025)

Identification and Clustering of Unseen Ragas in Indian Art Music
par: Singh, Parampreet, et autres
Publié: (2024)

Automatic Detection and Analysis of Singing Mistakes for Music Pedagogy
par: Kumar, Sumit, et autres
Publié: (2026)

SyncNet: correlating objective for time delay estimation in audio signals
par: Raina, Akshay, et autres
Publié: (2022)

Uncertainty Quantification in Melody Estimation using Histogram Representation
par: Saxena, Kavya Ranjan, et autres
Publié: (2025)

Meta-learning-based percussion transcription and $t\bar{a}la$ identification from low-resource audio
par: Kodag, Rahul Bapusaheb, et autres
Publié: (2025)

Weakly Supervised Tabla Stroke Transcription via TI-SDRM: A Rhythm-Aware Lattice Rescoring Framework
par: Kodag, Rahul Bapusaheb, et autres
Publié: (2026)

Scaling Spoken Language Models with Syllabic Speech Tokenization
par: Lee, Nicholas, et autres
Publié: (2025)

Written Term Detection Improves Spoken Term Detection
par: Yusuf, Bolaji, et autres
Publié: (2024)

Interactive singing melody extraction based on active adaptation
par: Saxena, Kavya Ranjan, et autres
Publié: (2024)

$T\bar{a}laGen:$ A System for Automatic $T\bar{a}la$ Identification and Generation
par: Kodag, Rahul Bapusaheb, et autres
Publié: (2024)

Learning from Limited Labels: Transductive Graph Label Propagation for Indian Music Analysis
par: Singh, Parampreet, et autres
Publié: (2026)

Learning to Discover: A Generalized Framework for Raga Identification without Forgetting
par: Singh, Parampreet, et autres
Publié: (2026)

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
par: Tseng, Liang-Hsuan, et autres
Publié: (2025)

Recognizing Ornaments in Vocal Indian Art Music with Active Annotation
par: Kumar, Sumit, et autres
Publié: (2025)

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction
par: Yang, Shu-wen, et autres
Publié: (2025)

M-BEST-RQ: A Multi-Channel Speech Foundation Model for Smart Glasses
par: Yang, Yufeng, et autres
Publié: (2024)

On the Evaluation of Speech Foundation Models for Spoken Language Understanding
par: Arora, Siddhant, et autres
Publié: (2024)

Spoken Language Corpora Augmentation with Domain-Specific Voice-Cloned Speech
par: Czyżnikiewicz, Mateusz, et autres
Publié: (2024)

TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR
par: Ravi, Nagarathna, et autres
Publié: (2024)

SSDM 2.0: Time-Accurate Speech Rich Transcription with Non-Fluencies
par: Lian, Jiachen, et autres
Publié: (2024)

Textless Streaming Speech-to-Speech Translation using Semantic Speech Tokens
par: Zhao, Jinzheng, et autres
Publié: (2024)

DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action
par: Zhang, Haoyang, et autres
Publié: (2026)

Finding Task-specific Subnetworks in Multi-task Spoken Language Understanding Model
par: Futami, Hayato, et autres
Publié: (2024)

WHISMA: A Speech-LLM to Perform Zero-shot Spoken Language Understanding
par: Li, Mohan, et autres
Publié: (2024)

Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems
par: Zink, Oswald, et autres
Publié: (2024)

DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models
par: Chang, Heng-Jui, et autres
Publié: (2024)

Speech Token Prediction via Compressed-to-fine Language Modeling for Speech Generation
par: Liu, Wenrui, et autres
Publié: (2025)

Hypothesis Clustering and Merging: Novel MultiTalker Speech Recognition with Speaker Tokens
par: Kashiwagi, Yosuke, et autres
Publié: (2024)

Cross-Lingual Query-by-Example Spoken Term Detection: A Transformer-Based Approach
par: Fatemeh, Allahdadi, et autres
Publié: (2024)