Enregistré dans:
| Auteurs principaux: | Singh, Anup, Arora, Vipul, Demuynck, Kris |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2512.16395 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection
par: Singh, Anup, et autres
Publié: (2024)
par: Singh, Anup, et autres
Publié: (2024)
Attention-Based Audio Embeddings for Query-by-Example
par: Singh, Anup, et autres
Publié: (2022)
par: Singh, Anup, et autres
Publié: (2022)
Harmonic Summation-Based Robust Pitch Estimation in Noisy and Reverberant Environments
par: Singh, Anup, et autres
Publié: (2025)
par: Singh, Anup, et autres
Publié: (2025)
H-QuEST: Accelerating Query-by-Example Spoken Term Detection with Hierarchical Indexing
par: Singh, Akanksha, et autres
Publié: (2025)
par: Singh, Akanksha, et autres
Publié: (2025)
Speaker Embeddings With Weakly Supervised Voice Activity Detection For Efficient Speaker Diarization
par: Thienpondt, Jenthe, et autres
Publié: (2024)
par: Thienpondt, Jenthe, et autres
Publié: (2024)
ECAPA2: A Hybrid Neural Network Architecture and Training Strategy for Robust Speaker Embeddings
par: Thienpondt, Jenthe, et autres
Publié: (2024)
par: Thienpondt, Jenthe, et autres
Publié: (2024)
Weakly Supervised Phonological Features for Pathological Speech Analysis
par: Thienpondt, Jenthe, et autres
Publié: (2025)
par: Thienpondt, Jenthe, et autres
Publié: (2025)
Improving Active Learning for Melody Estimation by Disentangling Uncertainties
par: Jaiswal, Aayush, et autres
Publié: (2025)
par: Jaiswal, Aayush, et autres
Publié: (2025)
Explainable Deep Learning Analysis for Raga Identification in Indian Art Music
par: Singh, Parampreet, et autres
Publié: (2024)
par: Singh, Parampreet, et autres
Publié: (2024)
Spoken-Term Discovery using Discrete Speech Units
par: van Niekerk, Benjamin, et autres
Publié: (2024)
par: van Niekerk, Benjamin, et autres
Publié: (2024)
AudioNet: Supervised Deep Hashing for Retrieval of Similar Audio Events
par: Dutta, Sagar, et autres
Publié: (2025)
par: Dutta, Sagar, et autres
Publié: (2025)
Identification and Clustering of Unseen Ragas in Indian Art Music
par: Singh, Parampreet, et autres
Publié: (2024)
par: Singh, Parampreet, et autres
Publié: (2024)
Automatic Detection and Analysis of Singing Mistakes for Music Pedagogy
par: Kumar, Sumit, et autres
Publié: (2026)
par: Kumar, Sumit, et autres
Publié: (2026)
SyncNet: correlating objective for time delay estimation in audio signals
par: Raina, Akshay, et autres
Publié: (2022)
par: Raina, Akshay, et autres
Publié: (2022)
Uncertainty Quantification in Melody Estimation using Histogram Representation
par: Saxena, Kavya Ranjan, et autres
Publié: (2025)
par: Saxena, Kavya Ranjan, et autres
Publié: (2025)
Meta-learning-based percussion transcription and $t\bar{a}la$ identification from low-resource audio
par: Kodag, Rahul Bapusaheb, et autres
Publié: (2025)
par: Kodag, Rahul Bapusaheb, et autres
Publié: (2025)
Weakly Supervised Tabla Stroke Transcription via TI-SDRM: A Rhythm-Aware Lattice Rescoring Framework
par: Kodag, Rahul Bapusaheb, et autres
Publié: (2026)
par: Kodag, Rahul Bapusaheb, et autres
Publié: (2026)
Scaling Spoken Language Models with Syllabic Speech Tokenization
par: Lee, Nicholas, et autres
Publié: (2025)
par: Lee, Nicholas, et autres
Publié: (2025)
Written Term Detection Improves Spoken Term Detection
par: Yusuf, Bolaji, et autres
Publié: (2024)
par: Yusuf, Bolaji, et autres
Publié: (2024)
Interactive singing melody extraction based on active adaptation
par: Saxena, Kavya Ranjan, et autres
Publié: (2024)
par: Saxena, Kavya Ranjan, et autres
Publié: (2024)
$T\bar{a}laGen:$ A System for Automatic $T\bar{a}la$ Identification and Generation
par: Kodag, Rahul Bapusaheb, et autres
Publié: (2024)
par: Kodag, Rahul Bapusaheb, et autres
Publié: (2024)
Learning from Limited Labels: Transductive Graph Label Propagation for Indian Music Analysis
par: Singh, Parampreet, et autres
Publié: (2026)
par: Singh, Parampreet, et autres
Publié: (2026)
Learning to Discover: A Generalized Framework for Raga Identification without Forgetting
par: Singh, Parampreet, et autres
Publié: (2026)
par: Singh, Parampreet, et autres
Publié: (2026)
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
par: Tseng, Liang-Hsuan, et autres
Publié: (2025)
par: Tseng, Liang-Hsuan, et autres
Publié: (2025)
Recognizing Ornaments in Vocal Indian Art Music with Active Annotation
par: Kumar, Sumit, et autres
Publié: (2025)
par: Kumar, Sumit, et autres
Publié: (2025)
ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction
par: Yang, Shu-wen, et autres
Publié: (2025)
par: Yang, Shu-wen, et autres
Publié: (2025)
M-BEST-RQ: A Multi-Channel Speech Foundation Model for Smart Glasses
par: Yang, Yufeng, et autres
Publié: (2024)
par: Yang, Yufeng, et autres
Publié: (2024)
On the Evaluation of Speech Foundation Models for Spoken Language Understanding
par: Arora, Siddhant, et autres
Publié: (2024)
par: Arora, Siddhant, et autres
Publié: (2024)
Spoken Language Corpora Augmentation with Domain-Specific Voice-Cloned Speech
par: Czyżnikiewicz, Mateusz, et autres
Publié: (2024)
par: Czyżnikiewicz, Mateusz, et autres
Publié: (2024)
TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR
par: Ravi, Nagarathna, et autres
Publié: (2024)
par: Ravi, Nagarathna, et autres
Publié: (2024)
SSDM 2.0: Time-Accurate Speech Rich Transcription with Non-Fluencies
par: Lian, Jiachen, et autres
Publié: (2024)
par: Lian, Jiachen, et autres
Publié: (2024)
Textless Streaming Speech-to-Speech Translation using Semantic Speech Tokens
par: Zhao, Jinzheng, et autres
Publié: (2024)
par: Zhao, Jinzheng, et autres
Publié: (2024)
DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action
par: Zhang, Haoyang, et autres
Publié: (2026)
par: Zhang, Haoyang, et autres
Publié: (2026)
Finding Task-specific Subnetworks in Multi-task Spoken Language Understanding Model
par: Futami, Hayato, et autres
Publié: (2024)
par: Futami, Hayato, et autres
Publié: (2024)
WHISMA: A Speech-LLM to Perform Zero-shot Spoken Language Understanding
par: Li, Mohan, et autres
Publié: (2024)
par: Li, Mohan, et autres
Publié: (2024)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems
par: Zink, Oswald, et autres
Publié: (2024)
par: Zink, Oswald, et autres
Publié: (2024)
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models
par: Chang, Heng-Jui, et autres
Publié: (2024)
par: Chang, Heng-Jui, et autres
Publié: (2024)
Speech Token Prediction via Compressed-to-fine Language Modeling for Speech Generation
par: Liu, Wenrui, et autres
Publié: (2025)
par: Liu, Wenrui, et autres
Publié: (2025)
Hypothesis Clustering and Merging: Novel MultiTalker Speech Recognition with Speaker Tokens
par: Kashiwagi, Yosuke, et autres
Publié: (2024)
par: Kashiwagi, Yosuke, et autres
Publié: (2024)
Cross-Lingual Query-by-Example Spoken Term Detection: A Transformer-Based Approach
par: Fatemeh, Allahdadi, et autres
Publié: (2024)
par: Fatemeh, Allahdadi, et autres
Publié: (2024)
Documents similaires
-
BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection
par: Singh, Anup, et autres
Publié: (2024) -
Attention-Based Audio Embeddings for Query-by-Example
par: Singh, Anup, et autres
Publié: (2022) -
Harmonic Summation-Based Robust Pitch Estimation in Noisy and Reverberant Environments
par: Singh, Anup, et autres
Publié: (2025) -
H-QuEST: Accelerating Query-by-Example Spoken Term Detection with Hierarchical Indexing
par: Singh, Akanksha, et autres
Publié: (2025) -
Speaker Embeddings With Weakly Supervised Voice Activity Detection For Efficient Speaker Diarization
par: Thienpondt, Jenthe, et autres
Publié: (2024)