Enregistré dans:
| Auteurs principaux: | Mørk, Jacob, Bovbjerg, Holger Severin, Kiss, Gergely, Tan, Zheng-Hua |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2403.18560 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Self-supervised Pretraining for Robust Personalized Voice Activity Detection in Adverse Conditions
par: Bovbjerg, Holger Severin, et autres
Publié: (2023)
par: Bovbjerg, Holger Severin, et autres
Publié: (2023)
Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining
par: Bovbjerg, Holger Severin, et autres
Publié: (2025)
par: Bovbjerg, Holger Severin, et autres
Publié: (2025)
Learning Robust Spatial Representations from Binaural Audio through Feature Distillation
par: Bovbjerg, Holger Severin, et autres
Publié: (2025)
par: Bovbjerg, Holger Severin, et autres
Publié: (2025)
Rethinking Masking Strategies for Masked Prediction-based Audio Self-supervised Learning
par: Niizumi, Daisuke, et autres
Publié: (2026)
par: Niizumi, Daisuke, et autres
Publié: (2026)
Joint Feature and Output Distillation for Low-complexity Acoustic Scene Classification
par: Li, Haowen, et autres
Publié: (2025)
par: Li, Haowen, et autres
Publié: (2025)
Audio-based Kinship Verification Using Age Domain Conversion
par: Sun, Qiyang, et autres
Publié: (2024)
par: Sun, Qiyang, et autres
Publié: (2024)
KinSPEAK: Improving speech recognition for Kinyarwanda via semi-supervised learning methods
par: Nzeyimana, Antoine
Publié: (2023)
par: Nzeyimana, Antoine
Publié: (2023)
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens
par: Mehta, Shivam, et autres
Publié: (2025)
par: Mehta, Shivam, et autres
Publié: (2025)
ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio
par: Poltronieri, Andrea, et autres
Publié: (2024)
par: Poltronieri, Andrea, et autres
Publié: (2024)
Symbolic Audio Classification via Modal Decision Tree Learning
par: Marzano, Enrico, et autres
Publié: (2025)
par: Marzano, Enrico, et autres
Publié: (2025)
Passive Underwater Acoustic Signal Separation based on Feature Decoupling Dual-path Network
par: Liu, Yucheng, et autres
Publié: (2025)
par: Liu, Yucheng, et autres
Publié: (2025)
Local Diagnostics of Continuous Normalizing Flow for Out-of-Distribution Detection
par: Cao, Xinwei, et autres
Publié: (2026)
par: Cao, Xinwei, et autres
Publié: (2026)
SemAlignVC: Enhancing zero-shot timbre conversion using semantic alignment
par: Mehta, Shivam, et autres
Publié: (2025)
par: Mehta, Shivam, et autres
Publié: (2025)
TuneGenie: Reasoning-based LLM agents for preferential music generation
par: Pandey, Amitesh, et autres
Publié: (2025)
par: Pandey, Amitesh, et autres
Publié: (2025)
Should you use a probabilistic duration model in TTS? Probably! Especially for spontaneous speech
par: Mehta, Shivam, et autres
Publié: (2024)
par: Mehta, Shivam, et autres
Publié: (2024)
Experimental Study: Enhancing Voice Spoofing Detection Models with wav2vec 2.0
par: Kang, Taein, et autres
Publié: (2024)
par: Kang, Taein, et autres
Publié: (2024)
Beyond Deep Learning: Speech Segmentation and Phone Classification with Neural Assemblies
par: Adelson, Trevor, et autres
Publié: (2026)
par: Adelson, Trevor, et autres
Publié: (2026)
A Multimodal Symphony: Integrating Taste and Sound through Generative AI
par: Spanio, Matteo, et autres
Publié: (2025)
par: Spanio, Matteo, et autres
Publié: (2025)
Prevailing Research Areas for Music AI in the Era of Foundation Models
par: Wei, Megan, et autres
Publié: (2024)
par: Wei, Megan, et autres
Publié: (2024)
Matcha-TTS: A fast TTS architecture with conditional flow matching
par: Mehta, Shivam, et autres
Publié: (2023)
par: Mehta, Shivam, et autres
Publié: (2023)
HELIX: Scaling Raw Audio Understanding with Hybrid Mamba-Attention Beyond the Quadratic Limit
par: Khushiyant, et autres
Publié: (2026)
par: Khushiyant, et autres
Publié: (2026)
Quantum-Enhanced Analysis and Grading of Vocal Performance
par: Agarwal, Rohan
Publié: (2025)
par: Agarwal, Rohan
Publié: (2025)
Modeling L1 Influence on L2 Pronunciation: An MFCC-Based Framework for Explainable Machine Learning and Pedagogical Feedback
par: Jahanbin, Peyman
Publié: (2025)
par: Jahanbin, Peyman
Publié: (2025)
NTC-KWS: Noise-aware CTC for Robust Keyword Spotting
par: Xi, Yu, et autres
Publié: (2024)
par: Xi, Yu, et autres
Publié: (2024)
Unified speech and gesture synthesis using flow matching
par: Mehta, Shivam, et autres
Publié: (2023)
par: Mehta, Shivam, et autres
Publié: (2023)
CAST-TTS: A Simple Cross-Attention Framework for Unified Timbre Control in TTS
par: Zheng, Zihao, et autres
Publié: (2026)
par: Zheng, Zihao, et autres
Publié: (2026)
GraFPrint: A GNN-Based Approach for Audio Identification
par: Bhattacharjee, Aditya, et autres
Publié: (2024)
par: Bhattacharjee, Aditya, et autres
Publié: (2024)
Audio Foundation Models Outperform Symbolic Representations for Piano Performance Evaluation
par: Dhiman, Jai
Publié: (2026)
par: Dhiman, Jai
Publié: (2026)
Scalable Evaluation for Audio Identification via Synthetic Latent Fingerprint Generation
par: Bhattacharjee, Aditya, et autres
Publié: (2025)
par: Bhattacharjee, Aditya, et autres
Publié: (2025)
PicoAudio2: Temporal Controllable Text-to-Audio Generation with Natural Language Description
par: Zheng, Zihao, et autres
Publié: (2025)
par: Zheng, Zihao, et autres
Publié: (2025)
FakeSound: Deepfake General Audio Detection
par: Xie, Zeyu, et autres
Publié: (2024)
par: Xie, Zeyu, et autres
Publié: (2024)
Fine-tuning Pre-trained Audio Models for COVID-19 Detection: A Technical Report
par: de Brito, Daniel Oliveira, et autres
Publié: (2025)
par: de Brito, Daniel Oliveira, et autres
Publié: (2025)
Deepfake audio as a data augmentation technique for training automatic speech to text transcription models
par: Ferreira, Alexandre R., et autres
Publié: (2023)
par: Ferreira, Alexandre R., et autres
Publié: (2023)
Quantization-Based Score Calibration for Few-Shot Keyword Spotting with Dynamic Time Warping in Noisy Environments
par: Wilkinghoff, Kevin, et autres
Publié: (2025)
par: Wilkinghoff, Kevin, et autres
Publié: (2025)
Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering
par: Aristorenas, Aris J.
Publié: (2024)
par: Aristorenas, Aris J.
Publié: (2024)
Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-task Multi-Scale Network
par: He, Zhanhong, et autres
Publié: (2025)
par: He, Zhanhong, et autres
Publié: (2025)
Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
par: Richter-Powell, Jessie, et autres
Publié: (2025)
par: Richter-Powell, Jessie, et autres
Publié: (2025)
Reciprocal Latent Fields for Precomputed Sound Propagation
par: Seuté, Hugo, et autres
Publié: (2026)
par: Seuté, Hugo, et autres
Publié: (2026)
STAR: Speech-to-Audio Generation via Representation Learning
par: Xie, Zeyu, et autres
Publié: (2025)
par: Xie, Zeyu, et autres
Publié: (2025)
FakeSound2: A Benchmark for Explainable and Generalizable Deepfake Sound Detection
par: Xie, Zeyu, et autres
Publié: (2025)
par: Xie, Zeyu, et autres
Publié: (2025)
Documents similaires
-
Self-supervised Pretraining for Robust Personalized Voice Activity Detection in Adverse Conditions
par: Bovbjerg, Holger Severin, et autres
Publié: (2023) -
Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining
par: Bovbjerg, Holger Severin, et autres
Publié: (2025) -
Learning Robust Spatial Representations from Binaural Audio through Feature Distillation
par: Bovbjerg, Holger Severin, et autres
Publié: (2025) -
Rethinking Masking Strategies for Masked Prediction-based Audio Self-supervised Learning
par: Niizumi, Daisuke, et autres
Publié: (2026) -
Joint Feature and Output Distillation for Low-complexity Acoustic Scene Classification
par: Li, Haowen, et autres
Publié: (2025)