:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Mørk, Jacob, Bovbjerg, Holger Severin, Kiss, Gergely, Tan, Zheng-Hua
Format:	Preprint
Publié:	2024
Sujets:	Audio and Speech Processing Machine Learning Sound 68T10 I.2.6
Accès en ligne:	https://arxiv.org/abs/2403.18560
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Self-supervised Pretraining for Robust Personalized Voice Activity Detection in Adverse Conditions
par: Bovbjerg, Holger Severin, et autres
Publié: (2023)

Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining
par: Bovbjerg, Holger Severin, et autres
Publié: (2025)

Learning Robust Spatial Representations from Binaural Audio through Feature Distillation
par: Bovbjerg, Holger Severin, et autres
Publié: (2025)

Rethinking Masking Strategies for Masked Prediction-based Audio Self-supervised Learning
par: Niizumi, Daisuke, et autres
Publié: (2026)

Joint Feature and Output Distillation for Low-complexity Acoustic Scene Classification
par: Li, Haowen, et autres
Publié: (2025)

Audio-based Kinship Verification Using Age Domain Conversion
par: Sun, Qiyang, et autres
Publié: (2024)

KinSPEAK: Improving speech recognition for Kinyarwanda via semi-supervised learning methods
par: Nzeyimana, Antoine
Publié: (2023)

Make Some Noise: Towards LLM audio reasoning and generation using sound tokens
par: Mehta, Shivam, et autres
Publié: (2025)

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio
par: Poltronieri, Andrea, et autres
Publié: (2024)

Symbolic Audio Classification via Modal Decision Tree Learning
par: Marzano, Enrico, et autres
Publié: (2025)

Passive Underwater Acoustic Signal Separation based on Feature Decoupling Dual-path Network
par: Liu, Yucheng, et autres
Publié: (2025)

Local Diagnostics of Continuous Normalizing Flow for Out-of-Distribution Detection
par: Cao, Xinwei, et autres
Publié: (2026)

SemAlignVC: Enhancing zero-shot timbre conversion using semantic alignment
par: Mehta, Shivam, et autres
Publié: (2025)

TuneGenie: Reasoning-based LLM agents for preferential music generation
par: Pandey, Amitesh, et autres
Publié: (2025)

Should you use a probabilistic duration model in TTS? Probably! Especially for spontaneous speech
par: Mehta, Shivam, et autres
Publié: (2024)

Experimental Study: Enhancing Voice Spoofing Detection Models with wav2vec 2.0
par: Kang, Taein, et autres
Publié: (2024)

Beyond Deep Learning: Speech Segmentation and Phone Classification with Neural Assemblies
par: Adelson, Trevor, et autres
Publié: (2026)

A Multimodal Symphony: Integrating Taste and Sound through Generative AI
par: Spanio, Matteo, et autres
Publié: (2025)

Prevailing Research Areas for Music AI in the Era of Foundation Models
par: Wei, Megan, et autres
Publié: (2024)

Matcha-TTS: A fast TTS architecture with conditional flow matching
par: Mehta, Shivam, et autres
Publié: (2023)

HELIX: Scaling Raw Audio Understanding with Hybrid Mamba-Attention Beyond the Quadratic Limit
par: Khushiyant, et autres
Publié: (2026)

Quantum-Enhanced Analysis and Grading of Vocal Performance
par: Agarwal, Rohan
Publié: (2025)

Modeling L1 Influence on L2 Pronunciation: An MFCC-Based Framework for Explainable Machine Learning and Pedagogical Feedback
par: Jahanbin, Peyman
Publié: (2025)

NTC-KWS: Noise-aware CTC for Robust Keyword Spotting
par: Xi, Yu, et autres
Publié: (2024)

Unified speech and gesture synthesis using flow matching
par: Mehta, Shivam, et autres
Publié: (2023)

CAST-TTS: A Simple Cross-Attention Framework for Unified Timbre Control in TTS
par: Zheng, Zihao, et autres
Publié: (2026)

GraFPrint: A GNN-Based Approach for Audio Identification
par: Bhattacharjee, Aditya, et autres
Publié: (2024)

Audio Foundation Models Outperform Symbolic Representations for Piano Performance Evaluation
par: Dhiman, Jai
Publié: (2026)

Scalable Evaluation for Audio Identification via Synthetic Latent Fingerprint Generation
par: Bhattacharjee, Aditya, et autres
Publié: (2025)

PicoAudio2: Temporal Controllable Text-to-Audio Generation with Natural Language Description
par: Zheng, Zihao, et autres
Publié: (2025)

FakeSound: Deepfake General Audio Detection
par: Xie, Zeyu, et autres
Publié: (2024)

Fine-tuning Pre-trained Audio Models for COVID-19 Detection: A Technical Report
par: de Brito, Daniel Oliveira, et autres
Publié: (2025)

Deepfake audio as a data augmentation technique for training automatic speech to text transcription models
par: Ferreira, Alexandre R., et autres
Publié: (2023)

Quantization-Based Score Calibration for Few-Shot Keyword Spotting with Dynamic Time Warping in Noisy Environments
par: Wilkinghoff, Kevin, et autres
Publié: (2025)

Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering
par: Aristorenas, Aris J.
Publié: (2024)

Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-task Multi-Scale Network
par: He, Zhanhong, et autres
Publié: (2025)

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
par: Richter-Powell, Jessie, et autres
Publié: (2025)

Reciprocal Latent Fields for Precomputed Sound Propagation
par: Seuté, Hugo, et autres
Publié: (2026)

STAR: Speech-to-Audio Generation via Representation Learning
par: Xie, Zeyu, et autres
Publié: (2025)

FakeSound2: A Benchmark for Explainable and Generalizable Deepfake Sound Detection
par: Xie, Zeyu, et autres
Publié: (2025)