Gespeichert in:
| Hauptverfasser: | Pacheco-Gonzalez, Alberto, Torres, Raymundo, Chacon, Raul, Robledo, Isidro |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2023
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2309.13920 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
OBHS: An Optimized Block Huffman Scheme for Real-Time Audio Compression
von: Mahfi, Muntahi Safwan, et al.
Veröffentlicht: (2025)
von: Mahfi, Muntahi Safwan, et al.
Veröffentlicht: (2025)
Taming Audio VAEs via Target-KL Regularization
von: Seetharaman, Prem, et al.
Veröffentlicht: (2026)
von: Seetharaman, Prem, et al.
Veröffentlicht: (2026)
Generation of Musical Timbres using a Text-Guided Diffusion Model
von: Yuan, Weixuan, et al.
Veröffentlicht: (2025)
von: Yuan, Weixuan, et al.
Veröffentlicht: (2025)
Self-Improvement for Audio Large Language Model using Unlabeled Speech
von: Wang, Shaowen, et al.
Veröffentlicht: (2025)
von: Wang, Shaowen, et al.
Veröffentlicht: (2025)
MAIN-VC: Lightweight Speech Representation Disentanglement for One-shot Voice Conversion
von: Li, Pengcheng, et al.
Veröffentlicht: (2024)
von: Li, Pengcheng, et al.
Veröffentlicht: (2024)
Quantum-Enhanced Analysis and Grading of Vocal Performance
von: Agarwal, Rohan
Veröffentlicht: (2025)
von: Agarwal, Rohan
Veröffentlicht: (2025)
ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction
von: Kim, Minu, et al.
Veröffentlicht: (2025)
von: Kim, Minu, et al.
Veröffentlicht: (2025)
Less Stress, More Privacy: Stress Detection on Anonymized Speech of Air Traffic Controllers
von: Viswanathan, Janaki, et al.
Veröffentlicht: (2025)
von: Viswanathan, Janaki, et al.
Veröffentlicht: (2025)
Audio Foundation Models Outperform Symbolic Representations for Piano Performance Evaluation
von: Dhiman, Jai
Veröffentlicht: (2026)
von: Dhiman, Jai
Veröffentlicht: (2026)
Real-time Low-latency Music Source Separation using Hybrid Spectrogram-TasNet
von: Venkatesh, Satvik, et al.
Veröffentlicht: (2024)
von: Venkatesh, Satvik, et al.
Veröffentlicht: (2024)
Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering
von: Aristorenas, Aris J.
Veröffentlicht: (2024)
von: Aristorenas, Aris J.
Veröffentlicht: (2024)
Revisiting SSL for sound event detection: complementary fusion and adaptive post-processing
von: Cui, Hanfang, et al.
Veröffentlicht: (2025)
von: Cui, Hanfang, et al.
Veröffentlicht: (2025)
Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-task Multi-Scale Network
von: He, Zhanhong, et al.
Veröffentlicht: (2025)
von: He, Zhanhong, et al.
Veröffentlicht: (2025)
SeamlessEdit: Background Noise Aware Zero-Shot Speech Editing with in-Context Enhancement
von: Chen, Kuan-Yu, et al.
Veröffentlicht: (2025)
von: Chen, Kuan-Yu, et al.
Veröffentlicht: (2025)
SFMS-ALR: Script-First Multilingual Speech Synthesis with Adaptive Locale Resolution
von: Donepudi, Dharma Teja
Veröffentlicht: (2025)
von: Donepudi, Dharma Teja
Veröffentlicht: (2025)
GraFPrint: A GNN-Based Approach for Audio Identification
von: Bhattacharjee, Aditya, et al.
Veröffentlicht: (2024)
von: Bhattacharjee, Aditya, et al.
Veröffentlicht: (2024)
Scalable Evaluation for Audio Identification via Synthetic Latent Fingerprint Generation
von: Bhattacharjee, Aditya, et al.
Veröffentlicht: (2025)
von: Bhattacharjee, Aditya, et al.
Veröffentlicht: (2025)
Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis
von: Kim, Minu, et al.
Veröffentlicht: (2025)
von: Kim, Minu, et al.
Veröffentlicht: (2025)
Dichotic harmony for the musical practice
von: Madgazin, Vadim R.
Veröffentlicht: (2010)
von: Madgazin, Vadim R.
Veröffentlicht: (2010)
PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation
von: Yi, Yungang, et al.
Veröffentlicht: (2024)
von: Yi, Yungang, et al.
Veröffentlicht: (2024)
BAST: Binaural Audio Spectrogram Transformer for Binaural Sound Localization
von: Kuang, Sheng, et al.
Veröffentlicht: (2022)
von: Kuang, Sheng, et al.
Veröffentlicht: (2022)
Reciprocal Latent Fields for Precomputed Sound Propagation
von: Seuté, Hugo, et al.
Veröffentlicht: (2026)
von: Seuté, Hugo, et al.
Veröffentlicht: (2026)
Specializing anti-unification for interaction models composition via gate connections
von: Nguetoum, Joel, et al.
Veröffentlicht: (2025)
von: Nguetoum, Joel, et al.
Veröffentlicht: (2025)
Scalable Computation of Inter-Core Bounds Through Exact Abstractions
von: Foughali, Mohammed Aristide, et al.
Veröffentlicht: (2024)
von: Foughali, Mohammed Aristide, et al.
Veröffentlicht: (2024)
The evolution of inharmonicity and noisiness in contemporary popular music
von: Deruty, Emmanuel, et al.
Veröffentlicht: (2024)
von: Deruty, Emmanuel, et al.
Veröffentlicht: (2024)
Orchestration of Music by Grammar Systems
von: Makiš, Jozef, et al.
Veröffentlicht: (2025)
von: Makiš, Jozef, et al.
Veröffentlicht: (2025)
Neural Proxies for Sound Synthesizers: Learning Perceptually Informed Preset Representations
von: Combes, Paolo, et al.
Veröffentlicht: (2025)
von: Combes, Paolo, et al.
Veröffentlicht: (2025)
acoupi: An Open-Source Python Framework for Deploying Bioacoustic AI Models on Edge Devices
von: Vuilliomenet, Aude, et al.
Veröffentlicht: (2025)
von: Vuilliomenet, Aude, et al.
Veröffentlicht: (2025)
Window Size Versus Accuracy Experiments in Voice Activity Detectors
von: McKinnon, Max, et al.
Veröffentlicht: (2026)
von: McKinnon, Max, et al.
Veröffentlicht: (2026)
STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts
von: Opria, Joshua
Veröffentlicht: (2026)
von: Opria, Joshua
Veröffentlicht: (2026)
Adaptable Symbolic Music Infilling with MIDI-RWKV
von: Zhou-Zheng, Christian, et al.
Veröffentlicht: (2025)
von: Zhou-Zheng, Christian, et al.
Veröffentlicht: (2025)
M6(GPT)3: Generating Multitrack Modifiable Multi-Minute MIDI Music from Text using Genetic algorithms, Probabilistic methods and GPT Models in any Progression and Time Signature
von: Poćwiardowski, Jakub, et al.
Veröffentlicht: (2024)
von: Poćwiardowski, Jakub, et al.
Veröffentlicht: (2024)
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens
von: Mehta, Shivam, et al.
Veröffentlicht: (2025)
von: Mehta, Shivam, et al.
Veröffentlicht: (2025)
SemAlignVC: Enhancing zero-shot timbre conversion using semantic alignment
von: Mehta, Shivam, et al.
Veröffentlicht: (2025)
von: Mehta, Shivam, et al.
Veröffentlicht: (2025)
DFingerNet: Noise-Adaptive Speech Enhancement for Hearing Aids
von: Tsangko, Iosif, et al.
Veröffentlicht: (2025)
von: Tsangko, Iosif, et al.
Veröffentlicht: (2025)
Compositional Phoneme Approximation for L1-Grounded L2 Pronunciation Training
von: Park, Jisang, et al.
Veröffentlicht: (2024)
von: Park, Jisang, et al.
Veröffentlicht: (2024)
Enhanced DareFightingICE Competitions: Sound Design and AI Competitions
von: Khan, Ibrahim, et al.
Veröffentlicht: (2024)
von: Khan, Ibrahim, et al.
Veröffentlicht: (2024)
AI Harmonizer: Expanding Vocal Expression with a Generative Neurosymbolic Music AI System
von: Blanchard, Lancelot, et al.
Veröffentlicht: (2025)
von: Blanchard, Lancelot, et al.
Veröffentlicht: (2025)
Should you use a probabilistic duration model in TTS? Probably! Especially for spontaneous speech
von: Mehta, Shivam, et al.
Veröffentlicht: (2024)
von: Mehta, Shivam, et al.
Veröffentlicht: (2024)
Scalable and Approximation-free Symbolic Control for Unknown Euler-Lagrange Systems
von: Das, Ratnangshu, et al.
Veröffentlicht: (2025)
von: Das, Ratnangshu, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
OBHS: An Optimized Block Huffman Scheme for Real-Time Audio Compression
von: Mahfi, Muntahi Safwan, et al.
Veröffentlicht: (2025) -
Taming Audio VAEs via Target-KL Regularization
von: Seetharaman, Prem, et al.
Veröffentlicht: (2026) -
Generation of Musical Timbres using a Text-Guided Diffusion Model
von: Yuan, Weixuan, et al.
Veröffentlicht: (2025) -
Self-Improvement for Audio Large Language Model using Unlabeled Speech
von: Wang, Shaowen, et al.
Veröffentlicht: (2025) -
MAIN-VC: Lightweight Speech Representation Disentanglement for One-shot Voice Conversion
von: Li, Pengcheng, et al.
Veröffentlicht: (2024)