Enregistré dans:
| Auteurs principaux: | Ramoneda, Pedro, Parada-Cabaleiro, Emilia, Weck, Benno, Serra, Xavier |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2409.01864 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach
par: Ramoneda, Pedro, et autres
Publié: (2024)
par: Ramoneda, Pedro, et autres
Publié: (2024)
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio
par: Weck, Benno, et autres
Publié: (2023)
par: Weck, Benno, et autres
Publié: (2023)
A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification
par: Uro, Rémi, et autres
Publié: (2024)
par: Uro, Rémi, et autres
Publié: (2024)
An Open Research Dataset of the 1932 Cairo Congress of Arab Music
par: Bozkurt, Baris
Publié: (2025)
par: Bozkurt, Baris
Publié: (2025)
Benchmarking Music Autotagging with MGPHot Expert Annotations vs. Generic Tag Datasets
par: Ramoneda, Pedro, et autres
Publié: (2025)
par: Ramoneda, Pedro, et autres
Publié: (2025)
Can Audio Reveal Music Performance Difficulty? Insights from the Piano Syllabus Dataset
par: Ramoneda, Pedro, et autres
Publié: (2024)
par: Ramoneda, Pedro, et autres
Publié: (2024)
InaGVAD : a Challenging French TV and Radio Corpus Annotated for Speech Activity Detection and Speaker Gender Segmentation
par: Doukhan, David, et autres
Publié: (2024)
par: Doukhan, David, et autres
Publié: (2024)
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
par: Weck, Benno, et autres
Publié: (2024)
par: Weck, Benno, et autres
Publié: (2024)
Sanidha: A Studio Quality Multi-Modal Dataset for Carnatic Music
par: Krishnan, Venkatakrishnan Vaidyanathapuram, et autres
Publié: (2025)
par: Krishnan, Venkatakrishnan Vaidyanathapuram, et autres
Publié: (2025)
GraphMuse: A Library for Symbolic Music Graph Processing
par: Karystinaios, Emmanouil, et autres
Publié: (2024)
par: Karystinaios, Emmanouil, et autres
Publié: (2024)
The language of sound search: Examining User Queries in Audio Search Engines
par: Weck, Benno, et autres
Publié: (2024)
par: Weck, Benno, et autres
Publié: (2024)
The GigaMIDI Dataset with Features for Expressive Music Performance Detection
par: Lee, Keon Ju Maverick, et autres
Publié: (2025)
par: Lee, Keon Ju Maverick, et autres
Publié: (2025)
Similar but Faster: Manipulation of Tempo in Music Audio Embeddings for Tempo Prediction and Search
par: McCallum, Matthew C., et autres
Publié: (2024)
par: McCallum, Matthew C., et autres
Publié: (2024)
KuiSCIMA v2.0: Improved Baselines, Calibration, and Cross-Notation Generalization for Historical Chinese Music Notations in Jiang Kui's Baishidaoren Gequ
par: Repolusk, Tristan, et autres
Publié: (2025)
par: Repolusk, Tristan, et autres
Publié: (2025)
Music Proofreading with RefinPaint: Where and How to Modify Compositions given Context
par: Ramoneda, Pedro, et autres
Publié: (2024)
par: Ramoneda, Pedro, et autres
Publié: (2024)
OMAR-RQ: Open Music Audio Representation Model Trained with Multi-Feature Masked Token Prediction
par: Alonso-Jiménez, Pablo, et autres
Publié: (2025)
par: Alonso-Jiménez, Pablo, et autres
Publié: (2025)
CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining
par: Tsoi, Tristan, et autres
Publié: (2025)
par: Tsoi, Tristan, et autres
Publié: (2025)
The Rest is Silence: Leveraging Unseen Species Models for Computational Musicology
par: Moss, Fabian C., et autres
Publié: (2025)
par: Moss, Fabian C., et autres
Publié: (2025)
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
par: Li, Kai, et autres
Publié: (2025)
par: Li, Kai, et autres
Publié: (2025)
Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation
par: Shen, Maohao, et autres
Publié: (2024)
par: Shen, Maohao, et autres
Publié: (2024)
Style-based Composer Identification and Attribution of Symbolic Music Scores: a Systematic Survey
par: Simonetta, Federico
Publié: (2025)
par: Simonetta, Federico
Publié: (2025)
WER We Stand: Benchmarking Urdu ASR Models
par: Arif, Samee, et autres
Publié: (2024)
par: Arif, Samee, et autres
Publié: (2024)
Customizing Speech Recognition Model with Large Language Model Feedback
par: Ling, Shaoshi, et autres
Publié: (2025)
par: Ling, Shaoshi, et autres
Publié: (2025)
Large Language Models for Dysfluency Detection in Stuttered Speech
par: Wagner, Dominik, et autres
Publié: (2024)
par: Wagner, Dominik, et autres
Publié: (2024)
ASR Error Correction using Large Language Models
par: Ma, Rao, et autres
Publié: (2024)
par: Ma, Rao, et autres
Publié: (2024)
NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics
par: Robinson, David, et autres
Publié: (2024)
par: Robinson, David, et autres
Publié: (2024)
How Contrastive Decoding Enhances Large Audio Language Models?
par: Lin, Tzu-Quan, et autres
Publié: (2026)
par: Lin, Tzu-Quan, et autres
Publié: (2026)
BLSP-Emo: Towards Empathetic Large Speech-Language Models
par: Wang, Chen, et autres
Publié: (2024)
par: Wang, Chen, et autres
Publié: (2024)
An End-to-End Speech Summarization Using Large Language Model
par: Shang, Hengchao, et autres
Publié: (2024)
par: Shang, Hengchao, et autres
Publié: (2024)
Closing the Modality Reasoning Gap for Speech Large Language Models
par: Wang, Chaoren, et autres
Publié: (2026)
par: Wang, Chaoren, et autres
Publié: (2026)
Spatial Audio Processing with Large Language Model on Wearable Devices
par: Mishra, Ayushi, et autres
Publié: (2025)
par: Mishra, Ayushi, et autres
Publié: (2025)
Boosting Large Language Model for Speech Synthesis: An Empirical Study
par: Hao, Hongkun, et autres
Publié: (2023)
par: Hao, Hongkun, et autres
Publié: (2023)
SALMONN: Towards Generic Hearing Abilities for Large Language Models
par: Tang, Changli, et autres
Publié: (2023)
par: Tang, Changli, et autres
Publié: (2023)
Direct Simultaneous Translation Activation for Large Audio-Language Models
par: Zhang, Pei, et autres
Publié: (2025)
par: Zhang, Pei, et autres
Publié: (2025)
Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech
par: Kang, Wonjune, et autres
Publié: (2024)
par: Kang, Wonjune, et autres
Publié: (2024)
ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models
par: Li, Bohan, et autres
Publié: (2025)
par: Li, Bohan, et autres
Publié: (2025)
Leveraging Large Language Models for Sarcastic Speech Annotation in Sarcasm Detection
par: Li, Zhu, et autres
Publié: (2025)
par: Li, Zhu, et autres
Publié: (2025)
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models
par: Peri, Raghuveer, et autres
Publié: (2024)
par: Peri, Raghuveer, et autres
Publié: (2024)
Audio Large Language Models Can Be Descriptive Speech Quality Evaluators
par: Chen, Chen, et autres
Publié: (2025)
par: Chen, Chen, et autres
Publié: (2025)
Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation
par: Kim, Heeseung, et autres
Publié: (2024)
par: Kim, Heeseung, et autres
Publié: (2024)
Documents similaires
-
Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach
par: Ramoneda, Pedro, et autres
Publié: (2024) -
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio
par: Weck, Benno, et autres
Publié: (2023) -
A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification
par: Uro, Rémi, et autres
Publié: (2024) -
An Open Research Dataset of the 1932 Cairo Congress of Arab Music
par: Bozkurt, Baris
Publié: (2025) -
Benchmarking Music Autotagging with MGPHot Expert Annotations vs. Generic Tag Datasets
par: Ramoneda, Pedro, et autres
Publié: (2025)