:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Ramoneda, Pedro, Parada-Cabaleiro, Emilia, Weck, Benno, Serra, Xavier
Format:	Preprint
Publié:	2024
Sujets:	Sound Artificial Intelligence Computation and Language Digital Libraries Audio and Speech Processing
Accès en ligne:	https://arxiv.org/abs/2409.01864
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach
par: Ramoneda, Pedro, et autres
Publié: (2024)

WikiMuTe: A web-sourced dataset of semantic descriptions for music audio
par: Weck, Benno, et autres
Publié: (2023)

A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification
par: Uro, Rémi, et autres
Publié: (2024)

An Open Research Dataset of the 1932 Cairo Congress of Arab Music
par: Bozkurt, Baris
Publié: (2025)

Benchmarking Music Autotagging with MGPHot Expert Annotations vs. Generic Tag Datasets
par: Ramoneda, Pedro, et autres
Publié: (2025)

Can Audio Reveal Music Performance Difficulty? Insights from the Piano Syllabus Dataset
par: Ramoneda, Pedro, et autres
Publié: (2024)

InaGVAD : a Challenging French TV and Radio Corpus Annotated for Speech Activity Detection and Speaker Gender Segmentation
par: Doukhan, David, et autres
Publié: (2024)

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
par: Weck, Benno, et autres
Publié: (2024)

Sanidha: A Studio Quality Multi-Modal Dataset for Carnatic Music
par: Krishnan, Venkatakrishnan Vaidyanathapuram, et autres
Publié: (2025)

GraphMuse: A Library for Symbolic Music Graph Processing
par: Karystinaios, Emmanouil, et autres
Publié: (2024)

The language of sound search: Examining User Queries in Audio Search Engines
par: Weck, Benno, et autres
Publié: (2024)

The GigaMIDI Dataset with Features for Expressive Music Performance Detection
par: Lee, Keon Ju Maverick, et autres
Publié: (2025)

Similar but Faster: Manipulation of Tempo in Music Audio Embeddings for Tempo Prediction and Search
par: McCallum, Matthew C., et autres
Publié: (2024)

KuiSCIMA v2.0: Improved Baselines, Calibration, and Cross-Notation Generalization for Historical Chinese Music Notations in Jiang Kui's Baishidaoren Gequ
par: Repolusk, Tristan, et autres
Publié: (2025)

Music Proofreading with RefinPaint: Where and How to Modify Compositions given Context
par: Ramoneda, Pedro, et autres
Publié: (2024)

OMAR-RQ: Open Music Audio Representation Model Trained with Multi-Feature Masked Token Prediction
par: Alonso-Jiménez, Pablo, et autres
Publié: (2025)

CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining
par: Tsoi, Tristan, et autres
Publié: (2025)

The Rest is Silence: Leveraging Unseen Species Models for Computational Musicology
par: Moss, Fabian C., et autres
Publié: (2025)

AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
par: Li, Kai, et autres
Publié: (2025)

Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation
par: Shen, Maohao, et autres
Publié: (2024)

Style-based Composer Identification and Attribution of Symbolic Music Scores: a Systematic Survey
par: Simonetta, Federico
Publié: (2025)

WER We Stand: Benchmarking Urdu ASR Models
par: Arif, Samee, et autres
Publié: (2024)

Customizing Speech Recognition Model with Large Language Model Feedback
par: Ling, Shaoshi, et autres
Publié: (2025)

Large Language Models for Dysfluency Detection in Stuttered Speech
par: Wagner, Dominik, et autres
Publié: (2024)

ASR Error Correction using Large Language Models
par: Ma, Rao, et autres
Publié: (2024)

NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics
par: Robinson, David, et autres
Publié: (2024)

How Contrastive Decoding Enhances Large Audio Language Models?
par: Lin, Tzu-Quan, et autres
Publié: (2026)

BLSP-Emo: Towards Empathetic Large Speech-Language Models
par: Wang, Chen, et autres
Publié: (2024)

An End-to-End Speech Summarization Using Large Language Model
par: Shang, Hengchao, et autres
Publié: (2024)

Closing the Modality Reasoning Gap for Speech Large Language Models
par: Wang, Chaoren, et autres
Publié: (2026)

Spatial Audio Processing with Large Language Model on Wearable Devices
par: Mishra, Ayushi, et autres
Publié: (2025)

Boosting Large Language Model for Speech Synthesis: An Empirical Study
par: Hao, Hongkun, et autres
Publié: (2023)

SALMONN: Towards Generic Hearing Abilities for Large Language Models
par: Tang, Changli, et autres
Publié: (2023)

Direct Simultaneous Translation Activation for Large Audio-Language Models
par: Zhang, Pei, et autres
Publié: (2025)

Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech
par: Kang, Wonjune, et autres
Publié: (2024)

ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models
par: Li, Bohan, et autres
Publié: (2025)

Leveraging Large Language Models for Sarcastic Speech Annotation in Sarcasm Detection
par: Li, Zhu, et autres
Publié: (2025)

SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models
par: Peri, Raghuveer, et autres
Publié: (2024)

Audio Large Language Models Can Be Descriptive Speech Quality Evaluators
par: Chen, Chen, et autres
Publié: (2025)

Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation
par: Kim, Heeseung, et autres
Publié: (2024)