:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Mohapatra, Payal, Likhite, Shamika, Biswas, Subrata, Islam, Bashima, Zhu, Qi
Format:	Preprint
Publié:	2024
Sujets:	Computation and Language Multimedia Sound Audio and Speech Processing
Accès en ligne:	https://arxiv.org/abs/2406.06964
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
par: Zhao, Yuan, et autres
Publié: (2024)

MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction
par: He, Jiajun, et autres
Publié: (2024)

Double Mixture: Towards Continual Event Detection from Speech
par: Kang, Jingqi, et autres
Publié: (2024)

QUADS: QUAntized Distillation Framework for Efficient Speech Language Understanding
par: Biswas, Subrata, et autres
Publié: (2025)

MLLM-based Speech Recognition: When and How is Multimodality Beneficial?
par: Guan, Yiwen, et autres
Publié: (2025)

Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models
par: Yang, Hao, et autres
Publié: (2024)

WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research
par: Mei, Xinhao, et autres
Publié: (2023)

MMSD-Net: Towards Multi-modal Stuttering Detection
par: Nie, Liangyu, et autres
Publié: (2024)

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix
par: Ma, Ziyang, et autres
Publié: (2025)

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations
par: Xu, David
Publié: (2024)

Can LLMs "Reason" in Music? An Evaluation of LLMs' Capability of Music Understanding and Generation
par: Zhou, Ziya, et autres
Publié: (2024)

Addressing Emotion Bias in Music Emotion Recognition and Generation with Frechet Audio Distance
par: Li, Yuanchao, et autres
Publié: (2024)

Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques
par: Li, Yuanchao, et autres
Publié: (2024)

Learning Audio Concepts from Counterfactual Natural Language
par: Vosoughi, Ali, et autres
Publié: (2024)

Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective
par: Chen, Chen, et autres
Publié: (2024)

LaunchpadGPT: Language Model as Music Visualization Designer on Launchpad
par: Xu, Siting, et autres
Publié: (2023)

Zero-Shot End-to-End Spoken Language Understanding via Cross-Modal Selective Self-Training
par: He, Jianfeng, et autres
Publié: (2023)

Fine-Tuning MIDI-to-Audio Alignment using a Neural Network on Piano Roll and CQT Representations
par: Murgul, Sebastian, et autres
Publié: (2025)

Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
par: Wu, Shu, et autres
Publié: (2025)

Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models
par: Wang, Junyu, et autres
Publié: (2025)

Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models
par: Yang, Hao, et autres
Publié: (2025)

Fretting-Transformer: Encoder-Decoder Model for MIDI to Tablature Transcription
par: Hamberger, Anna, et autres
Publié: (2025)

StarVC: A Unified Auto-Regressive Framework for Joint Text and Speech Generation in Voice Conversion
par: Li, Fengjin, et autres
Publié: (2025)

Resurfacing Paralinguistic Awareness in Large Audio Language Models
par: Yang, Hao, et autres
Publié: (2026)

Beat-Based Rhythm Quantization of MIDI Performances
par: Wachter, Maximilian, et autres
Publié: (2025)

ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction
par: Wu, Wenxuan, et autres
Publié: (2025)

CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework
par: Ning, Jinzhong, et autres
Publié: (2025)

Beat and Downbeat Tracking in Performance MIDI Using an End-to-End Transformer Architecture
par: Murgul, Sebastian, et autres
Publié: (2025)

Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model
par: Ma, Ziyang, et autres
Publié: (2025)

SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models
par: Diao, Xingjian, et autres
Publié: (2025)

Personality-Enhanced Multimodal Depression Detection in the Elderly
par: Wang, Honghong, et autres
Publié: (2025)

Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model
par: Chen, Gehui, et autres
Publié: (2024)

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
par: Weck, Benno, et autres
Publié: (2024)

Cross-Modal Learning for Music-to-Music-Video Description Generation
par: Mao, Zhuoyuan, et autres
Publié: (2025)

Efficient Video to Audio Mapper with Visual Scene Detection
par: Yi, Mingjing, et autres
Publié: (2024)

DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning
par: Mao, Zhuoyuan, et autres
Publié: (2025)

Zero-Shot Fake Video Detection by Audio-Visual Consistency
par: Li, Xiaolou, et autres
Publié: (2024)

PerformSinger: Multimodal Singing Voice Synthesis Leveraging Synchronized Lip Cues from Singing Performance Videos
par: Gu, Ke, et autres
Publié: (2025)

ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting
par: Zhang, Yu, et autres
Publié: (2025)

Zero-Shot Cognitive Impairment Detection from Speech Using AudioLLM
par: Shahin, Mostafa, et autres
Publié: (2025)