Enregistré dans:
| Auteurs principaux: | Mohapatra, Payal, Likhite, Shamika, Biswas, Subrata, Islam, Bashima, Zhu, Qi |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2406.06964 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
par: Zhao, Yuan, et autres
Publié: (2024)
par: Zhao, Yuan, et autres
Publié: (2024)
MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction
par: He, Jiajun, et autres
Publié: (2024)
par: He, Jiajun, et autres
Publié: (2024)
Double Mixture: Towards Continual Event Detection from Speech
par: Kang, Jingqi, et autres
Publié: (2024)
par: Kang, Jingqi, et autres
Publié: (2024)
QUADS: QUAntized Distillation Framework for Efficient Speech Language Understanding
par: Biswas, Subrata, et autres
Publié: (2025)
par: Biswas, Subrata, et autres
Publié: (2025)
MLLM-based Speech Recognition: When and How is Multimodality Beneficial?
par: Guan, Yiwen, et autres
Publié: (2025)
par: Guan, Yiwen, et autres
Publié: (2025)
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models
par: Yang, Hao, et autres
Publié: (2024)
par: Yang, Hao, et autres
Publié: (2024)
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research
par: Mei, Xinhao, et autres
Publié: (2023)
par: Mei, Xinhao, et autres
Publié: (2023)
MMSD-Net: Towards Multi-modal Stuttering Detection
par: Nie, Liangyu, et autres
Publié: (2024)
par: Nie, Liangyu, et autres
Publié: (2024)
MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix
par: Ma, Ziyang, et autres
Publié: (2025)
par: Ma, Ziyang, et autres
Publié: (2025)
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations
par: Xu, David
Publié: (2024)
par: Xu, David
Publié: (2024)
Can LLMs "Reason" in Music? An Evaluation of LLMs' Capability of Music Understanding and Generation
par: Zhou, Ziya, et autres
Publié: (2024)
par: Zhou, Ziya, et autres
Publié: (2024)
Addressing Emotion Bias in Music Emotion Recognition and Generation with Frechet Audio Distance
par: Li, Yuanchao, et autres
Publié: (2024)
par: Li, Yuanchao, et autres
Publié: (2024)
Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques
par: Li, Yuanchao, et autres
Publié: (2024)
par: Li, Yuanchao, et autres
Publié: (2024)
Learning Audio Concepts from Counterfactual Natural Language
par: Vosoughi, Ali, et autres
Publié: (2024)
par: Vosoughi, Ali, et autres
Publié: (2024)
Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective
par: Chen, Chen, et autres
Publié: (2024)
par: Chen, Chen, et autres
Publié: (2024)
LaunchpadGPT: Language Model as Music Visualization Designer on Launchpad
par: Xu, Siting, et autres
Publié: (2023)
par: Xu, Siting, et autres
Publié: (2023)
Zero-Shot End-to-End Spoken Language Understanding via Cross-Modal Selective Self-Training
par: He, Jianfeng, et autres
Publié: (2023)
par: He, Jianfeng, et autres
Publié: (2023)
Fine-Tuning MIDI-to-Audio Alignment using a Neural Network on Piano Roll and CQT Representations
par: Murgul, Sebastian, et autres
Publié: (2025)
par: Murgul, Sebastian, et autres
Publié: (2025)
Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
par: Wu, Shu, et autres
Publié: (2025)
par: Wu, Shu, et autres
Publié: (2025)
Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models
par: Wang, Junyu, et autres
Publié: (2025)
par: Wang, Junyu, et autres
Publié: (2025)
Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models
par: Yang, Hao, et autres
Publié: (2025)
par: Yang, Hao, et autres
Publié: (2025)
Fretting-Transformer: Encoder-Decoder Model for MIDI to Tablature Transcription
par: Hamberger, Anna, et autres
Publié: (2025)
par: Hamberger, Anna, et autres
Publié: (2025)
StarVC: A Unified Auto-Regressive Framework for Joint Text and Speech Generation in Voice Conversion
par: Li, Fengjin, et autres
Publié: (2025)
par: Li, Fengjin, et autres
Publié: (2025)
Resurfacing Paralinguistic Awareness in Large Audio Language Models
par: Yang, Hao, et autres
Publié: (2026)
par: Yang, Hao, et autres
Publié: (2026)
Beat-Based Rhythm Quantization of MIDI Performances
par: Wachter, Maximilian, et autres
Publié: (2025)
par: Wachter, Maximilian, et autres
Publié: (2025)
ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction
par: Wu, Wenxuan, et autres
Publié: (2025)
par: Wu, Wenxuan, et autres
Publié: (2025)
CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework
par: Ning, Jinzhong, et autres
Publié: (2025)
par: Ning, Jinzhong, et autres
Publié: (2025)
Beat and Downbeat Tracking in Performance MIDI Using an End-to-End Transformer Architecture
par: Murgul, Sebastian, et autres
Publié: (2025)
par: Murgul, Sebastian, et autres
Publié: (2025)
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model
par: Ma, Ziyang, et autres
Publié: (2025)
par: Ma, Ziyang, et autres
Publié: (2025)
SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models
par: Diao, Xingjian, et autres
Publié: (2025)
par: Diao, Xingjian, et autres
Publié: (2025)
Personality-Enhanced Multimodal Depression Detection in the Elderly
par: Wang, Honghong, et autres
Publié: (2025)
par: Wang, Honghong, et autres
Publié: (2025)
Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model
par: Chen, Gehui, et autres
Publié: (2024)
par: Chen, Gehui, et autres
Publié: (2024)
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
par: Weck, Benno, et autres
Publié: (2024)
par: Weck, Benno, et autres
Publié: (2024)
Cross-Modal Learning for Music-to-Music-Video Description Generation
par: Mao, Zhuoyuan, et autres
Publié: (2025)
par: Mao, Zhuoyuan, et autres
Publié: (2025)
Efficient Video to Audio Mapper with Visual Scene Detection
par: Yi, Mingjing, et autres
Publié: (2024)
par: Yi, Mingjing, et autres
Publié: (2024)
DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning
par: Mao, Zhuoyuan, et autres
Publié: (2025)
par: Mao, Zhuoyuan, et autres
Publié: (2025)
Zero-Shot Fake Video Detection by Audio-Visual Consistency
par: Li, Xiaolou, et autres
Publié: (2024)
par: Li, Xiaolou, et autres
Publié: (2024)
PerformSinger: Multimodal Singing Voice Synthesis Leveraging Synchronized Lip Cues from Singing Performance Videos
par: Gu, Ke, et autres
Publié: (2025)
par: Gu, Ke, et autres
Publié: (2025)
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting
par: Zhang, Yu, et autres
Publié: (2025)
par: Zhang, Yu, et autres
Publié: (2025)
Zero-Shot Cognitive Impairment Detection from Speech Using AudioLLM
par: Shahin, Mostafa, et autres
Publié: (2025)
par: Shahin, Mostafa, et autres
Publié: (2025)
Documents similaires
-
Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
par: Zhao, Yuan, et autres
Publié: (2024) -
MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction
par: He, Jiajun, et autres
Publié: (2024) -
Double Mixture: Towards Continual Event Detection from Speech
par: Kang, Jingqi, et autres
Publié: (2024) -
QUADS: QUAntized Distillation Framework for Efficient Speech Language Understanding
par: Biswas, Subrata, et autres
Publié: (2025) -
MLLM-based Speech Recognition: When and How is Multimodality Beneficial?
par: Guan, Yiwen, et autres
Publié: (2025)