Gespeichert in:
| Hauptverfasser: | Xing, Zhenghao, Hu, Xiaowei, Fu, Chi-Wing, Wang, Wenhai, Dai, Jifeng, Heng, Pheng-Ann |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2505.04623 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition
von: Wang, Zixuan, et al.
Veröffentlicht: (2024)
von: Wang, Zixuan, et al.
Veröffentlicht: (2024)
A Survey of Audio Reasoning in Multimodal Foundation Models
von: Guo, Zhihan, et al.
Veröffentlicht: (2026)
von: Guo, Zhihan, et al.
Veröffentlicht: (2026)
Interpretable Audio Editing Evaluation via Chain-of-Thought Difference-Commonality Reasoning with Multimodal LLMs
von: Jia, Yuhang, et al.
Veröffentlicht: (2025)
von: Jia, Yuhang, et al.
Veröffentlicht: (2025)
EchoFree: Towards Ultra Lightweight and Efficient Neural Acoustic Echo Cancellation
von: Li, Xingchen, et al.
Veröffentlicht: (2025)
von: Li, Xingchen, et al.
Veröffentlicht: (2025)
Audio Atlas: Visualizing and Exploring Audio Datasets
von: Lanzendörfer, Luca A., et al.
Veröffentlicht: (2024)
von: Lanzendörfer, Luca A., et al.
Veröffentlicht: (2024)
Towards Multimodal Query-Based Spatial Audio Source Extraction
von: Yu, Chenxin, et al.
Veröffentlicht: (2025)
von: Yu, Chenxin, et al.
Veröffentlicht: (2025)
From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs
von: Jia, Yuhang, et al.
Veröffentlicht: (2025)
von: Jia, Yuhang, et al.
Veröffentlicht: (2025)
Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models
von: Li, Longhao, et al.
Veröffentlicht: (2026)
von: Li, Longhao, et al.
Veröffentlicht: (2026)
Audio-Visual Speech Enhancement for Spatial Audio - Spatial-VisualVoice and the MAVE Database
von: Yaffe, Danielle, et al.
Veröffentlicht: (2025)
von: Yaffe, Danielle, et al.
Veröffentlicht: (2025)
Evaluating Hallucinations in Audio-Visual Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions
von: Park, Hansol, et al.
Veröffentlicht: (2025)
von: Park, Hansol, et al.
Veröffentlicht: (2025)
Probing Cross-modal Information Hubs in Audio-Visual LLMs
von: Jung, Jihoo, et al.
Veröffentlicht: (2026)
von: Jung, Jihoo, et al.
Veröffentlicht: (2026)
SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation
von: Wang, Helin, et al.
Veröffentlicht: (2026)
von: Wang, Helin, et al.
Veröffentlicht: (2026)
Multimodal Emotion Recognition from Raw Audio with Sinc-convolution
von: Zhang, Xiaohui, et al.
Veröffentlicht: (2024)
von: Zhang, Xiaohui, et al.
Veröffentlicht: (2024)
Multimodal Assessment of Speech Impairment in ALS Using Audio-Visual and Machine Learning Approaches
von: Pierotti, Francesco, et al.
Veröffentlicht: (2025)
von: Pierotti, Francesco, et al.
Veröffentlicht: (2025)
Audio Entailment: Assessing Deductive Reasoning for Audio Understanding
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)
Audio-Visual Approach For Multimodal Concurrent Speaker Detection
von: Eliav, Amit, et al.
Veröffentlicht: (2024)
von: Eliav, Amit, et al.
Veröffentlicht: (2024)
AudioLog: LLMs-Powered Long Audio Logging with Hybrid Token-Semantic Contrastive Learning
von: Bai, Jisheng, et al.
Veröffentlicht: (2023)
von: Bai, Jisheng, et al.
Veröffentlicht: (2023)
ViDove: A Translation Agent System with Multimodal Context and Memory-Augmented Reasoning
von: Lu, Yichen, et al.
Veröffentlicht: (2025)
von: Lu, Yichen, et al.
Veröffentlicht: (2025)
Interpreting the Role of Visemes in Audio-Visual Speech Recognition
von: Papadopoulos, Aristeidis, et al.
Veröffentlicht: (2025)
von: Papadopoulos, Aristeidis, et al.
Veröffentlicht: (2025)
AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval
von: Lin, Jingru, et al.
Veröffentlicht: (2026)
von: Lin, Jingru, et al.
Veröffentlicht: (2026)
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model
von: Ma, Ziyang, et al.
Veröffentlicht: (2025)
von: Ma, Ziyang, et al.
Veröffentlicht: (2025)
Step-Audio-R1.5 Technical Report
von: Zhang, Yuxin, et al.
Veröffentlicht: (2026)
von: Zhang, Yuxin, et al.
Veröffentlicht: (2026)
Uncovering the Visual Contribution in Audio-Visual Speech Recognition
von: Lin, Zhaofeng, et al.
Veröffentlicht: (2024)
von: Lin, Zhaofeng, et al.
Veröffentlicht: (2024)
Leveraging Mamba with Full-Face Vision for Audio-Visual Speech Enhancement
von: Chao, Rong, et al.
Veröffentlicht: (2025)
von: Chao, Rong, et al.
Veröffentlicht: (2025)
LLM-Guided Reinforcement Learning for Audio-Visual Speech Enhancement
von: Chen, Chih-Ning, et al.
Veröffentlicht: (2026)
von: Chen, Chih-Ning, et al.
Veröffentlicht: (2026)
AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
von: Rong, Yan, et al.
Veröffentlicht: (2025)
von: Rong, Yan, et al.
Veröffentlicht: (2025)
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs
von: Cappellazzo, Umberto, et al.
Veröffentlicht: (2025)
von: Cappellazzo, Umberto, et al.
Veröffentlicht: (2025)
Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs
von: Zhang, Wenyu, et al.
Veröffentlicht: (2025)
von: Zhang, Wenyu, et al.
Veröffentlicht: (2025)
FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation
von: Liu, Huadai, et al.
Veröffentlicht: (2024)
von: Liu, Huadai, et al.
Veröffentlicht: (2024)
Leveraging Audio-Visual Data to Reduce the Multilingual Gap in Self-Supervised Speech Models
von: Blandón, María Andrea Cruz, et al.
Veröffentlicht: (2025)
von: Blandón, María Andrea Cruz, et al.
Veröffentlicht: (2025)
Multi-View Based Audio Visual Target Speaker Extraction
von: Yang, Peijun, et al.
Veröffentlicht: (2026)
von: Yang, Peijun, et al.
Veröffentlicht: (2026)
PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs
von: Dementyev, Artem, et al.
Veröffentlicht: (2026)
von: Dementyev, Artem, et al.
Veröffentlicht: (2026)
SemanticAudio: Audio Generation and Editing in Semantic Space
von: Dai, Zheqi, et al.
Veröffentlicht: (2026)
von: Dai, Zheqi, et al.
Veröffentlicht: (2026)
Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models
von: He, Haolin, et al.
Veröffentlicht: (2025)
von: He, Haolin, et al.
Veröffentlicht: (2025)
Audio-Visual Feature Synchronization for Robust Speech Enhancement in Hearing Aids
von: Saleem, Nasir, et al.
Veröffentlicht: (2025)
von: Saleem, Nasir, et al.
Veröffentlicht: (2025)
Multimodal Representation Loss Between Timed Text and Audio for Regularized Speech Separation
von: Hsieh, Tsun-An, et al.
Veröffentlicht: (2024)
von: Hsieh, Tsun-An, et al.
Veröffentlicht: (2024)
Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning
von: Tian, Wenjie, et al.
Veröffentlicht: (2026)
von: Tian, Wenjie, et al.
Veröffentlicht: (2026)
Online Audio-Visual Autoregressive Speaker Extraction
von: Pan, Zexu, et al.
Veröffentlicht: (2025)
von: Pan, Zexu, et al.
Veröffentlicht: (2025)
Exploring Perceptual Audio Quality Measurement on Stereo Processing Using the Open Dataset of Audio Quality
von: Delgado, Pablo M., et al.
Veröffentlicht: (2025)
von: Delgado, Pablo M., et al.
Veröffentlicht: (2025)
Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs
von: Chowdhury, Sanjoy, et al.
Veröffentlicht: (2025)
von: Chowdhury, Sanjoy, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition
von: Wang, Zixuan, et al.
Veröffentlicht: (2024) -
A Survey of Audio Reasoning in Multimodal Foundation Models
von: Guo, Zhihan, et al.
Veröffentlicht: (2026) -
Interpretable Audio Editing Evaluation via Chain-of-Thought Difference-Commonality Reasoning with Multimodal LLMs
von: Jia, Yuhang, et al.
Veröffentlicht: (2025) -
EchoFree: Towards Ultra Lightweight and Efficient Neural Acoustic Echo Cancellation
von: Li, Xingchen, et al.
Veröffentlicht: (2025) -
Audio Atlas: Visualizing and Exploring Audio Datasets
von: Lanzendörfer, Luca A., et al.
Veröffentlicht: (2024)