:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Xing, Zhenghao, Hu, Xiaowei, Fu, Chi-Wing, Wang, Wenhai, Dai, Jifeng, Heng, Pheng-Ann
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition Audio and Speech Processing
Online-Zugang:	https://arxiv.org/abs/2505.04623
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition
von: Wang, Zixuan, et al.
Veröffentlicht: (2024)

A Survey of Audio Reasoning in Multimodal Foundation Models
von: Guo, Zhihan, et al.
Veröffentlicht: (2026)

Interpretable Audio Editing Evaluation via Chain-of-Thought Difference-Commonality Reasoning with Multimodal LLMs
von: Jia, Yuhang, et al.
Veröffentlicht: (2025)

EchoFree: Towards Ultra Lightweight and Efficient Neural Acoustic Echo Cancellation
von: Li, Xingchen, et al.
Veröffentlicht: (2025)

Audio Atlas: Visualizing and Exploring Audio Datasets
von: Lanzendörfer, Luca A., et al.
Veröffentlicht: (2024)

Towards Multimodal Query-Based Spatial Audio Source Extraction
von: Yu, Chenxin, et al.
Veröffentlicht: (2025)

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs
von: Jia, Yuhang, et al.
Veröffentlicht: (2025)

Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models
von: Li, Longhao, et al.
Veröffentlicht: (2026)

Audio-Visual Speech Enhancement for Spatial Audio - Spatial-VisualVoice and the MAVE Database
von: Yaffe, Danielle, et al.
Veröffentlicht: (2025)

Evaluating Hallucinations in Audio-Visual Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions
von: Park, Hansol, et al.
Veröffentlicht: (2025)

Probing Cross-modal Information Hubs in Audio-Visual LLMs
von: Jung, Jihoo, et al.
Veröffentlicht: (2026)

SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation
von: Wang, Helin, et al.
Veröffentlicht: (2026)

Multimodal Emotion Recognition from Raw Audio with Sinc-convolution
von: Zhang, Xiaohui, et al.
Veröffentlicht: (2024)

Multimodal Assessment of Speech Impairment in ALS Using Audio-Visual and Machine Learning Approaches
von: Pierotti, Francesco, et al.
Veröffentlicht: (2025)

Audio Entailment: Assessing Deductive Reasoning for Audio Understanding
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)

Audio-Visual Approach For Multimodal Concurrent Speaker Detection
von: Eliav, Amit, et al.
Veröffentlicht: (2024)

AudioLog: LLMs-Powered Long Audio Logging with Hybrid Token-Semantic Contrastive Learning
von: Bai, Jisheng, et al.
Veröffentlicht: (2023)

ViDove: A Translation Agent System with Multimodal Context and Memory-Augmented Reasoning
von: Lu, Yichen, et al.
Veröffentlicht: (2025)

Interpreting the Role of Visemes in Audio-Visual Speech Recognition
von: Papadopoulos, Aristeidis, et al.
Veröffentlicht: (2025)

AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval
von: Lin, Jingru, et al.
Veröffentlicht: (2026)

Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model
von: Ma, Ziyang, et al.
Veröffentlicht: (2025)

Step-Audio-R1.5 Technical Report
von: Zhang, Yuxin, et al.
Veröffentlicht: (2026)

Uncovering the Visual Contribution in Audio-Visual Speech Recognition
von: Lin, Zhaofeng, et al.
Veröffentlicht: (2024)

Leveraging Mamba with Full-Face Vision for Audio-Visual Speech Enhancement
von: Chao, Rong, et al.
Veröffentlicht: (2025)

LLM-Guided Reinforcement Learning for Audio-Visual Speech Enhancement
von: Chen, Chih-Ning, et al.
Veröffentlicht: (2026)

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
von: Rong, Yan, et al.
Veröffentlicht: (2025)

Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs
von: Cappellazzo, Umberto, et al.
Veröffentlicht: (2025)

Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs
von: Zhang, Wenyu, et al.
Veröffentlicht: (2025)

FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation
von: Liu, Huadai, et al.
Veröffentlicht: (2024)

Leveraging Audio-Visual Data to Reduce the Multilingual Gap in Self-Supervised Speech Models
von: Blandón, María Andrea Cruz, et al.
Veröffentlicht: (2025)

Multi-View Based Audio Visual Target Speaker Extraction
von: Yang, Peijun, et al.
Veröffentlicht: (2026)

PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs
von: Dementyev, Artem, et al.
Veröffentlicht: (2026)

SemanticAudio: Audio Generation and Editing in Semantic Space
von: Dai, Zheqi, et al.
Veröffentlicht: (2026)

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models
von: He, Haolin, et al.
Veröffentlicht: (2025)

Audio-Visual Feature Synchronization for Robust Speech Enhancement in Hearing Aids
von: Saleem, Nasir, et al.
Veröffentlicht: (2025)

Multimodal Representation Loss Between Timed Text and Audio for Regularized Speech Separation
von: Hsieh, Tsun-An, et al.
Veröffentlicht: (2024)

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning
von: Tian, Wenjie, et al.
Veröffentlicht: (2026)

Online Audio-Visual Autoregressive Speaker Extraction
von: Pan, Zexu, et al.
Veröffentlicht: (2025)

Exploring Perceptual Audio Quality Measurement on Stereo Processing Using the Open Dataset of Audio Quality
von: Delgado, Pablo M., et al.
Veröffentlicht: (2025)

Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs
von: Chowdhury, Sanjoy, et al.
Veröffentlicht: (2025)