Staff View: :: Library Catalog

Saved in:

Bibliographic Details
Main Authors:	Ghosh, Archishman, Roy, Abhinaba, Herremans, Dorien
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition Artificial Intelligence 68T01 I.2.6; I.2.10; H.3.3
Online Access:	https://arxiv.org/abs/2605.08175
Tags:	Add Tag No Tags, Be the first to tag this record!

_version_	1866910202456965120
author	Ghosh, Archishman Roy, Abhinaba Herremans, Dorien
author_facet	Ghosh, Archishman Roy, Abhinaba Herremans, Dorien
contents	While significant progress has been made in Video Question Answering and cross-modal understanding, causal reasoning about how visual dynamics drive musical structure in music videos remains under-explored. We introduce KARMA-MV, a large-scale multiple-choice QA dataset derived from 2,682 YouTube music videos, designed to test models' ability to integrate temporal audio-visual cues and reason about visual-to-musical influence across reasoning, prediction, and counterfactual questions. Unlike traditional datasets requiring manual annotation, KARMA-MV leverages LLM reasoning for scalable generation and validation, yielding 37,737 MCQs. We propose a causal knowledge graph (CKG) approach that augments vision-language models (VLMs) with structured retrieval of cross-modal dependencies. Experiments on state-of-the-art VLMs and LLMs show consistent gains from CKG grounding -- especially for smaller models -- establishing the value of explicit causal structure for music-video reasoning. KARMA-MV provides a new benchmark for advancing causal audio-visual understanding beyond correlation.
format	Preprint
id	arxiv_https___arxiv_org_abs_2605_08175
institution	arXiv
publishDate	2026
record_format	arxiv
spellingShingle	KARMA-MV: A Benchmark for Causal Question Answering on Music Videos Ghosh, Archishman Roy, Abhinaba Herremans, Dorien Computer Vision and Pattern Recognition Artificial Intelligence 68T01 I.2.6; I.2.10; H.3.3 While significant progress has been made in Video Question Answering and cross-modal understanding, causal reasoning about how visual dynamics drive musical structure in music videos remains under-explored. We introduce KARMA-MV, a large-scale multiple-choice QA dataset derived from 2,682 YouTube music videos, designed to test models' ability to integrate temporal audio-visual cues and reason about visual-to-musical influence across reasoning, prediction, and counterfactual questions. Unlike traditional datasets requiring manual annotation, KARMA-MV leverages LLM reasoning for scalable generation and validation, yielding 37,737 MCQs. We propose a causal knowledge graph (CKG) approach that augments vision-language models (VLMs) with structured retrieval of cross-modal dependencies. Experiments on state-of-the-art VLMs and LLMs show consistent gains from CKG grounding -- especially for smaller models -- establishing the value of explicit causal structure for music-video reasoning. KARMA-MV provides a new benchmark for advancing causal audio-visual understanding beyond correlation.
title	KARMA-MV: A Benchmark for Causal Question Answering on Music Videos
topic	Computer Vision and Pattern Recognition Artificial Intelligence 68T01 I.2.6; I.2.10; H.3.3
url	https://arxiv.org/abs/2605.08175

Similar Items