:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Jing, Liu, Rahman, Amirul
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2503.14674
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Dynamic Cross-Modal Alignment for Robust Semantic Location Prediction
par: Jing, Liu, et autres
Publié: (2024)

MPCAR: Multi-Perspective Contextual Augmentation for Enhanced Visual Reasoning in Large Vision-Language Models
par: Rahman, Amirul, et autres
Publié: (2025)

Visually Interpretable Subtask Reasoning for Visual Question Answering
par: Cheng, Yu, et autres
Publié: (2025)

StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering
par: Wen, Zhihao, et autres
Publié: (2025)

IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
par: Sun, Zhichao, et autres
Publié: (2026)

Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling
par: Movva, Prahitha, et autres
Publié: (2025)

VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning
par: Huang, Muye, et autres
Publié: (2024)

Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning
par: Chen, Tieyuan, et autres
Publié: (2025)

Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering
par: Hao, Dongze, et autres
Publié: (2024)

ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering
par: Lassoued, Aymen, et autres
Publié: (2026)

Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering
par: Lim, Su Hyeon, et autres
Publié: (2024)

MedLVR: Latent Visual Reasoning for Reliable Medical Visual Question Answering
par: Xi, Suyang, et autres
Publié: (2026)

MV-CoRe: Multimodal Visual-Conceptual Reasoning for Complex Visual Question Answering
par: Peng, Jingwei, et autres
Publié: (2025)

Selectively Answering Visual Questions
par: Eisenschlos, Julian Martin, et autres
Publié: (2024)

Geospatial Chain of Thought Reasoning for Enhanced Visual Question Answering on Satellite Imagery
par: Shanker, Shambhavi, et autres
Publié: (2025)

ReasonVQA: A Multi-hop Reasoning Benchmark with Structural Knowledge for Visual Question Answering
par: Tran, Duong T., et autres
Publié: (2025)

Unlocking Multilingual Reasoning Capability of LLMs and LVLMs through Representation Engineering
par: Li, Qiming, et autres
Publié: (2025)

ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla
par: Barua, Deeparghya Dutta, et autres
Publié: (2024)

Questioning the Stability of Visual Question Answering
par: Rosenfeld, Amir, et autres
Publié: (2025)

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning
par: Li, Zhihao, et autres
Publié: (2024)

Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts
par: Özdemir, Övgü, et autres
Publié: (2024)

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs
par: Zhang, Yongchang, et autres
Publié: (2026)

Targeted Visual Prompting for Medical Visual Question Answering
par: Tascon-Morales, Sergio, et autres
Publié: (2024)

Visual Robustness Benchmark for Visual Question Answering (VQA)
par: Ishmam, Md Farhan, et autres
Publié: (2024)

QIRL: Boosting Visual Question Answering via Optimized Question-Image Relation Learning
par: Xu, Quanxing, et autres
Publié: (2025)

Question-Aware Gaussian Experts for Audio-Visual Question Answering
par: Kim, Hongyeob, et autres
Publié: (2025)

STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes
par: Ishihara, Keishi, et autres
Publié: (2025)

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering
par: Wang, Zeqing, et autres
Publié: (2023)

Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning
par: Liu, Huabin, et autres
Publié: (2025)

Evaluating Variance in Visual Question Answering Benchmarks
par: SR, Nikitha
Publié: (2025)

Multimodal Rationales for Explainable Visual Question Answering
par: Li, Kun, et autres
Publié: (2024)

Progressive Multimodal Search and Reasoning for Knowledge-Intensive Visual Question Answering
par: Choi, Changin, et autres
Publié: (2025)

Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering
par: Jain, Riddhi, et autres
Publié: (2025)

Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs
par: Ghosh, Sreyan, et autres
Publié: (2024)

Prompt-based Personalized Federated Learning for Medical Visual Question Answering
par: Zhu, He, et autres
Publié: (2024)

MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering
par: Tang, Jingqun, et autres
Publié: (2024)

Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering
par: Romero, David, et autres
Publié: (2024)

Latent Implicit Visual Reasoning
par: Li, Kelvin, et autres
Publié: (2025)

See the Forest and the Trees: A Synergistic Reasoning Framework for Knowledge-Based Visual Question Answering
par: Wang, Junjie, et autres
Publié: (2025)

SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization
par: Pham, Tan-Hanh, et autres
Publié: (2024)