Enregistré dans:
| Auteurs principaux: | Jing, Liu, Rahman, Amirul |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2503.14674 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Dynamic Cross-Modal Alignment for Robust Semantic Location Prediction
par: Jing, Liu, et autres
Publié: (2024)
par: Jing, Liu, et autres
Publié: (2024)
MPCAR: Multi-Perspective Contextual Augmentation for Enhanced Visual Reasoning in Large Vision-Language Models
par: Rahman, Amirul, et autres
Publié: (2025)
par: Rahman, Amirul, et autres
Publié: (2025)
Visually Interpretable Subtask Reasoning for Visual Question Answering
par: Cheng, Yu, et autres
Publié: (2025)
par: Cheng, Yu, et autres
Publié: (2025)
StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering
par: Wen, Zhihao, et autres
Publié: (2025)
par: Wen, Zhihao, et autres
Publié: (2025)
IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
par: Sun, Zhichao, et autres
Publié: (2026)
par: Sun, Zhichao, et autres
Publié: (2026)
Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling
par: Movva, Prahitha, et autres
Publié: (2025)
par: Movva, Prahitha, et autres
Publié: (2025)
VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning
par: Huang, Muye, et autres
Publié: (2024)
par: Huang, Muye, et autres
Publié: (2024)
Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning
par: Chen, Tieyuan, et autres
Publié: (2025)
par: Chen, Tieyuan, et autres
Publié: (2025)
Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering
par: Hao, Dongze, et autres
Publié: (2024)
par: Hao, Dongze, et autres
Publié: (2024)
ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering
par: Lassoued, Aymen, et autres
Publié: (2026)
par: Lassoued, Aymen, et autres
Publié: (2026)
Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering
par: Lim, Su Hyeon, et autres
Publié: (2024)
par: Lim, Su Hyeon, et autres
Publié: (2024)
MedLVR: Latent Visual Reasoning for Reliable Medical Visual Question Answering
par: Xi, Suyang, et autres
Publié: (2026)
par: Xi, Suyang, et autres
Publié: (2026)
MV-CoRe: Multimodal Visual-Conceptual Reasoning for Complex Visual Question Answering
par: Peng, Jingwei, et autres
Publié: (2025)
par: Peng, Jingwei, et autres
Publié: (2025)
Selectively Answering Visual Questions
par: Eisenschlos, Julian Martin, et autres
Publié: (2024)
par: Eisenschlos, Julian Martin, et autres
Publié: (2024)
Geospatial Chain of Thought Reasoning for Enhanced Visual Question Answering on Satellite Imagery
par: Shanker, Shambhavi, et autres
Publié: (2025)
par: Shanker, Shambhavi, et autres
Publié: (2025)
ReasonVQA: A Multi-hop Reasoning Benchmark with Structural Knowledge for Visual Question Answering
par: Tran, Duong T., et autres
Publié: (2025)
par: Tran, Duong T., et autres
Publié: (2025)
Unlocking Multilingual Reasoning Capability of LLMs and LVLMs through Representation Engineering
par: Li, Qiming, et autres
Publié: (2025)
par: Li, Qiming, et autres
Publié: (2025)
ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla
par: Barua, Deeparghya Dutta, et autres
Publié: (2024)
par: Barua, Deeparghya Dutta, et autres
Publié: (2024)
Questioning the Stability of Visual Question Answering
par: Rosenfeld, Amir, et autres
Publié: (2025)
par: Rosenfeld, Amir, et autres
Publié: (2025)
EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning
par: Li, Zhihao, et autres
Publié: (2024)
par: Li, Zhihao, et autres
Publié: (2024)
Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts
par: Özdemir, Övgü, et autres
Publié: (2024)
par: Özdemir, Övgü, et autres
Publié: (2024)
See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs
par: Zhang, Yongchang, et autres
Publié: (2026)
par: Zhang, Yongchang, et autres
Publié: (2026)
Targeted Visual Prompting for Medical Visual Question Answering
par: Tascon-Morales, Sergio, et autres
Publié: (2024)
par: Tascon-Morales, Sergio, et autres
Publié: (2024)
Visual Robustness Benchmark for Visual Question Answering (VQA)
par: Ishmam, Md Farhan, et autres
Publié: (2024)
par: Ishmam, Md Farhan, et autres
Publié: (2024)
QIRL: Boosting Visual Question Answering via Optimized Question-Image Relation Learning
par: Xu, Quanxing, et autres
Publié: (2025)
par: Xu, Quanxing, et autres
Publié: (2025)
Question-Aware Gaussian Experts for Audio-Visual Question Answering
par: Kim, Hongyeob, et autres
Publié: (2025)
par: Kim, Hongyeob, et autres
Publié: (2025)
STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes
par: Ishihara, Keishi, et autres
Publié: (2025)
par: Ishihara, Keishi, et autres
Publié: (2025)
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering
par: Wang, Zeqing, et autres
Publié: (2023)
par: Wang, Zeqing, et autres
Publié: (2023)
Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning
par: Liu, Huabin, et autres
Publié: (2025)
par: Liu, Huabin, et autres
Publié: (2025)
Evaluating Variance in Visual Question Answering Benchmarks
par: SR, Nikitha
Publié: (2025)
par: SR, Nikitha
Publié: (2025)
Multimodal Rationales for Explainable Visual Question Answering
par: Li, Kun, et autres
Publié: (2024)
par: Li, Kun, et autres
Publié: (2024)
Progressive Multimodal Search and Reasoning for Knowledge-Intensive Visual Question Answering
par: Choi, Changin, et autres
Publié: (2025)
par: Choi, Changin, et autres
Publié: (2025)
Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering
par: Jain, Riddhi, et autres
Publié: (2025)
par: Jain, Riddhi, et autres
Publié: (2025)
Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs
par: Ghosh, Sreyan, et autres
Publié: (2024)
par: Ghosh, Sreyan, et autres
Publié: (2024)
Prompt-based Personalized Federated Learning for Medical Visual Question Answering
par: Zhu, He, et autres
Publié: (2024)
par: Zhu, He, et autres
Publié: (2024)
MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering
par: Tang, Jingqun, et autres
Publié: (2024)
par: Tang, Jingqun, et autres
Publié: (2024)
Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering
par: Romero, David, et autres
Publié: (2024)
par: Romero, David, et autres
Publié: (2024)
Latent Implicit Visual Reasoning
par: Li, Kelvin, et autres
Publié: (2025)
par: Li, Kelvin, et autres
Publié: (2025)
See the Forest and the Trees: A Synergistic Reasoning Framework for Knowledge-Based Visual Question Answering
par: Wang, Junjie, et autres
Publié: (2025)
par: Wang, Junjie, et autres
Publié: (2025)
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization
par: Pham, Tan-Hanh, et autres
Publié: (2024)
par: Pham, Tan-Hanh, et autres
Publié: (2024)
Documents similaires
-
Dynamic Cross-Modal Alignment for Robust Semantic Location Prediction
par: Jing, Liu, et autres
Publié: (2024) -
MPCAR: Multi-Perspective Contextual Augmentation for Enhanced Visual Reasoning in Large Vision-Language Models
par: Rahman, Amirul, et autres
Publié: (2025) -
Visually Interpretable Subtask Reasoning for Visual Question Answering
par: Cheng, Yu, et autres
Publié: (2025) -
StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering
par: Wen, Zhihao, et autres
Publié: (2025) -
IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
par: Sun, Zhichao, et autres
Publié: (2026)