:: Library Catalog

Kapak Resmi

Kaydedildi:

Detaylı Bibliyografya
Asıl Yazarlar:	Shrestha, Robik, Kafle, Kushal, Kanan, Christopher
Materyal Türü:	Preprint
Baskı/Yayın Bilgisi:	2020
Konular:	Computer Vision and Pattern Recognition Artificial Intelligence Computation and Language
Online Erişim:	https://arxiv.org/abs/2004.05704
Etiketler:	Etiketle Etiket eklenmemiş, İlk siz ekleyin!

Benzer Materyaller

Are Bias Mitigation Techniques for Deep Learning Effective?
Yazar:: Shrestha, Robik, ve diğerleri
Baskı/Yayın Bilgisi: (2021)

Revisiting Multi-Modal LLM Evaluation
Yazar:: Lu, Jian, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

BloomVQA: Assessing Hierarchical Multi-modal Comprehension
Yazar:: Gong, Yunye, ve diğerleri
Baskı/Yayın Bilgisi: (2023)

Improving Multimodal Large Language Models Using Continual Learning
Yazar:: Srivastava, Shikhar, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations
Yazar:: Yang, Ziyan, ve diğerleri
Baskı/Yayın Bilgisi: (2022)

VGR: Visual Grounded Reasoning
Yazar:: Wang, Jiacong, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities
Yazar:: Zhu, Chenming, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs
Yazar:: Ghosh, Sreyan, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning
Yazar:: Vaishnav, Mohit, ve diğerleri
Baskı/Yayın Bilgisi: (2026)

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology
Yazar:: Wang, Haochen, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Adversarial Attacks on VQA-NLE: Exposing and Alleviating Inconsistencies in Visual Question Answering Explanations
Yazar:: Yeh, Yahsin, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

UCSF-PDGM-VQA: Visual Question Answering dataset for brain tumor MRI interpretation
Yazar:: Ghosh, Shiv, ve diğerleri
Baskı/Yayın Bilgisi: (2026)

DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams
Yazar:: Iyengar, Anirudh Iyengar Kaniyar Narayana, ve diğerleri
Baskı/Yayın Bilgisi: (2026)

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale
Yazar:: Acuna, David, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Seeing Culture: A Benchmark for Visual Reasoning and Grounding
Yazar:: Satar, Burak, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication
Yazar:: Slyman, Eric, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

KARL: Knowledge-Aware Reasoning and Reinforcement Learning for Knowledge-Intensive Visual Grounding
Yazar:: Ma, Xinyu, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

RadImageNet-VQA: A Large-Scale CT and MRI Dataset for Radiologic Visual Question Answering
Yazar:: Butsanets, Léo, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
Yazar:: Li, Zejun, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Knowledge Generation for Zero-shot Knowledge-based VQA
Yazar:: Cao, Rui, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding
Yazar:: Yu, Zhuoran, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models
Yazar:: Ha, Jiwoo, ve diğerleri
Baskı/Yayın Bilgisi: (2026)

Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge
Yazar:: Wang, Haibo, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Chain-of-Ground: Improving GUI Grounding via Iterative Reasoning and Reference Feedback
Yazar:: Li, Aiden Yiliu, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA
Yazar:: Karim, A H M Rezaul, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
Yazar:: Fan, Yue, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Efficient Adaptation For Remote Sensing Visual Grounding
Yazar:: Moughnieh, Hasan, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

The Role of Entropy in Visual Grounding: Analysis and Optimization
Yazar:: Li, Shuo, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models
Yazar:: Prasad, Archiki, ve diğerleri
Baskı/Yayın Bilgisi: (2023)

Unbiased Visual Reasoning with Controlled Visual Inputs
Yazar:: Li, Zhaonan, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles
Yazar:: Slyman, Eric, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation
Yazar:: Yu, Shoubin, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding
Yazar:: Baek, Jeonghun, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
Yazar:: Zou, Hongjian, ve diğerleri
Baskı/Yayın Bilgisi: (2026)

Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models
Yazar:: Zhu, Wenhui, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
Yazar:: Wu, Qianhui, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering
Yazar:: Huang, Chengyue, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Mind the Uncertainty in Human Disagreement: Evaluating Discrepancies between Model Predictions and Human Responses in VQA
Yazar:: Lan, Jian, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses
Yazar:: Shrestha, Robik, ve diğerleri
Baskı/Yayın Bilgisi: (2022)

Bootstrapping Action-Grounded Visual Dynamics in Unified Vision-Language Models
Yazar:: Qiu, Yifu, ve diğerleri
Baskı/Yayın Bilgisi: (2025)