Kaydedildi:
| Asıl Yazarlar: | Shrestha, Robik, Kafle, Kushal, Kanan, Christopher |
|---|---|
| Materyal Türü: | Preprint |
| Baskı/Yayın Bilgisi: |
2020
|
| Konular: | |
| Online Erişim: | https://arxiv.org/abs/2004.05704 |
| Etiketler: |
Etiketle
Etiket eklenmemiş, İlk siz ekleyin!
|
Benzer Materyaller
Are Bias Mitigation Techniques for Deep Learning Effective?
Yazar:: Shrestha, Robik, ve diğerleri
Baskı/Yayın Bilgisi: (2021)
Yazar:: Shrestha, Robik, ve diğerleri
Baskı/Yayın Bilgisi: (2021)
Revisiting Multi-Modal LLM Evaluation
Yazar:: Lu, Jian, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Lu, Jian, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
BloomVQA: Assessing Hierarchical Multi-modal Comprehension
Yazar:: Gong, Yunye, ve diğerleri
Baskı/Yayın Bilgisi: (2023)
Yazar:: Gong, Yunye, ve diğerleri
Baskı/Yayın Bilgisi: (2023)
Improving Multimodal Large Language Models Using Continual Learning
Yazar:: Srivastava, Shikhar, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Srivastava, Shikhar, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations
Yazar:: Yang, Ziyan, ve diğerleri
Baskı/Yayın Bilgisi: (2022)
Yazar:: Yang, Ziyan, ve diğerleri
Baskı/Yayın Bilgisi: (2022)
VGR: Visual Grounded Reasoning
Yazar:: Wang, Jiacong, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Wang, Jiacong, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities
Yazar:: Zhu, Chenming, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Zhu, Chenming, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs
Yazar:: Ghosh, Sreyan, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Ghosh, Sreyan, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning
Yazar:: Vaishnav, Mohit, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
Yazar:: Vaishnav, Mohit, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology
Yazar:: Wang, Haochen, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Wang, Haochen, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Adversarial Attacks on VQA-NLE: Exposing and Alleviating Inconsistencies in Visual Question Answering Explanations
Yazar:: Yeh, Yahsin, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Yeh, Yahsin, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
UCSF-PDGM-VQA: Visual Question Answering dataset for brain tumor MRI interpretation
Yazar:: Ghosh, Shiv, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
Yazar:: Ghosh, Shiv, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams
Yazar:: Iyengar, Anirudh Iyengar Kaniyar Narayana, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
Yazar:: Iyengar, Anirudh Iyengar Kaniyar Narayana, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale
Yazar:: Acuna, David, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Acuna, David, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Seeing Culture: A Benchmark for Visual Reasoning and Grounding
Yazar:: Satar, Burak, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Satar, Burak, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication
Yazar:: Slyman, Eric, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Slyman, Eric, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
KARL: Knowledge-Aware Reasoning and Reinforcement Learning for Knowledge-Intensive Visual Grounding
Yazar:: Ma, Xinyu, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Ma, Xinyu, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
RadImageNet-VQA: A Large-Scale CT and MRI Dataset for Radiologic Visual Question Answering
Yazar:: Butsanets, Léo, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Butsanets, Léo, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
Yazar:: Li, Zejun, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Li, Zejun, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Knowledge Generation for Zero-shot Knowledge-based VQA
Yazar:: Cao, Rui, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Cao, Rui, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding
Yazar:: Yu, Zhuoran, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Yu, Zhuoran, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models
Yazar:: Ha, Jiwoo, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
Yazar:: Ha, Jiwoo, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge
Yazar:: Wang, Haibo, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Wang, Haibo, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Chain-of-Ground: Improving GUI Grounding via Iterative Reasoning and Reference Feedback
Yazar:: Li, Aiden Yiliu, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Li, Aiden Yiliu, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA
Yazar:: Karim, A H M Rezaul, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Karim, A H M Rezaul, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
Yazar:: Fan, Yue, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Fan, Yue, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Efficient Adaptation For Remote Sensing Visual Grounding
Yazar:: Moughnieh, Hasan, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Moughnieh, Hasan, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
The Role of Entropy in Visual Grounding: Analysis and Optimization
Yazar:: Li, Shuo, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Li, Shuo, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models
Yazar:: Prasad, Archiki, ve diğerleri
Baskı/Yayın Bilgisi: (2023)
Yazar:: Prasad, Archiki, ve diğerleri
Baskı/Yayın Bilgisi: (2023)
Unbiased Visual Reasoning with Controlled Visual Inputs
Yazar:: Li, Zhaonan, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Li, Zhaonan, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles
Yazar:: Slyman, Eric, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Slyman, Eric, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation
Yazar:: Yu, Shoubin, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Yu, Shoubin, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding
Yazar:: Baek, Jeonghun, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Baek, Jeonghun, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
Yazar:: Zou, Hongjian, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
Yazar:: Zou, Hongjian, ve diğerleri
Baskı/Yayın Bilgisi: (2026)
Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models
Yazar:: Zhu, Wenhui, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Zhu, Wenhui, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
Yazar:: Wu, Qianhui, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Wu, Qianhui, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering
Yazar:: Huang, Chengyue, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Huang, Chengyue, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Mind the Uncertainty in Human Disagreement: Evaluating Discrepancies between Model Predictions and Human Responses in VQA
Yazar:: Lan, Jian, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
Yazar:: Lan, Jian, ve diğerleri
Baskı/Yayın Bilgisi: (2024)
OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses
Yazar:: Shrestha, Robik, ve diğerleri
Baskı/Yayın Bilgisi: (2022)
Yazar:: Shrestha, Robik, ve diğerleri
Baskı/Yayın Bilgisi: (2022)
Bootstrapping Action-Grounded Visual Dynamics in Unified Vision-Language Models
Yazar:: Qiu, Yifu, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Yazar:: Qiu, Yifu, ve diğerleri
Baskı/Yayın Bilgisi: (2025)
Benzer Materyaller
-
Are Bias Mitigation Techniques for Deep Learning Effective?
Yazar:: Shrestha, Robik, ve diğerleri
Baskı/Yayın Bilgisi: (2021) -
Revisiting Multi-Modal LLM Evaluation
Yazar:: Lu, Jian, ve diğerleri
Baskı/Yayın Bilgisi: (2024) -
BloomVQA: Assessing Hierarchical Multi-modal Comprehension
Yazar:: Gong, Yunye, ve diğerleri
Baskı/Yayın Bilgisi: (2023) -
Improving Multimodal Large Language Models Using Continual Learning
Yazar:: Srivastava, Shikhar, ve diğerleri
Baskı/Yayın Bilgisi: (2024) -
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations
Yazar:: Yang, Ziyan, ve diğerleri
Baskı/Yayın Bilgisi: (2022)