:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Ning, Shan, Qiu, Longtian, He, Xuming
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2603.05256
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

NoisyGRPO: Incentivizing Multimodal CoT Reasoning via Noise Injection and Bayesian Estimation
von: Qiu, Longtian, et al.
Veröffentlicht: (2025)

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition
von: Ning, Shan, et al.
Veröffentlicht: (2026)

Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training
von: Qiu, Longtian, et al.
Veröffentlicht: (2024)

Knowledge Condensation and Reasoning for Knowledge-based VQA
von: Hao, Dongze, et al.
Veröffentlicht: (2024)

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
von: Yao, Huanjin, et al.
Veröffentlicht: (2025)

mKG-RAG: Leveraging Multimodal Knowledge Graphs in Retrieval-Augmented Generation for Knowledge-intensive VQA
von: Yuan, Xu, et al.
Veröffentlicht: (2025)

SATORI-R1: Incentivizing Multimodal Reasoning through Explicit Visual Anchoring
von: Shen, Chuming, et al.
Veröffentlicht: (2025)

Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning
von: Cao, Meng, et al.
Veröffentlicht: (2025)

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
von: Pan, Chenbin, et al.
Veröffentlicht: (2025)

STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning
von: Zhang, Xiaowen, et al.
Veröffentlicht: (2026)

ReasonVQA: A Multi-hop Reasoning Benchmark with Structural Knowledge for Visual Question Answering
von: Tran, Duong T., et al.
Veröffentlicht: (2025)

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry
von: Cai, Zhenyang, et al.
Veröffentlicht: (2025)

MMhops-R1: Multimodal Multi-hop Reasoning
von: Zhang, Tao, et al.
Veröffentlicht: (2025)

Knowledge Generation for Zero-shot Knowledge-based VQA
von: Cao, Rui, et al.
Veröffentlicht: (2024)

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
von: Huang, Wenxuan, et al.
Veröffentlicht: (2025)

Learning When to Look: A Disentangled Curriculum for Strategic Perception in Multimodal Reasoning
von: Yang, Siqi, et al.
Veröffentlicht: (2025)

Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning
von: Li, Rongjie, et al.
Veröffentlicht: (2024)

EchoSight: Advancing Visual-Language Models with Wiki Knowledge
von: Yan, Yibin, et al.
Veröffentlicht: (2024)

PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns
von: Chia, Yew Ken, et al.
Veröffentlicht: (2024)

Part-Aware Open-Vocabulary 3D Affordance Grounding via Prototypical Semantic and Geometric Alignment
von: Gou, Dongqiang, et al.
Veröffentlicht: (2026)

R^3-VQA: "Read the Room" by Video Social Reasoning
von: Niu, Lixing, et al.
Veröffentlicht: (2025)

SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs
von: Su, Xin, et al.
Veröffentlicht: (2024)

Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
von: Ning, Zhenhua, et al.
Veröffentlicht: (2025)

GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning
von: Liu, Bo, et al.
Veröffentlicht: (2025)

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
von: Zhou, Runjie, et al.
Veröffentlicht: (2026)

MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model
von: Li, Manyu, et al.
Veröffentlicht: (2025)

GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning
von: Su, Yanzhou, et al.
Veröffentlicht: (2025)

Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning
von: Qiu, Haibo, et al.
Veröffentlicht: (2025)

LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning
von: Xu, Haiying, et al.
Veröffentlicht: (2026)

Med3D-R1: Incentivizing Clinical Reasoning in 3D Medical Vision-Language Models for Abnormality Diagnosis
von: Lai, Haoran, et al.
Veröffentlicht: (2026)

GRAM: Global Reasoning for Multi-Page VQA
von: Blau, Tsachi, et al.
Veröffentlicht: (2024)

Memory-Augmented Multimodal LLMs for Surgical VQA via Self-Contained Inquiry
von: Hou, Wenjun, et al.
Veröffentlicht: (2024)

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
von: Fan, Yue, et al.
Veröffentlicht: (2024)

Saliency-R1: Incentivizing Unified Saliency Reasoning Capability in MLLM with Confidence-Guided Reinforcement Learning
von: Li, Long, et al.
Veröffentlicht: (2025)

MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
von: Lin, Honglin, et al.
Veröffentlicht: (2026)

MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding
von: Kou, Qian, et al.
Veröffentlicht: (2026)

VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving
von: Liu, Yibo, et al.
Veröffentlicht: (2024)

Anatomy-R1: Enhancing Anatomy Reasoning in Multimodal Large Language Models via Anatomical Similarity Curriculum and Group Diversity Augmentation
von: Song, Ziyang, et al.
Veröffentlicht: (2025)

DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation
von: Hayder, Zeeshan, et al.
Veröffentlicht: (2024)

Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
von: Wang, Peiyu, et al.
Veröffentlicht: (2025)