Gespeichert in:
| Hauptverfasser: | Ning, Shan, Qiu, Longtian, He, Xuming |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2603.05256 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
NoisyGRPO: Incentivizing Multimodal CoT Reasoning via Noise Injection and Bayesian Estimation
von: Qiu, Longtian, et al.
Veröffentlicht: (2025)
von: Qiu, Longtian, et al.
Veröffentlicht: (2025)
WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition
von: Ning, Shan, et al.
Veröffentlicht: (2026)
von: Ning, Shan, et al.
Veröffentlicht: (2026)
Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training
von: Qiu, Longtian, et al.
Veröffentlicht: (2024)
von: Qiu, Longtian, et al.
Veröffentlicht: (2024)
Knowledge Condensation and Reasoning for Knowledge-based VQA
von: Hao, Dongze, et al.
Veröffentlicht: (2024)
von: Hao, Dongze, et al.
Veröffentlicht: (2024)
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
von: Yao, Huanjin, et al.
Veröffentlicht: (2025)
von: Yao, Huanjin, et al.
Veröffentlicht: (2025)
mKG-RAG: Leveraging Multimodal Knowledge Graphs in Retrieval-Augmented Generation for Knowledge-intensive VQA
von: Yuan, Xu, et al.
Veröffentlicht: (2025)
von: Yuan, Xu, et al.
Veröffentlicht: (2025)
SATORI-R1: Incentivizing Multimodal Reasoning through Explicit Visual Anchoring
von: Shen, Chuming, et al.
Veröffentlicht: (2025)
von: Shen, Chuming, et al.
Veröffentlicht: (2025)
Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning
von: Cao, Meng, et al.
Veröffentlicht: (2025)
von: Cao, Meng, et al.
Veröffentlicht: (2025)
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
von: Pan, Chenbin, et al.
Veröffentlicht: (2025)
von: Pan, Chenbin, et al.
Veröffentlicht: (2025)
STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning
von: Zhang, Xiaowen, et al.
Veröffentlicht: (2026)
von: Zhang, Xiaowen, et al.
Veröffentlicht: (2026)
ReasonVQA: A Multi-hop Reasoning Benchmark with Structural Knowledge for Visual Question Answering
von: Tran, Duong T., et al.
Veröffentlicht: (2025)
von: Tran, Duong T., et al.
Veröffentlicht: (2025)
DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry
von: Cai, Zhenyang, et al.
Veröffentlicht: (2025)
von: Cai, Zhenyang, et al.
Veröffentlicht: (2025)
MMhops-R1: Multimodal Multi-hop Reasoning
von: Zhang, Tao, et al.
Veröffentlicht: (2025)
von: Zhang, Tao, et al.
Veröffentlicht: (2025)
Knowledge Generation for Zero-shot Knowledge-based VQA
von: Cao, Rui, et al.
Veröffentlicht: (2024)
von: Cao, Rui, et al.
Veröffentlicht: (2024)
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
von: Huang, Wenxuan, et al.
Veröffentlicht: (2025)
von: Huang, Wenxuan, et al.
Veröffentlicht: (2025)
Learning When to Look: A Disentangled Curriculum for Strategic Perception in Multimodal Reasoning
von: Yang, Siqi, et al.
Veröffentlicht: (2025)
von: Yang, Siqi, et al.
Veröffentlicht: (2025)
Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning
von: Li, Rongjie, et al.
Veröffentlicht: (2024)
von: Li, Rongjie, et al.
Veröffentlicht: (2024)
EchoSight: Advancing Visual-Language Models with Wiki Knowledge
von: Yan, Yibin, et al.
Veröffentlicht: (2024)
von: Yan, Yibin, et al.
Veröffentlicht: (2024)
PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns
von: Chia, Yew Ken, et al.
Veröffentlicht: (2024)
von: Chia, Yew Ken, et al.
Veröffentlicht: (2024)
Part-Aware Open-Vocabulary 3D Affordance Grounding via Prototypical Semantic and Geometric Alignment
von: Gou, Dongqiang, et al.
Veröffentlicht: (2026)
von: Gou, Dongqiang, et al.
Veröffentlicht: (2026)
R^3-VQA: "Read the Room" by Video Social Reasoning
von: Niu, Lixing, et al.
Veröffentlicht: (2025)
von: Niu, Lixing, et al.
Veröffentlicht: (2025)
SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs
von: Su, Xin, et al.
Veröffentlicht: (2024)
von: Su, Xin, et al.
Veröffentlicht: (2024)
Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
von: Ning, Zhenhua, et al.
Veröffentlicht: (2025)
von: Ning, Zhenhua, et al.
Veröffentlicht: (2025)
GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning
von: Liu, Bo, et al.
Veröffentlicht: (2025)
von: Liu, Bo, et al.
Veröffentlicht: (2025)
WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
von: Zhou, Runjie, et al.
Veröffentlicht: (2026)
von: Zhou, Runjie, et al.
Veröffentlicht: (2026)
MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model
von: Li, Manyu, et al.
Veröffentlicht: (2025)
von: Li, Manyu, et al.
Veröffentlicht: (2025)
GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning
von: Su, Yanzhou, et al.
Veröffentlicht: (2025)
von: Su, Yanzhou, et al.
Veröffentlicht: (2025)
Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning
von: Qiu, Haibo, et al.
Veröffentlicht: (2025)
von: Qiu, Haibo, et al.
Veröffentlicht: (2025)
LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning
von: Xu, Haiying, et al.
Veröffentlicht: (2026)
von: Xu, Haiying, et al.
Veröffentlicht: (2026)
Med3D-R1: Incentivizing Clinical Reasoning in 3D Medical Vision-Language Models for Abnormality Diagnosis
von: Lai, Haoran, et al.
Veröffentlicht: (2026)
von: Lai, Haoran, et al.
Veröffentlicht: (2026)
GRAM: Global Reasoning for Multi-Page VQA
von: Blau, Tsachi, et al.
Veröffentlicht: (2024)
von: Blau, Tsachi, et al.
Veröffentlicht: (2024)
Memory-Augmented Multimodal LLMs for Surgical VQA via Self-Contained Inquiry
von: Hou, Wenjun, et al.
Veröffentlicht: (2024)
von: Hou, Wenjun, et al.
Veröffentlicht: (2024)
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
von: Fan, Yue, et al.
Veröffentlicht: (2024)
von: Fan, Yue, et al.
Veröffentlicht: (2024)
Saliency-R1: Incentivizing Unified Saliency Reasoning Capability in MLLM with Confidence-Guided Reinforcement Learning
von: Li, Long, et al.
Veröffentlicht: (2025)
von: Li, Long, et al.
Veröffentlicht: (2025)
MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
von: Lin, Honglin, et al.
Veröffentlicht: (2026)
von: Lin, Honglin, et al.
Veröffentlicht: (2026)
MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding
von: Kou, Qian, et al.
Veröffentlicht: (2026)
von: Kou, Qian, et al.
Veröffentlicht: (2026)
VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving
von: Liu, Yibo, et al.
Veröffentlicht: (2024)
von: Liu, Yibo, et al.
Veröffentlicht: (2024)
Anatomy-R1: Enhancing Anatomy Reasoning in Multimodal Large Language Models via Anatomical Similarity Curriculum and Group Diversity Augmentation
von: Song, Ziyang, et al.
Veröffentlicht: (2025)
von: Song, Ziyang, et al.
Veröffentlicht: (2025)
DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation
von: Hayder, Zeeshan, et al.
Veröffentlicht: (2024)
von: Hayder, Zeeshan, et al.
Veröffentlicht: (2024)
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
von: Wang, Peiyu, et al.
Veröffentlicht: (2025)
von: Wang, Peiyu, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
NoisyGRPO: Incentivizing Multimodal CoT Reasoning via Noise Injection and Bayesian Estimation
von: Qiu, Longtian, et al.
Veröffentlicht: (2025) -
WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition
von: Ning, Shan, et al.
Veröffentlicht: (2026) -
Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training
von: Qiu, Longtian, et al.
Veröffentlicht: (2024) -
Knowledge Condensation and Reasoning for Knowledge-based VQA
von: Hao, Dongze, et al.
Veröffentlicht: (2024) -
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
von: Yao, Huanjin, et al.
Veröffentlicht: (2025)