Enregistré dans:
| Auteurs principaux: | Pan, Chenbin, He, Wenbin, Tu, Zhengzhong, Ren, Liu |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2505.24025 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
par: Pan, Jiazhen, et autres
Publié: (2025)
par: Pan, Jiazhen, et autres
Publié: (2025)
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
par: Huang, Wenxuan, et autres
Publié: (2025)
par: Huang, Wenxuan, et autres
Publié: (2025)
Region-R1: Reinforcing Query-Side Region Cropping for Multi-Modal Re-Ranking
par: Hu, Chan-Wei, et autres
Publié: (2026)
par: Hu, Chan-Wei, et autres
Publié: (2026)
Surgical-DINO: Adapter Learning of Foundation Models for Depth Estimation in Endoscopic Surgery
par: Cui, Beilei, et autres
Publié: (2024)
par: Cui, Beilei, et autres
Publié: (2024)
NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving
par: Tian, Kexin, et autres
Publié: (2025)
par: Tian, Kexin, et autres
Publié: (2025)
DRAMA-X: A Fine-grained Intent Prediction and Risk Reasoning Benchmark For Driving
par: Godbole, Mihir, et autres
Publié: (2025)
par: Godbole, Mihir, et autres
Publié: (2025)
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
par: Yao, Huanjin, et autres
Publié: (2025)
par: Yao, Huanjin, et autres
Publié: (2025)
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
par: Huang, Wenxuan, et autres
Publié: (2026)
par: Huang, Wenxuan, et autres
Publié: (2026)
A Mixed Diet Makes DINO An Omnivorous Vision Encoder
par: Kabra, Rishabh, et autres
Publié: (2026)
par: Kabra, Rishabh, et autres
Publié: (2026)
SATORI-R1: Incentivizing Multimodal Reasoning through Explicit Visual Anchoring
par: Shen, Chuming, et autres
Publié: (2025)
par: Shen, Chuming, et autres
Publié: (2025)
T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs
par: Xia, Shao-Jun, et autres
Publié: (2025)
par: Xia, Shao-Jun, et autres
Publié: (2025)
AdaRing: Towards Ultra-Light Vision-Language Adaptation via Cross-Layer Tensor Ring Decomposition
par: Huang, Ying, et autres
Publié: (2025)
par: Huang, Ying, et autres
Publié: (2025)
DIVE: Taming DINO for Subject-Driven Video Editing
par: Huang, Yi, et autres
Publié: (2024)
par: Huang, Yi, et autres
Publié: (2024)
OVS-DINO: Open-Vocabulary Segmentation via Structure-Aligned SAM-DINO with Language Guidance
par: Zeng, Haoxi, et autres
Publié: (2026)
par: Zeng, Haoxi, et autres
Publié: (2026)
CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation
par: Taghavi, Pardis, et autres
Publié: (2025)
par: Taghavi, Pardis, et autres
Publié: (2025)
DINO-VO: A Feature-based Visual Odometry Leveraging a Visual Foundation Model
par: Azhari, Maulana Bisyir, et autres
Publié: (2025)
par: Azhari, Maulana Bisyir, et autres
Publié: (2025)
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
par: Shangguan, Ziyao, et autres
Publié: (2024)
par: Shangguan, Ziyao, et autres
Publié: (2024)
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
par: Wang, Haozhe, et autres
Publié: (2025)
par: Wang, Haozhe, et autres
Publié: (2025)
DinoTwins: Combining DINO and Barlow Twins for Robust, Label-Efficient Vision Transformers
par: Podsiadly, Michael, et autres
Publié: (2025)
par: Podsiadly, Michael, et autres
Publié: (2025)
BrainDINO: A Brain MRI Foundation Model for Generalizable Clinical Representation Learning
par: Wu, Yizhou, et autres
Publié: (2026)
par: Wu, Yizhou, et autres
Publié: (2026)
MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling
par: Li, Wenjie, et autres
Publié: (2026)
par: Li, Wenjie, et autres
Publié: (2026)
More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models
par: Tian, Xinyu, et autres
Publié: (2025)
par: Tian, Xinyu, et autres
Publié: (2025)
DINO-CVA: A Multimodal Goal-Conditioned Vision-to-Action Model for Autonomous Catheter Navigation
par: Fekri, Pedram, et autres
Publié: (2025)
par: Fekri, Pedram, et autres
Publié: (2025)
InterVLS: Interactive Model Understanding and Improvement with Vision-Language Surrogates
par: Huang, Jinbin, et autres
Publié: (2023)
par: Huang, Jinbin, et autres
Publié: (2023)
Swiss DINO: Efficient and Versatile Vision Framework for On-device Personal Object Search
par: Paramonov, Kirill, et autres
Publié: (2024)
par: Paramonov, Kirill, et autres
Publié: (2024)
Grounding DINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned Vision-Language Models
par: Rasaee, Hamza, et autres
Publié: (2025)
par: Rasaee, Hamza, et autres
Publié: (2025)
Simplifying DINO via Coding Rate Regularization
par: Wu, Ziyang, et autres
Publié: (2025)
par: Wu, Ziyang, et autres
Publié: (2025)
On the Utility of Foundation Models for Fast MRI: Vision-Language-Guided Image Reconstruction
par: Feng, Ruimin, et autres
Publié: (2025)
par: Feng, Ruimin, et autres
Publié: (2025)
Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation
par: Barsellotti, Luca, et autres
Publié: (2024)
par: Barsellotti, Luca, et autres
Publié: (2024)
Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1
par: Munagala, Abhinav
Publié: (2026)
par: Munagala, Abhinav
Publié: (2026)
STAMP: Scalable Task And Model-agnostic Collaborative Perception
par: Gao, Xiangbo, et autres
Publié: (2025)
par: Gao, Xiangbo, et autres
Publié: (2025)
HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios
par: Wang, Daming, et autres
Publié: (2025)
par: Wang, Daming, et autres
Publié: (2025)
DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection
par: Li, Shawn, et autres
Publié: (2024)
par: Li, Shawn, et autres
Publié: (2024)
A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing
par: Ren, Yi, et autres
Publié: (2024)
par: Ren, Yi, et autres
Publié: (2024)
Learning Emergent Modular Representations in Multi-modality Medical Vision Foundation Models
par: He, Yuting, et autres
Publié: (2026)
par: He, Yuting, et autres
Publié: (2026)
Demystifying the Visual Quality Paradox in Multimodal Large Language Models
par: Xing, Shuo, et autres
Publié: (2025)
par: Xing, Shuo, et autres
Publié: (2025)
OmniMRI: A Unified Vision--Language Foundation Model for Generalist MRI Interpretation
par: He, Xingxin, et autres
Publié: (2025)
par: He, Xingxin, et autres
Publié: (2025)
Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward
par: Xiao, Tong, et autres
Publié: (2025)
par: Xiao, Tong, et autres
Publié: (2025)
Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting
par: Chen, Changlu, et autres
Publié: (2025)
par: Chen, Changlu, et autres
Publié: (2025)
MHPR: Multidimensional Human Perception and Reasoning Benchmark for Large Vision-Languate Models
par: Wang, Kangkang, et autres
Publié: (2026)
par: Wang, Kangkang, et autres
Publié: (2026)
Documents similaires
-
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
par: Pan, Jiazhen, et autres
Publié: (2025) -
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
par: Huang, Wenxuan, et autres
Publié: (2025) -
Region-R1: Reinforcing Query-Side Region Cropping for Multi-Modal Re-Ranking
par: Hu, Chan-Wei, et autres
Publié: (2026) -
Surgical-DINO: Adapter Learning of Foundation Models for Depth Estimation in Endoscopic Surgery
par: Cui, Beilei, et autres
Publié: (2024) -
NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving
par: Tian, Kexin, et autres
Publié: (2025)