:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Pan, Chenbin, He, Wenbin, Tu, Zhengzhong, Ren, Liu
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2505.24025
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
par: Pan, Jiazhen, et autres
Publié: (2025)

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
par: Huang, Wenxuan, et autres
Publié: (2025)

Region-R1: Reinforcing Query-Side Region Cropping for Multi-Modal Re-Ranking
par: Hu, Chan-Wei, et autres
Publié: (2026)

Surgical-DINO: Adapter Learning of Foundation Models for Depth Estimation in Endoscopic Surgery
par: Cui, Beilei, et autres
Publié: (2024)

NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving
par: Tian, Kexin, et autres
Publié: (2025)

DRAMA-X: A Fine-grained Intent Prediction and Risk Reasoning Benchmark For Driving
par: Godbole, Mihir, et autres
Publié: (2025)

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
par: Yao, Huanjin, et autres
Publié: (2025)

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
par: Huang, Wenxuan, et autres
Publié: (2026)

A Mixed Diet Makes DINO An Omnivorous Vision Encoder
par: Kabra, Rishabh, et autres
Publié: (2026)

SATORI-R1: Incentivizing Multimodal Reasoning through Explicit Visual Anchoring
par: Shen, Chuming, et autres
Publié: (2025)

T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs
par: Xia, Shao-Jun, et autres
Publié: (2025)

AdaRing: Towards Ultra-Light Vision-Language Adaptation via Cross-Layer Tensor Ring Decomposition
par: Huang, Ying, et autres
Publié: (2025)

DIVE: Taming DINO for Subject-Driven Video Editing
par: Huang, Yi, et autres
Publié: (2024)

OVS-DINO: Open-Vocabulary Segmentation via Structure-Aligned SAM-DINO with Language Guidance
par: Zeng, Haoxi, et autres
Publié: (2026)

CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation
par: Taghavi, Pardis, et autres
Publié: (2025)

DINO-VO: A Feature-based Visual Odometry Leveraging a Visual Foundation Model
par: Azhari, Maulana Bisyir, et autres
Publié: (2025)

TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
par: Shangguan, Ziyao, et autres
Publié: (2024)

Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
par: Wang, Haozhe, et autres
Publié: (2025)

DinoTwins: Combining DINO and Barlow Twins for Robust, Label-Efficient Vision Transformers
par: Podsiadly, Michael, et autres
Publié: (2025)

BrainDINO: A Brain MRI Foundation Model for Generalizable Clinical Representation Learning
par: Wu, Yizhou, et autres
Publié: (2026)

MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling
par: Li, Wenjie, et autres
Publié: (2026)

More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models
par: Tian, Xinyu, et autres
Publié: (2025)

DINO-CVA: A Multimodal Goal-Conditioned Vision-to-Action Model for Autonomous Catheter Navigation
par: Fekri, Pedram, et autres
Publié: (2025)

InterVLS: Interactive Model Understanding and Improvement with Vision-Language Surrogates
par: Huang, Jinbin, et autres
Publié: (2023)

Swiss DINO: Efficient and Versatile Vision Framework for On-device Personal Object Search
par: Paramonov, Kirill, et autres
Publié: (2024)

Grounding DINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned Vision-Language Models
par: Rasaee, Hamza, et autres
Publié: (2025)

Simplifying DINO via Coding Rate Regularization
par: Wu, Ziyang, et autres
Publié: (2025)

On the Utility of Foundation Models for Fast MRI: Vision-Language-Guided Image Reconstruction
par: Feng, Ruimin, et autres
Publié: (2025)

Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation
par: Barsellotti, Luca, et autres
Publié: (2024)

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1
par: Munagala, Abhinav
Publié: (2026)

STAMP: Scalable Task And Model-agnostic Collaborative Perception
par: Gao, Xiangbo, et autres
Publié: (2025)

HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios
par: Wang, Daming, et autres
Publié: (2025)

DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection
par: Li, Shawn, et autres
Publié: (2024)

A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing
par: Ren, Yi, et autres
Publié: (2024)

Learning Emergent Modular Representations in Multi-modality Medical Vision Foundation Models
par: He, Yuting, et autres
Publié: (2026)

Demystifying the Visual Quality Paradox in Multimodal Large Language Models
par: Xing, Shuo, et autres
Publié: (2025)

OmniMRI: A Unified Vision--Language Foundation Model for Generalist MRI Interpretation
par: He, Xingxin, et autres
Publié: (2025)

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward
par: Xiao, Tong, et autres
Publié: (2025)

Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting
par: Chen, Changlu, et autres
Publié: (2025)

MHPR: Multidimensional Human Perception and Reasoning Benchmark for Large Vision-Languate Models
par: Wang, Kangkang, et autres
Publié: (2026)