Gespeichert in:
| 1. Verfasser: | Kondo, Satoshi |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2505.13746 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
ZEAL: Surgical Skill Assessment with Zero-shot Tool Inference Using Unified Foundation Model
von: Kondo, Satoshi
Veröffentlicht: (2024)
von: Kondo, Satoshi
Veröffentlicht: (2024)
Surgical Vision World Model
von: Koju, Saurabh, et al.
Veröffentlicht: (2025)
von: Koju, Saurabh, et al.
Veröffentlicht: (2025)
Taming Vision-Language Models for Medical Image Analysis: A Comprehensive Review
von: Lin, Haoneng, et al.
Veröffentlicht: (2025)
von: Lin, Haoneng, et al.
Veröffentlicht: (2025)
Spatio-Temporal Representation Decoupling and Enhancement for Federated Instrument Segmentation in Surgical Videos
von: Fang, Zheng, et al.
Veröffentlicht: (2025)
von: Fang, Zheng, et al.
Veröffentlicht: (2025)
Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2
von: Lou, Ange, et al.
Veröffentlicht: (2024)
von: Lou, Ange, et al.
Veröffentlicht: (2024)
Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis
von: Xin, Yu, et al.
Veröffentlicht: (2025)
von: Xin, Yu, et al.
Veröffentlicht: (2025)
Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins
von: Shen, Yiqing, et al.
Veröffentlicht: (2025)
von: Shen, Yiqing, et al.
Veröffentlicht: (2025)
Data-Efficient Learning for Generalizable Surgical Video Understanding
von: Nasirihaghighi, Sahar
Veröffentlicht: (2025)
von: Nasirihaghighi, Sahar
Veröffentlicht: (2025)
Dimensional Coactivation for Representational Consistency in Frozen Vision Foundation Models
von: Saddik, Izaldein Al-Zyoud Abdulmotaleb El
Veröffentlicht: (2026)
von: Saddik, Izaldein Al-Zyoud Abdulmotaleb El
Veröffentlicht: (2026)
CLIP-RL: Surgical Scene Segmentation Using Contrastive Language-Vision Pretraining & Reinforcement Learning
von: Ahmed, Fatmaelzahraa Ali, et al.
Veröffentlicht: (2025)
von: Ahmed, Fatmaelzahraa Ali, et al.
Veröffentlicht: (2025)
Vision Foundation Models in Medical Image Analysis: Advances and Challenges
von: Liang, Pengchen, et al.
Veröffentlicht: (2025)
von: Liang, Pengchen, et al.
Veröffentlicht: (2025)
Downstream Analysis of Foundational Medical Vision Models for Disease Progression
von: Demir, Basar, et al.
Veröffentlicht: (2025)
von: Demir, Basar, et al.
Veröffentlicht: (2025)
High-Fidelity 3D Tooth Reconstruction by Fusing Intraoral Scans and CBCT Data via a Deep Implicit Representation
von: Zhu, Yi, et al.
Veröffentlicht: (2026)
von: Zhu, Yi, et al.
Veröffentlicht: (2026)
DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis
von: Ouyang, Minxi, et al.
Veröffentlicht: (2025)
von: Ouyang, Minxi, et al.
Veröffentlicht: (2025)
From Attention to Frequency: Integration of Vision Transformer and FFT-ReLU for Enhanced Image Deblurring
von: Mahmud, Syed Mumtahin, et al.
Veröffentlicht: (2025)
von: Mahmud, Syed Mumtahin, et al.
Veröffentlicht: (2025)
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery
von: Wang, Guankun, et al.
Veröffentlicht: (2024)
von: Wang, Guankun, et al.
Veröffentlicht: (2024)
Toward Zero-Shot Learning for Visual Dehazing of Urological Surgical Robots
von: Wu, Renkai, et al.
Veröffentlicht: (2024)
von: Wu, Renkai, et al.
Veröffentlicht: (2024)
Classification of Gleason Grading in Prostate Cancer Histopathology Images Using Deep Learning Techniques: YOLO, Vision Transformers, and Vision Mamba
von: Malekmohammadi, Amin, et al.
Veröffentlicht: (2024)
von: Malekmohammadi, Amin, et al.
Veröffentlicht: (2024)
Vision-Language Models vs Human: Perceptual Image Quality Assessment
von: Mehmood, Imran, et al.
Veröffentlicht: (2026)
von: Mehmood, Imran, et al.
Veröffentlicht: (2026)
Using Computer Vision for Skin Disease Diagnosis in Bangladesh Enhancing Interpretability and Transparency in Deep Learning Models for Skin Cancer Classification
von: Islam, Rafiul, et al.
Veröffentlicht: (2025)
von: Islam, Rafiul, et al.
Veröffentlicht: (2025)
Deep Learning-Based MR Image Re-parameterization
von: Narang, Abhijeet, et al.
Veröffentlicht: (2022)
von: Narang, Abhijeet, et al.
Veröffentlicht: (2022)
Comprehensive Analysis and Improvements in Pansharpening Using Deep Learning
von: Kantharia, Mahek, et al.
Veröffentlicht: (2024)
von: Kantharia, Mahek, et al.
Veröffentlicht: (2024)
Vision-Language Model Based Multi-Expert Fusion for CT Image Classification
von: Bai, Jianfa, et al.
Veröffentlicht: (2026)
von: Bai, Jianfa, et al.
Veröffentlicht: (2026)
Joint Learning of Blind Super-Resolution and Crack Segmentation for Realistic Degraded Images
von: Kondo, Yuki, et al.
Veröffentlicht: (2023)
von: Kondo, Yuki, et al.
Veröffentlicht: (2023)
MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs
von: Chen, Feilong, et al.
Veröffentlicht: (2025)
von: Chen, Feilong, et al.
Veröffentlicht: (2025)
From Global Radiomics to Parametric Maps: A Unified Workflow Fusing Radiomics and Deep Learning for PDAC Detection
von: Deng, Zengtian, et al.
Veröffentlicht: (2026)
von: Deng, Zengtian, et al.
Veröffentlicht: (2026)
Robust Foreground-Background Separation for Severely-Degraded Videos Using Convolutional Sparse Representation Modeling
von: Naganuma, Kazuki, et al.
Veröffentlicht: (2025)
von: Naganuma, Kazuki, et al.
Veröffentlicht: (2025)
Diagnostic Accuracy of Open-Source Vision-Language Models on Diverse Medical Imaging Tasks
von: Müller-Franzes, Gustav, et al.
Veröffentlicht: (2025)
von: Müller-Franzes, Gustav, et al.
Veröffentlicht: (2025)
Rethinking Histology Slide Digitization Workflows for Low-Resource Settings
von: Zehra, Talat, et al.
Veröffentlicht: (2024)
von: Zehra, Talat, et al.
Veröffentlicht: (2024)
Optimising Graph Representation for Hardware Implementation of Graph Convolutional Networks for Event-based Vision
von: Jeziorek, Kamil, et al.
Veröffentlicht: (2024)
von: Jeziorek, Kamil, et al.
Veröffentlicht: (2024)
SASVi -- Segment Any Surgical Video
von: Sivakumar, Ssharvien Kumar, et al.
Veröffentlicht: (2025)
von: Sivakumar, Ssharvien Kumar, et al.
Veröffentlicht: (2025)
Training-free, Perceptually Consistent Low-Resolution Previews with High-Resolution Image for Efficient Workflows of Diffusion Models
von: Jeong, Wongi, et al.
Veröffentlicht: (2026)
von: Jeong, Wongi, et al.
Veröffentlicht: (2026)
Cardiac-CLIP: A Vision-Language Foundation Model for 3D Cardiac CT Images
von: Hu, Yutao, et al.
Veröffentlicht: (2025)
von: Hu, Yutao, et al.
Veröffentlicht: (2025)
VLSM-Ensemble: Ensembling CLIP-based Vision-Language Models for Enhanced Medical Image Segmentation
von: Dietlmeier, Julia, et al.
Veröffentlicht: (2025)
von: Dietlmeier, Julia, et al.
Veröffentlicht: (2025)
Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography
von: Ghosh, Shantanu, et al.
Veröffentlicht: (2024)
von: Ghosh, Shantanu, et al.
Veröffentlicht: (2024)
Vision-Based Driver Drowsiness Monitoring: Comparative Analysis of YOLOv5-v11 Models
von: Herath, Dilshara, et al.
Veröffentlicht: (2025)
von: Herath, Dilshara, et al.
Veröffentlicht: (2025)
HCDN: A Change Detection Network for Construction Housekeeping Using Feature Fusion and Large Vision Models
von: Sun, Kailai, et al.
Veröffentlicht: (2024)
von: Sun, Kailai, et al.
Veröffentlicht: (2024)
Efficient Image Denoising Using Global and Local Circulant Representation
von: Kong, Zhaoming, et al.
Veröffentlicht: (2025)
von: Kong, Zhaoming, et al.
Veröffentlicht: (2025)
PRETI: Patient-Aware Retinal Foundation Model via Metadata-Guided Representation Learning
von: Lee, Yeonkyung, et al.
Veröffentlicht: (2025)
von: Lee, Yeonkyung, et al.
Veröffentlicht: (2025)
Comparative Analysis of Machine Learning Models for Lung Cancer Mutation Detection and Staging Using 3D CT Scans
von: Li, Yiheng, et al.
Veröffentlicht: (2025)
von: Li, Yiheng, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
ZEAL: Surgical Skill Assessment with Zero-shot Tool Inference Using Unified Foundation Model
von: Kondo, Satoshi
Veröffentlicht: (2024) -
Surgical Vision World Model
von: Koju, Saurabh, et al.
Veröffentlicht: (2025) -
Taming Vision-Language Models for Medical Image Analysis: A Comprehensive Review
von: Lin, Haoneng, et al.
Veröffentlicht: (2025) -
Spatio-Temporal Representation Decoupling and Enhancement for Federated Instrument Segmentation in Surgical Videos
von: Fang, Zheng, et al.
Veröffentlicht: (2025) -
Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2
von: Lou, Ange, et al.
Veröffentlicht: (2024)