:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Kondo, Satoshi
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition Image and Video Processing
Online-Zugang:	https://arxiv.org/abs/2505.13746
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

ZEAL: Surgical Skill Assessment with Zero-shot Tool Inference Using Unified Foundation Model
von: Kondo, Satoshi
Veröffentlicht: (2024)

Surgical Vision World Model
von: Koju, Saurabh, et al.
Veröffentlicht: (2025)

Taming Vision-Language Models for Medical Image Analysis: A Comprehensive Review
von: Lin, Haoneng, et al.
Veröffentlicht: (2025)

Spatio-Temporal Representation Decoupling and Enhancement for Federated Instrument Segmentation in Surgical Videos
von: Fang, Zheng, et al.
Veröffentlicht: (2025)

Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2
von: Lou, Ange, et al.
Veröffentlicht: (2024)

Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis
von: Xin, Yu, et al.
Veröffentlicht: (2025)

Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins
von: Shen, Yiqing, et al.
Veröffentlicht: (2025)

Data-Efficient Learning for Generalizable Surgical Video Understanding
von: Nasirihaghighi, Sahar
Veröffentlicht: (2025)

Dimensional Coactivation for Representational Consistency in Frozen Vision Foundation Models
von: Saddik, Izaldein Al-Zyoud Abdulmotaleb El
Veröffentlicht: (2026)

CLIP-RL: Surgical Scene Segmentation Using Contrastive Language-Vision Pretraining & Reinforcement Learning
von: Ahmed, Fatmaelzahraa Ali, et al.
Veröffentlicht: (2025)

Vision Foundation Models in Medical Image Analysis: Advances and Challenges
von: Liang, Pengchen, et al.
Veröffentlicht: (2025)

Downstream Analysis of Foundational Medical Vision Models for Disease Progression
von: Demir, Basar, et al.
Veröffentlicht: (2025)

High-Fidelity 3D Tooth Reconstruction by Fusing Intraoral Scans and CBCT Data via a Deep Implicit Representation
von: Zhu, Yi, et al.
Veröffentlicht: (2026)

DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis
von: Ouyang, Minxi, et al.
Veröffentlicht: (2025)

From Attention to Frequency: Integration of Vision Transformer and FFT-ReLU for Enhanced Image Deblurring
von: Mahmud, Syed Mumtahin, et al.
Veröffentlicht: (2025)

Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery
von: Wang, Guankun, et al.
Veröffentlicht: (2024)

Toward Zero-Shot Learning for Visual Dehazing of Urological Surgical Robots
von: Wu, Renkai, et al.
Veröffentlicht: (2024)

Classification of Gleason Grading in Prostate Cancer Histopathology Images Using Deep Learning Techniques: YOLO, Vision Transformers, and Vision Mamba
von: Malekmohammadi, Amin, et al.
Veröffentlicht: (2024)

Vision-Language Models vs Human: Perceptual Image Quality Assessment
von: Mehmood, Imran, et al.
Veröffentlicht: (2026)

Using Computer Vision for Skin Disease Diagnosis in Bangladesh Enhancing Interpretability and Transparency in Deep Learning Models for Skin Cancer Classification
von: Islam, Rafiul, et al.
Veröffentlicht: (2025)

Deep Learning-Based MR Image Re-parameterization
von: Narang, Abhijeet, et al.
Veröffentlicht: (2022)

Comprehensive Analysis and Improvements in Pansharpening Using Deep Learning
von: Kantharia, Mahek, et al.
Veröffentlicht: (2024)

Vision-Language Model Based Multi-Expert Fusion for CT Image Classification
von: Bai, Jianfa, et al.
Veröffentlicht: (2026)

Joint Learning of Blind Super-Resolution and Crack Segmentation for Realistic Degraded Images
von: Kondo, Yuki, et al.
Veröffentlicht: (2023)

MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs
von: Chen, Feilong, et al.
Veröffentlicht: (2025)

From Global Radiomics to Parametric Maps: A Unified Workflow Fusing Radiomics and Deep Learning for PDAC Detection
von: Deng, Zengtian, et al.
Veröffentlicht: (2026)

Robust Foreground-Background Separation for Severely-Degraded Videos Using Convolutional Sparse Representation Modeling
von: Naganuma, Kazuki, et al.
Veröffentlicht: (2025)

Diagnostic Accuracy of Open-Source Vision-Language Models on Diverse Medical Imaging Tasks
von: Müller-Franzes, Gustav, et al.
Veröffentlicht: (2025)

Rethinking Histology Slide Digitization Workflows for Low-Resource Settings
von: Zehra, Talat, et al.
Veröffentlicht: (2024)

Optimising Graph Representation for Hardware Implementation of Graph Convolutional Networks for Event-based Vision
von: Jeziorek, Kamil, et al.
Veröffentlicht: (2024)

SASVi -- Segment Any Surgical Video
von: Sivakumar, Ssharvien Kumar, et al.
Veröffentlicht: (2025)

Training-free, Perceptually Consistent Low-Resolution Previews with High-Resolution Image for Efficient Workflows of Diffusion Models
von: Jeong, Wongi, et al.
Veröffentlicht: (2026)

Cardiac-CLIP: A Vision-Language Foundation Model for 3D Cardiac CT Images
von: Hu, Yutao, et al.
Veröffentlicht: (2025)

VLSM-Ensemble: Ensembling CLIP-based Vision-Language Models for Enhanced Medical Image Segmentation
von: Dietlmeier, Julia, et al.
Veröffentlicht: (2025)

Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography
von: Ghosh, Shantanu, et al.
Veröffentlicht: (2024)

Vision-Based Driver Drowsiness Monitoring: Comparative Analysis of YOLOv5-v11 Models
von: Herath, Dilshara, et al.
Veröffentlicht: (2025)

HCDN: A Change Detection Network for Construction Housekeeping Using Feature Fusion and Large Vision Models
von: Sun, Kailai, et al.
Veröffentlicht: (2024)

Efficient Image Denoising Using Global and Local Circulant Representation
von: Kong, Zhaoming, et al.
Veröffentlicht: (2025)

PRETI: Patient-Aware Retinal Foundation Model via Metadata-Guided Representation Learning
von: Lee, Yeonkyung, et al.
Veröffentlicht: (2025)

Comparative Analysis of Machine Learning Models for Lung Cancer Mutation Detection and Staging Using 3D CT Scans
von: Li, Yiheng, et al.
Veröffentlicht: (2025)