:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Dey, Durjoy, Ajbar, Aymane, Yan, Yuhong
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition Machine Learning
Online Access:	https://arxiv.org/abs/2605.26283
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

CNNs, Transformers, Hybrid, and Vision Language Models for Skin Cancer Detection
by: Dey, Durjoy, et al.
Published: (2026)

Lightweight Unsupervised Federated Learning with Pretrained Vision Language Model
by: Yan, Hao, et al.
Published: (2024)

An Explainable Transformer Model for Alzheimer's Disease Detection Using Retinal Imaging
by: Jamshidiha, Saeed, et al.
Published: (2025)

Hybrid Convolution and Vision Transformer NAS Search Space for TinyML Image Classification
by: Djajapermana, Mikhael, et al.
Published: (2025)

Comparative Analysis of Vision Transformer, Convolutional, and Hybrid Architectures for Mental Health Classification Using Actigraphy-Derived Images
by: Okala, Ifeanyi
Published: (2025)

RetinalGPT: A Retinal Clinical Preference Conversational Assistant Powered by Large Vision-Language Models
by: Zhu, Wenhui, et al.
Published: (2025)

Object-Centric Cropping for Visual Few-Shot Classification
by: Abdali, Aymane, et al.
Published: (2025)

Lightweight Convolutional Neural Networks for Retinal Disease Classification
by: Qasim, Duaa Kareem, et al.
Published: (2025)

HOG-CNN: Integrating Histogram of Oriented Gradients with Convolutional Neural Networks for Retinal Image Classification
by: Ahmed, Faisal
Published: (2025)

oculomix: Hierarchical Sampling for Retinal-Based Systemic Disease Prediction
by: Kim, Hyunmin, et al.
Published: (2026)

FovEx: Human-Inspired Explanations for Vision Transformers and Convolutional Neural Networks
by: Panda, Mahadev Prasad, et al.
Published: (2024)

Towards Improved Cervical Cancer Screening: Vision Transformer-Based Classification and Interpretability
by: Nguyen, Khoa Tuan, et al.
Published: (2025)

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding
by: Le, Anjie, et al.
Published: (2025)

HQViT: Hybrid Quantum Vision Transformer for Image Classification
by: Zhang, Hui, et al.
Published: (2025)

Are Traditional Deep Learning Model Approaches as Effective as a Retinal-Specific Foundation Model for Ocular and Systemic Disease Detection?
by: Yew, Samantha Min Er, et al.
Published: (2025)

Artificial intelligence application in lymphoma diagnosis: from Convolutional Neural Network to Vision Transformer
by: Rivera, Daniel, et al.
Published: (2025)

Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review
by: Bbouzidi, Sonia, et al.
Published: (2024)

GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning
by: Cherukuri, Teja Krishna, et al.
Published: (2024)

GraphVLM: Benchmarking Vision Language Models for Multimodal Graph Learning
by: Liu, Jiajin, et al.
Published: (2026)

FedVLMBench: Benchmarking Federated Fine-Tuning of Vision-Language Models
by: Zheng, Weiying, et al.
Published: (2025)

Retinal Disease Classification from Fundus Images using CNN Transfer Learning
by: Akram, Ali
Published: (2026)

Interpretable Retinal Disease Prediction Using Biology-Informed Heterogeneous Graph Representations
by: Lux, Laurin, et al.
Published: (2025)

Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models
by: Robicheaux, Peter, et al.
Published: (2025)

Scaling Graph Convolutions for Mobile Vision
by: Avery, William, et al.
Published: (2024)

Fusing Foveal Fixations Using Linear Retinal Transformations and Bayesian Experimental Design
by: Williams, Christopher K. I.
Published: (2025)

HydroVision: LiDAR-Guided Hydrometric Prediction with Vision Transformers and Hybrid Graph Learning
by: Roudbari, Naghmeh Shafiee, et al.
Published: (2024)

PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization
by: Chen, Zining, et al.
Published: (2024)

HoPE: Hybrid of Position Embedding for Long Context Vision-Language Models
by: Li, Haoran, et al.
Published: (2025)

M3T: Multi-Modal Medical Transformer to bridge Clinical Context with Visual Insights for Retinal Image Medical Description Generation
by: Shaik, Nagur Shareef, et al.
Published: (2024)

Matryoshka Query Transformer for Large Vision-Language Models
by: Hu, Wenbo, et al.
Published: (2024)

Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion
by: Rigal, Bruno, et al.
Published: (2026)

Adaptive Multiscale Retinal Diagnosis: A Hybrid Trio-Model Approach for Comprehensive Fundus Multi-Disease Detection Leveraging Transfer Learning and Siamese Networks
by: Inan, Yavuz Selim
Published: (2024)

Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks
by: Guruprasad, Pranav, et al.
Published: (2024)

Benchmarking the Attribution Quality of Vision Models
by: Hesse, Robin, et al.
Published: (2024)

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models
by: Xie, Yuechen, et al.
Published: (2026)

Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision-Language Models
by: Khanal, Bidur, et al.
Published: (2025)

Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments
by: Guruprasad, Pranav, et al.
Published: (2025)

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models
by: Li, Zhaoyang, et al.
Published: (2025)

Early Alzheimer's Disease Detection from Retinal OCT Images: A UK Biobank Study
by: Turkan, Yasemin, et al.
Published: (2025)

Self-Supervised Learning Featuring Small-Scale Image Dataset for Treatable Retinal Diseases Classification
by: Huang, Luffina C., et al.
Published: (2024)