:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Shu, Yuyang, Bain, Michael E.
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2403.13677
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery
by: Sun, Huiran
Published: (2026)

WeedVision: Multi-Stage Growth and Classification of Weeds using DETR and RetinaNet for Precision Agriculture
by: Islam, Taminul, et al.
Published: (2025)

Conquering the Retina: Bringing Visual in-Context Learning to OCT
by: Negrini, Alessio, et al.
Published: (2025)

HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs
by: Yao, Ting, et al.
Published: (2024)

PaW-ViT: A Patch-based Warping Vision Transformer for Robust Ear Verification
by: Arun, Deeksha, et al.
Published: (2026)

ViTAR: Vision Transformer with Any Resolution
by: Fan, Qihang, et al.
Published: (2024)

ViT-5: Vision Transformers for The Mid-2020s
by: Wang, Feng, et al.
Published: (2026)

LocalViT: Analyzing Locality in Vision Transformers
by: Li, Yawei, et al.
Published: (2021)

FTerViT: Fully Ternary Vision Transformer
by: Ruciński, Szymon, et al.
Published: (2026)

VisionCLIP: An Med-AIGC based Ethical Language-Image Foundation Model for Generalizable Retina Image Analysis
by: Wei, Hao, et al.
Published: (2024)

RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework
by: Noor, Mohammad Tahmid, et al.
Published: (2026)

ViTOC: Vision Transformer and Object-aware Captioner
by: Huang, Feiyang
Published: (2024)

ACC-ViT : Atrous Convolution's Comeback in Vision Transformers
by: Ibtehaz, Nabil, et al.
Published: (2024)

ViTCN: Vision Transformer Contrastive Network For Reasoning
by: Song, Bo, et al.
Published: (2024)

EA-ViT: Efficient Adaptation for Elastic Vision Transformer
by: Zhu, Chen, et al.
Published: (2025)

MSPE: Multi-Scale Patch Embedding Prompts Vision Transformers to Any Resolution
by: Liu, Wenzhuo, et al.
Published: (2024)

RetinaGS: Scalable Training for Dense Scene Rendering with Billion-Scale 3D Gaussians
by: Li, Bingling, et al.
Published: (2024)

ChangeViT: Unleashing Plain Vision Transformers for Change Detection
by: Zhu, Duowang, et al.
Published: (2024)

ViTGaze: Gaze Following with Interaction Features in Vision Transformers
by: Song, Yuehao, et al.
Published: (2024)

ViTALS: Vision Transformer for Action Localization in Surgical Nephrectomy
by: Chandra, Soumyadeep, et al.
Published: (2024)

Brain-Inspired Stepwise Patch Merging for Vision Transformers
by: Yu, Yonghao, et al.
Published: (2024)

ViT-AdaLA: Adapting Vision Transformers with Linear Attention
by: Li, Yifan, et al.
Published: (2026)

UniViTAR: Unified Vision Transformer with Native Resolution
by: Qiao, Limeng, et al.
Published: (2025)

IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer
by: Ma, Xiaochen, et al.
Published: (2023)

ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference
by: Hojjat, Ali, et al.
Published: (2025)

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy
by: Mantes, Albert Dominguez, et al.
Published: (2026)

RetinaGuard: Obfuscating Retinal Age in Fundus Images for Biometric Privacy Preserving
by: Luo, Zhengquan, et al.
Published: (2025)

ViT-Explainer: An Interactive Walkthrough of the Vision Transformer Pipeline
by: Hernandez, Juan Manuel, et al.
Published: (2026)

Higher-Order Convolution Improves Neural Predictivity in the Retina
by: Azeglio, Simone, et al.
Published: (2025)

Retina-Inspired Object Motion Segmentation for Event-Cameras
by: Clerico, Victoria, et al.
Published: (2024)

FairViT: Fair Vision Transformer via Adaptive Masking
by: Tian, Bowei, et al.
Published: (2024)

Retina : Low-Power Eye Tracking with Event Camera and Spiking Hardware
by: Bonazzi, Pietro, et al.
Published: (2023)

WriteViT: Handwritten Text Generation with Vision Transformer
by: Nam, Dang Hoai, et al.
Published: (2025)

LoopViT: Scaling Visual ARC with Looped Transformers
by: Shu, Wen-Jie, et al.
Published: (2026)

ViTA-Seg: Vision Transformer for Amodal Segmentation in Robotics
by: Caramia, Donato, et al.
Published: (2025)

VAT: Vision Action Transformer by Unlocking Full Representation of ViT
by: Li, Wenhao, et al.
Published: (2025)

MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision Transformer
by: Tai, Yu-Shan, et al.
Published: (2024)

ViT-FIQA: Assessing Face Image Quality using Vision Transformers
by: Atzori, Andrea, et al.
Published: (2025)

Retina-RAG: Retrieval-Augmented Vision-Language Modeling for Joint Retinal Diagnosis and Clinical Report Generation
by: Zaian, Abdelrahman, et al.
Published: (2026)

SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers
by: Venkatraman, Shravan, et al.
Published: (2024)