:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Hackett, Alexander, Thudumu, Srikanth, Fisher, Ginny, Fisher, Jason
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition Artificial Intelligence
Online Access:	https://arxiv.org/abs/2605.15599
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

OpenAg: Democratizing Agricultural Intelligence
by: Thudumu, Srikanth, et al.
Published: (2025)

Overcoming Semantic Dilution in Transformer-Based Next Frame Prediction
by: Nguyen, Hy, et al.
Published: (2025)

CSAOT: Cooperative Multi-Agent System for Active Object Tracking
by: Nguyen, Hy, et al.
Published: (2025)

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval
by: Guo, Hongyu, et al.
Published: (2025)

Supervised Quantum Machine Learning: A Future Outlook from Qubits to Enterprise Applications
by: Thudumu, Srikanth, et al.
Published: (2025)

MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining
by: Liu, Yunze, et al.
Published: (2024)

Back to the Barn with LLAMAs: Evolving Pretrained LLM Backbones in Finetuning Vision Language Models
by: Horawalavithana, Sameera, et al.
Published: (2026)

Vision Backbone Efficient Selection for Image Classification in Low-Data Regimes
by: Guerin, Joris, et al.
Published: (2024)

CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities
by: Nottebaum, Moritz, et al.
Published: (2026)

Gaussian Grouping: Segment and Edit Anything in 3D Scenes
by: Ye, Mingqiao, et al.
Published: (2023)

Generalized Large-Scale Data Condensation via Various Backbone and Statistical Matching
by: Shao, Shitong, et al.
Published: (2023)

PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
by: Schiesser, Lukas, et al.
Published: (2025)

A Survey on Backbones for Deep Video Action Recognition
by: Tang, Zixuan, et al.
Published: (2024)

Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training
by: Li, Wenbo, et al.
Published: (2024)

Revisiting the Integration of Convolution and Attention for Vision Backbone
by: Zhu, Lei, et al.
Published: (2024)

ShapeShifter: 3D Variations Using Multiscale and Sparse Point-Voxel Diffusion
by: Maruani, Nissim, et al.
Published: (2025)

CCUP: A Controllable Synthetic Data Generation Pipeline for Pretraining Cloth-Changing Person Re-Identification Models
by: Zhao, Yujian, et al.
Published: (2024)

Normalization Equivariance for Arbitrary Backbones, with Application to Image Denoising
by: Saied, Youssef, et al.
Published: (2026)

A Generic Shared Attention Mechanism for Various Backbone Neural Networks
by: Huang, Zhongzhan, et al.
Published: (2022)

SAFE-KD: Risk-Controlled Early-Exit Distillation for Vision Backbones
by: Khazem, Salim
Published: (2026)

DisBeaNet: A Deep Neural Network to augment Unmanned Surface Vessels for maritime situational awareness
by: Vemula, Srikanth, et al.
Published: (2024)

Beyond MACs: Hardware Efficient Architecture Design for Vision Backbones
by: Nottebaum, Moritz, et al.
Published: (2026)

RapidNet: Multi-Level Dilated Convolution Based Mobile Backbone
by: Munir, Mustafa, et al.
Published: (2024)

SAR Object Detection with Self-Supervised Pretraining and Curriculum-Aware Sampling
by: Almalioglu, Yasin, et al.
Published: (2025)

Representing Beauty: Towards a Participatory but Objective Latent Aesthetics
by: Rusnak, Alexander Michael
Published: (2025)

MLIP: Efficient Multi-Perspective Language-Image Pretraining with Exhaustive Data Utilization
by: Zhang, Yu, et al.
Published: (2024)

Confounder-Aware Medical Data Selection for Fine-Tuning Pretrained Vision Models
by: Ji, Anyang, et al.
Published: (2025)

ENCLIP: Ensembling and Clustering-Based Contrastive Language-Image Pretraining for Fashion Multimodal Search with Limited Data and Low-Quality Images
by: Naik, Prithviraj Purushottam, et al.
Published: (2024)

LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning
by: Cocchi, Federico, et al.
Published: (2025)

3D MRI Image Pretraining via Controllable 2D Slice Navigation Task
by: Wang, Yu, et al.
Published: (2026)

Strategic Preys Make Acute Predators: Enhancing Camouflaged Object Detectors by Generating Camouflaged Objects
by: He, Chunming, et al.
Published: (2023)

Vehicle Classification under Extreme Imbalance: A Comparative Study of Ensemble Learning and CNNs
by: Syarubany, Abu Hanif Muhammad
Published: (2025)

S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching for Autonomous Driving
by: Wu, Zhiyuan, et al.
Published: (2024)

Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation
by: Li, Xieji, et al.
Published: (2025)

On Pretraining Data Diversity for Self-Supervised Learning
by: Hammoud, Hasan Abed Al Kader, et al.
Published: (2024)

Vision-LSTM: xLSTM as Generic Vision Backbone
by: Alkin, Benedikt, et al.
Published: (2024)

ViR: Towards Efficient Vision Retention Backbones
by: Hatamizadeh, Ali, et al.
Published: (2023)

BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning
by: Wang, Shengao, et al.
Published: (2025)

A Backbone for Long-Horizon Robot Task Understanding
by: Chen, Xiaoshuai, et al.
Published: (2024)

Extreme Model Compression with Structured Sparsity at Low Precision
by: Liu, Dan, et al.
Published: (2025)