:: Library Catalog

صورة الغلاف

محفوظ في:

التفاصيل البيبلوغرافية
المؤلفون الرئيسيون:	Wang, Feng, Ren, Sucheng, Zhang, Tiezheng, Neskovic, Predrag, Bhattad, Anand, Xie, Cihang, Yuille, Alan
التنسيق:	Preprint
منشور في:	2026
الموضوعات:	Computer Vision and Pattern Recognition
الوصول للمادة أونلاين:	https://arxiv.org/abs/2602.08071
الوسوم:	إضافة وسم لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!

مواد مشابهة

M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)

ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access
حسب: Yang, Timing, وآخرون
منشور في: (2025)

Rejuvenating image-GPT as Strong Visual Representation Learners
حسب: Ren, Sucheng, وآخرون
منشور في: (2023)

ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)

Mamba-R: Vision Mamba ALSO Needs Registers
حسب: Wang, Feng, وآخرون
منشور في: (2024)

Spiral RoPE: Rotate Your Rotary Positional Embeddings in the 2D Plane
حسب: Liu, Haoyu, وآخرون
منشور في: (2026)

SPFormer: Enhancing Vision Transformer with Superpixel Representation
حسب: Mei, Jieru, وآخرون
منشور في: (2024)

Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency
حسب: Wang, Feng, وآخرون
منشور في: (2024)

Autoregressive Pretraining with Mamba in Vision
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)

Name That Part: 3D Part Segmentation and Naming
حسب: Paul, Soumava, وآخرون
منشور في: (2025)

Grouping First, Attending Smartly: Training-Free Acceleration for Diffusion Transformers
حسب: Ren, Sucheng, وآخرون
منشور في: (2025)

From Pixels to Objects: A Hierarchical Approach for Part and Object Segmentation Using Local and Global Aggregation
حسب: Xie, Yunfei, وآخرون
منشور في: (2024)

EA-ViT: Efficient Adaptation for Elastic Vision Transformer
حسب: Zhu, Chen, وآخرون
منشور في: (2025)

Medical Vision Generalist: Unifying Medical Imaging Tasks in Context
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)

Dictionary-based Framework for Interpretable and Consistent Object Parsing
حسب: Zhang, Tiezheng, وآخرون
منشور في: (2025)

Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data
حسب: Zhang, Lei, وآخرون
منشور في: (2023)

ACC-ViT : Atrous Convolution's Comeback in Vision Transformers
حسب: Ibtehaz, Nabil, وآخرون
منشور في: (2024)

Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models
حسب: Li, Zhuowan, وآخرون
منشور في: (2022)

ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers
حسب: Jiang, Yanfeng, وآخرون
منشور في: (2024)

ViT-AdaLA: Adapting Vision Transformers with Linear Attention
حسب: Li, Yifan, وآخرون
منشور في: (2026)

IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer
حسب: Ma, Xiaochen, وآخرون
منشور في: (2023)

ViT-Explainer: An Interactive Walkthrough of the Vision Transformer Pipeline
حسب: Hernandez, Juan Manuel, وآخرون
منشور في: (2026)

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions
حسب: Xia, Chunlong, وآخرون
منشور في: (2024)

ViTamin: Designing Scalable Vision Models in the Vision-Language Era
حسب: Chen, Jieneng, وآخرون
منشور في: (2024)

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
حسب: Ren, Sucheng, وآخرون
منشور في: (2025)

Frequency-Aware Flow Matching for High-Quality Image Generation
حسب: Ren, Sucheng, وآخرون
منشور في: (2026)

FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)

Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models
حسب: Zhang, Tiezheng, وآخرون
منشور في: (2025)

HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs
حسب: Yao, Ting, وآخرون
منشور في: (2024)

VAT: Vision Action Transformer by Unlocking Full Representation of ViT
حسب: Li, Wenhao, وآخرون
منشور في: (2025)

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
حسب: Wang, Feng, وآخرون
منشور في: (2025)

ViLBench: A Suite for Vision-Language Process Reward Modeling
حسب: Tu, Haoqin, وآخرون
منشور في: (2025)

ViT-FIQA: Assessing Face Image Quality using Vision Transformers
حسب: Atzori, Andrea, وآخرون
منشور في: (2025)

MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision Transformer
حسب: Tai, Yu-Shan, وآخرون
منشور في: (2024)

ViT-1.58b: Mobile Vision Transformers in the 1-bit Era
حسب: Yuan, Zhengqing, وآخرون
منشور في: (2024)

HResFormer: Hybrid Residual Transformer for Volumetric Medical Image Segmentation
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)

ViT-DD: Multi-Task Vision Transformer for Semi-Supervised Driver Distraction Detection
حسب: Ma, Yunsheng, وآخرون
منشور في: (2022)

SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference
حسب: Wang, Feng, وآخرون
منشور في: (2023)

APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers
حسب: Wu, Zhuguanyu, وآخرون
منشور في: (2025)

LL-ViT: Edge Deployable Vision Transformers with Look Up Table Neurons
حسب: Nag, Shashank, وآخرون
منشور في: (2025)