محفوظ في:
| المؤلفون الرئيسيون: | Wang, Feng, Ren, Sucheng, Zhang, Tiezheng, Neskovic, Predrag, Bhattad, Anand, Xie, Cihang, Yuille, Alan |
|---|---|
| التنسيق: | Preprint |
| منشور في: |
2026
|
| الموضوعات: | |
| الوصول للمادة أونلاين: | https://arxiv.org/abs/2602.08071 |
| الوسوم: |
إضافة وسم
لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!
|
مواد مشابهة
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access
حسب: Yang, Timing, وآخرون
منشور في: (2025)
حسب: Yang, Timing, وآخرون
منشور في: (2025)
Rejuvenating image-GPT as Strong Visual Representation Learners
حسب: Ren, Sucheng, وآخرون
منشور في: (2023)
حسب: Ren, Sucheng, وآخرون
منشور في: (2023)
ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
Mamba-R: Vision Mamba ALSO Needs Registers
حسب: Wang, Feng, وآخرون
منشور في: (2024)
حسب: Wang, Feng, وآخرون
منشور في: (2024)
Spiral RoPE: Rotate Your Rotary Positional Embeddings in the 2D Plane
حسب: Liu, Haoyu, وآخرون
منشور في: (2026)
حسب: Liu, Haoyu, وآخرون
منشور في: (2026)
SPFormer: Enhancing Vision Transformer with Superpixel Representation
حسب: Mei, Jieru, وآخرون
منشور في: (2024)
حسب: Mei, Jieru, وآخرون
منشور في: (2024)
Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency
حسب: Wang, Feng, وآخرون
منشور في: (2024)
حسب: Wang, Feng, وآخرون
منشور في: (2024)
Autoregressive Pretraining with Mamba in Vision
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
Name That Part: 3D Part Segmentation and Naming
حسب: Paul, Soumava, وآخرون
منشور في: (2025)
حسب: Paul, Soumava, وآخرون
منشور في: (2025)
Grouping First, Attending Smartly: Training-Free Acceleration for Diffusion Transformers
حسب: Ren, Sucheng, وآخرون
منشور في: (2025)
حسب: Ren, Sucheng, وآخرون
منشور في: (2025)
From Pixels to Objects: A Hierarchical Approach for Part and Object Segmentation Using Local and Global Aggregation
حسب: Xie, Yunfei, وآخرون
منشور في: (2024)
حسب: Xie, Yunfei, وآخرون
منشور في: (2024)
EA-ViT: Efficient Adaptation for Elastic Vision Transformer
حسب: Zhu, Chen, وآخرون
منشور في: (2025)
حسب: Zhu, Chen, وآخرون
منشور في: (2025)
Medical Vision Generalist: Unifying Medical Imaging Tasks in Context
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
Dictionary-based Framework for Interpretable and Consistent Object Parsing
حسب: Zhang, Tiezheng, وآخرون
منشور في: (2025)
حسب: Zhang, Tiezheng, وآخرون
منشور في: (2025)
Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data
حسب: Zhang, Lei, وآخرون
منشور في: (2023)
حسب: Zhang, Lei, وآخرون
منشور في: (2023)
ACC-ViT : Atrous Convolution's Comeback in Vision Transformers
حسب: Ibtehaz, Nabil, وآخرون
منشور في: (2024)
حسب: Ibtehaz, Nabil, وآخرون
منشور في: (2024)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models
حسب: Li, Zhuowan, وآخرون
منشور في: (2022)
حسب: Li, Zhuowan, وآخرون
منشور في: (2022)
ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers
حسب: Jiang, Yanfeng, وآخرون
منشور في: (2024)
حسب: Jiang, Yanfeng, وآخرون
منشور في: (2024)
ViT-AdaLA: Adapting Vision Transformers with Linear Attention
حسب: Li, Yifan, وآخرون
منشور في: (2026)
حسب: Li, Yifan, وآخرون
منشور في: (2026)
IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer
حسب: Ma, Xiaochen, وآخرون
منشور في: (2023)
حسب: Ma, Xiaochen, وآخرون
منشور في: (2023)
ViT-Explainer: An Interactive Walkthrough of the Vision Transformer Pipeline
حسب: Hernandez, Juan Manuel, وآخرون
منشور في: (2026)
حسب: Hernandez, Juan Manuel, وآخرون
منشور في: (2026)
ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions
حسب: Xia, Chunlong, وآخرون
منشور في: (2024)
حسب: Xia, Chunlong, وآخرون
منشور في: (2024)
ViTamin: Designing Scalable Vision Models in the Vision-Language Era
حسب: Chen, Jieneng, وآخرون
منشور في: (2024)
حسب: Chen, Jieneng, وآخرون
منشور في: (2024)
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
حسب: Ren, Sucheng, وآخرون
منشور في: (2025)
حسب: Ren, Sucheng, وآخرون
منشور في: (2025)
Frequency-Aware Flow Matching for High-Quality Image Generation
حسب: Ren, Sucheng, وآخرون
منشور في: (2026)
حسب: Ren, Sucheng, وآخرون
منشور في: (2026)
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models
حسب: Zhang, Tiezheng, وآخرون
منشور في: (2025)
حسب: Zhang, Tiezheng, وآخرون
منشور في: (2025)
HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs
حسب: Yao, Ting, وآخرون
منشور في: (2024)
حسب: Yao, Ting, وآخرون
منشور في: (2024)
VAT: Vision Action Transformer by Unlocking Full Representation of ViT
حسب: Li, Wenhao, وآخرون
منشور في: (2025)
حسب: Li, Wenhao, وآخرون
منشور في: (2025)
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
حسب: Wang, Feng, وآخرون
منشور في: (2025)
حسب: Wang, Feng, وآخرون
منشور في: (2025)
ViLBench: A Suite for Vision-Language Process Reward Modeling
حسب: Tu, Haoqin, وآخرون
منشور في: (2025)
حسب: Tu, Haoqin, وآخرون
منشور في: (2025)
ViT-FIQA: Assessing Face Image Quality using Vision Transformers
حسب: Atzori, Andrea, وآخرون
منشور في: (2025)
حسب: Atzori, Andrea, وآخرون
منشور في: (2025)
MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision Transformer
حسب: Tai, Yu-Shan, وآخرون
منشور في: (2024)
حسب: Tai, Yu-Shan, وآخرون
منشور في: (2024)
ViT-1.58b: Mobile Vision Transformers in the 1-bit Era
حسب: Yuan, Zhengqing, وآخرون
منشور في: (2024)
حسب: Yuan, Zhengqing, وآخرون
منشور في: (2024)
HResFormer: Hybrid Residual Transformer for Volumetric Medical Image Segmentation
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
حسب: Ren, Sucheng, وآخرون
منشور في: (2024)
ViT-DD: Multi-Task Vision Transformer for Semi-Supervised Driver Distraction Detection
حسب: Ma, Yunsheng, وآخرون
منشور في: (2022)
حسب: Ma, Yunsheng, وآخرون
منشور في: (2022)
SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference
حسب: Wang, Feng, وآخرون
منشور في: (2023)
حسب: Wang, Feng, وآخرون
منشور في: (2023)
APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers
حسب: Wu, Zhuguanyu, وآخرون
منشور في: (2025)
حسب: Wu, Zhuguanyu, وآخرون
منشور في: (2025)
LL-ViT: Edge Deployable Vision Transformers with Look Up Table Neurons
حسب: Nag, Shashank, وآخرون
منشور في: (2025)
حسب: Nag, Shashank, وآخرون
منشور في: (2025)
مواد مشابهة
-
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation
حسب: Ren, Sucheng, وآخرون
منشور في: (2024) -
ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access
حسب: Yang, Timing, وآخرون
منشور في: (2025) -
Rejuvenating image-GPT as Strong Visual Representation Learners
حسب: Ren, Sucheng, وآخرون
منشور في: (2023) -
ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning
حسب: Ren, Sucheng, وآخرون
منشور في: (2024) -
Mamba-R: Vision Mamba ALSO Needs Registers
حسب: Wang, Feng, وآخرون
منشور في: (2024)