:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Cheng, Jintao, Wang, Haozhe, Li, Weibin, Wang, Gang, Zhang, Yipu, Tang, Xiaoyu, Wu, Jin, Chen, Xieyuanli, Liu, Yunhui, Zhang, Wei
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2603.22991
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
von: Yang, Yantai, et al.
Veröffentlicht: (2025)

ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving
von: Sha, Lin, et al.
Veröffentlicht: (2026)

RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models
von: Zhang, Hongyin, et al.
Veröffentlicht: (2025)

Bridging the Semantic-Action Gap in Visual Token Pruning for Efficient VLA Inference
von: Liu, Ziyan, et al.
Veröffentlicht: (2025)

CV-MOS: A Cross-View Model for Motion Segmentation
von: Tang, Xiaoyu, et al.
Veröffentlicht: (2024)

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning
von: Wang, Hanzhen, et al.
Veröffentlicht: (2025)

A Pseudo Global Fusion Paradigm-Based Cross-View Network for LiDAR-Based Place Recognition
von: Cheng, Jintao, et al.
Veröffentlicht: (2025)

VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
von: Zhang, Jianke, et al.
Veröffentlicht: (2026)

ST4VLA: Spatially Guided Training for Vision-Language-Action Models
von: Ye, Jinhui, et al.
Veröffentlicht: (2026)

IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
von: Sun, Zhichao, et al.
Veröffentlicht: (2026)

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models
von: Zhang, Yichi, et al.
Veröffentlicht: (2026)

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
von: Zhang, Jingxuan, et al.
Veröffentlicht: (2026)

Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time
von: Cheng, Jintao, et al.
Veröffentlicht: (2025)

ZOO-Prune: Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models
von: Kim, Youngeun, et al.
Veröffentlicht: (2025)

CoA-VLA: Improving Vision-Language-Action Models via Visual-Textual Chain-of-Affordance
von: Li, Jinming, et al.
Veröffentlicht: (2024)

CRL-VLA: Continual Vision-Language-Action Learning
von: Zeng, Qixin, et al.
Veröffentlicht: (2026)

VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models
von: Wang, Hao, et al.
Veröffentlicht: (2026)

Agentic-VLA: Efficient Online Adaptation for Vision-Language-Action Models
von: Jin, Ruofan, et al.
Veröffentlicht: (2026)

SAFE-Pruner: Semantic Attention-Guided Future-Aware Token Pruning for Efficient Vision-Language-Action Manipulation
von: Ma, Shilin, et al.
Veröffentlicht: (2026)

AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention
von: Xiao, Lei, et al.
Veröffentlicht: (2025)

EvoVLA: Self-Evolving Vision-Language-Action Model
von: Liu, Zeting, et al.
Veröffentlicht: (2025)

OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition
von: Xiang, Qiuchi, et al.
Veröffentlicht: (2024)

MF-MOS: A Motion-Focused Model for Moving Object Segmentation
von: Cheng, Jintao, et al.
Veröffentlicht: (2024)

MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation
von: Cheng, Jintao, et al.
Veröffentlicht: (2024)

VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing
von: Shi, Haoyuan, et al.
Veröffentlicht: (2026)

CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models
von: Tang, Zicong, et al.
Veröffentlicht: (2025)

IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model
von: Jiang, Anqing, et al.
Veröffentlicht: (2025)

FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models
von: Wang, Xin, et al.
Veröffentlicht: (2025)

VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
von: Ye, Angen, et al.
Veröffentlicht: (2025)

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
von: Xie, Haozhe, et al.
Veröffentlicht: (2026)

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers
von: Wang, Yating, et al.
Veröffentlicht: (2025)

VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching
von: Xu, Siyu, et al.
Veröffentlicht: (2025)

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning
von: Ma, Guoqing, et al.
Veröffentlicht: (2026)

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies
von: Hu, Xintong, et al.
Veröffentlicht: (2026)

StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision
von: Deng, Shengliang, et al.
Veröffentlicht: (2025)

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model
von: Zhou, Zhongyi, et al.
Veröffentlicht: (2025)

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models
von: Wang, Zixuan, et al.
Veröffentlicht: (2026)

UrbanVLA: A Vision-Language-Action Model for Urban Micromobility
von: Li, Anqi, et al.
Veröffentlicht: (2025)

QUAR-VLA: Vision-Language-Action Model for Quadruped Robots
von: Ding, Pengxiang, et al.
Veröffentlicht: (2023)

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration
von: Li, Ye, et al.
Veröffentlicht: (2025)