:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Xu, Yi, Zhang, Yesheng, Liu, Jiajia, Chen, Jingdong
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition Machine Learning
Accesso online:	https://arxiv.org/abs/2508.16271
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models
di: Xu, Haochuan, et al.
Pubblicazione: (2025)

Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments
di: Guruprasad, Pranav, et al.
Pubblicazione: (2025)

Assessing Model Generalization in Vicinity
di: Liu, Yuchi, et al.
Pubblicazione: (2024)

Improving Vision-Language-Action Model with Online Reinforcement Learning
di: Guo, Yanjiang, et al.
Pubblicazione: (2025)

EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models
di: Jiang, Feng, et al.
Pubblicazione: (2025)

VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision
di: Xu, Yi, et al.
Pubblicazione: (2024)

PVI: Plug-in Visual Injection for Vision-Language-Action Models
di: Zhang, Zezhou, et al.
Pubblicazione: (2026)

Android in the Zoo: Chain-of-Action-Thought for GUI Agents
di: Zhang, Jiwen, et al.
Pubblicazione: (2024)

GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration
di: Fan, Yue, et al.
Pubblicazione: (2025)

Towards Understanding How Knowledge Evolves in Large Vision-Language Models
di: Wang, Sudong, et al.
Pubblicazione: (2025)

LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization
di: Tang, Jiaqi, et al.
Pubblicazione: (2025)

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
di: Zhang, Zhengshen, et al.
Pubblicazione: (2025)

ViTime: Foundation Model for Time Series Forecasting Powered by Vision Intelligence
di: Yang, Luoxiao, et al.
Pubblicazione: (2024)

Tactile Modality Fusion for Vision-Language-Action Models
di: Morissette, Charlotte, et al.
Pubblicazione: (2026)

Large Language Models and Foundation Models in Smart Agriculture: Basics, Opportunities, and Challenges
di: Li, Jiajia, et al.
Pubblicazione: (2023)

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model
di: Zhou, Zhongyi, et al.
Pubblicazione: (2025)

Continual GUI Agents
di: Liu, Ziwei, et al.
Pubblicazione: (2026)

Sherlock: Self-Correcting Reasoning in Vision-Language Models
di: Ding, Yi, et al.
Pubblicazione: (2025)

Linear Spaces of Meanings: Compositional Structures in Vision-Language Models
di: Trager, Matthew, et al.
Pubblicazione: (2023)

Enhancing Zero-Shot Image Recognition in Vision-Language Models through Human-like Concept Guidance
di: Liu, Hui, et al.
Pubblicazione: (2025)

Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks
di: Guruprasad, Pranav, et al.
Pubblicazione: (2024)

VLLFL: A Vision-Language Model Based Lightweight Federated Learning Framework for Smart Agriculture
di: Li, Long, et al.
Pubblicazione: (2025)

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models
di: Li, Xu, et al.
Pubblicazione: (2024)

Toward Autonomous Laboratory Safety Monitoring with Vision Language Models: Learning to See Hazards Through Scene Structure
di: Chakraborty, Trishna, et al.
Pubblicazione: (2026)

A Survey on Efficient Vision-Language-Action Models
di: Yu, Zhaoshu, et al.
Pubblicazione: (2025)

Goal-oriented Backdoor Attack against Vision-Language-Action Models via Physical Objects
di: Zhou, Zirun, et al.
Pubblicazione: (2025)

Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations
di: Grover, Shresth, et al.
Pubblicazione: (2025)

SteerVLM: Robust Model Control through Lightweight Activation Steering for Vision Language Models
di: Sivakumar, Anushka, et al.
Pubblicazione: (2025)

Towards Interpreting Visual Information Processing in Vision-Language Models
di: Neo, Clement, et al.
Pubblicazione: (2024)

Towards Compatible Fine-tuning for Vision-Language Model Updates
di: Wang, Zhengbo, et al.
Pubblicazione: (2024)

Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks
di: Shandilya, Utkarsh, et al.
Pubblicazione: (2025)

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
di: Cheang, Chi-Lam, et al.
Pubblicazione: (2024)

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
di: Luo, Hao, et al.
Pubblicazione: (2025)

Test-Time Training for Visual Foresight Vision-Language-Action Models
di: Park, Sangwu, et al.
Pubblicazione: (2026)

Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
di: Kawaharazuka, Kento, et al.
Pubblicazione: (2025)

Vision and Language Integration for Domain Generalization
di: Wang, Yanmei, et al.
Pubblicazione: (2025)

Bridging Vision and Language Spaces with Assignment Prediction
di: Park, Jungin, et al.
Pubblicazione: (2024)

CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation
di: Li, Qixiu, et al.
Pubblicazione: (2024)

VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching
di: Xu, Siyu, et al.
Pubblicazione: (2025)

Towards Statistical Factuality Guarantee for Large Vision-Language Models
di: Li, Zhuohang, et al.
Pubblicazione: (2025)