:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Liu, Xunzhuo, He, Bowei, Liu, Xue, Luo, Andy, Zhang, Haichen, Chen, Huamin
Format:	Preprint
Publié:	2026
Sujets:	Computation and Language Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2603.12823
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents
par: Liu, Xunzhuo, et autres
Publié: (2026)

Knowledge Access Beats Model Size: Memory Augmented Routing for Persistent AI Agents
par: Liu, Xunzhuo, et autres
Publié: (2026)

Dual-Pool Token-Budget Routing for Cost-Efficient and Reliable LLM Serving
par: Liu, Xunzhuo, et autres
Publié: (2026)

98$\times$ Faster LLM Routing Without a Dedicated GPU: Flash Attention, Prompt Compression, and Near-Streaming for the vLLM Semantic Router
par: Liu, Xunzhuo, et autres
Publié: (2026)

Fast and Faithful: Real-Time Verification for Long-Document Retrieval-Augmented Generation Systems
par: Liu, Xunzhuo, et autres
Publié: (2026)

Video-Based Reward Modeling for Computer-Use Agents
par: Song, Linxin, et autres
Publié: (2026)

Inference Compute-Optimal Video Vision Language Models
par: Wang, Peiqi, et autres
Publié: (2025)

Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models
par: Liu, Xinyang, et autres
Publié: (2023)

A Dual Semantic-Aware Recurrent Global-Adaptive Network For Vision-and-Language Navigation
par: Wang, Liuyi, et autres
Publié: (2023)

PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
par: Zhang, Jianshu, et autres
Publié: (2026)

Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit
par: Chen, Qizhou, et autres
Publié: (2024)

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents
par: Luo, Run, et autres
Publié: (2025)

Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucinations in Large Vision-Language Models
par: Chen, Xinlong, et autres
Publié: (2025)

SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models
par: Liu, Zheng, et autres
Publié: (2024)

VividMed: Vision Language Model with Versatile Visual Grounding for Medicine
par: Luo, Lingxiao, et autres
Publié: (2024)

UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
par: Yang, Yuhao, et autres
Publié: (2025)

Efficient Vision-Language Reasoning via Adaptive Token Pruning
par: Li, Xue, et autres
Publié: (2025)

Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding
par: Luo, Chuwei, et autres
Publié: (2022)

A Survey on Hallucination in Large Vision-Language Models
par: Liu, Hanchao, et autres
Publié: (2024)

HyperGVL: Benchmarking and Improving Large Vision-Language Models in Hypergraph Understanding and Reasoning
par: Wei, Yanbin, et autres
Publié: (2026)

Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts
par: Chen, Qizhou, et autres
Publié: (2024)

Can Vision-Language Models Solve the Shell Game?
par: Liu, Tiedong, et autres
Publié: (2026)

Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models
par: Zhu, Tinghui, et autres
Publié: (2024)

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving
par: Qian, Kangan, et autres
Publié: (2025)

Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models
par: Lei, Xuanyu, et autres
Publié: (2024)

ViLBench: A Suite for Vision-Language Process Reward Modeling
par: Tu, Haoqin, et autres
Publié: (2025)

From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models
par: Shang, Yuying, et autres
Publié: (2024)

DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception
par: Luo, Run, et autres
Publié: (2024)

MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models
par: Wang, Shengkang, et autres
Publié: (2024)

VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering
par: Wang, Zihu, et autres
Publié: (2025)

TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions
par: He, Xingwei, et autres
Publié: (2024)

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
par: Lin, Zichuan, et autres
Publié: (2025)

Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models
par: Liang, Qiao, et autres
Publié: (2025)

LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision
par: Ganguly, Debargha, et autres
Publié: (2025)

GUICourse: From General Vision Language Models to Versatile GUI Agents
par: Chen, Wentong, et autres
Publié: (2024)

BabyVision: Visual Reasoning Beyond Language
par: Chen, Liang, et autres
Publié: (2026)

PUMGPT: A Large Vision-Language Model for Product Understanding
par: Xue, Wei, et autres
Publié: (2023)

Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models
par: Luo, Jun, et autres
Publié: (2024)

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models
par: Guan, Tianrui, et autres
Publié: (2023)

Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation
par: Wang, Xintong, et autres
Publié: (2025)