:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Yang, Yuhao, Yang, Zhen, Dou, Zi-Yi, Nguyen, Anh, You, Keen, Attia, Omar, Szot, Andrew, Feng, Michael, Ramrakhya, Ram, Toshev, Alexander, Huang, Chao, Yang, Yinfei, Gan, Zhe
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition Computation and Language
Accès en ligne:	https://arxiv.org/abs/2510.17790
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
par: Yang, Zhen, et autres
Publié: (2025)

Scaling Synthetic Task Generation for Agents via Exploration
par: Ramrakhya, Ram, et autres
Publié: (2025)

Expanding LLM Agent Boundaries with Strategy-Guided Exploration
par: Szot, Andrew, et autres
Publié: (2026)

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
par: You, Keen, et autres
Publié: (2024)

OpenCUA: Open Foundations for Computer-Use Agents
par: Wang, Xinyuan, et autres
Publié: (2025)

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts
par: Qian, Yusu, et autres
Publié: (2024)

Contrastive Localized Language-Image Pre-Training
par: Chen, Hong-You, et autres
Publié: (2024)

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
par: Li, Zhangheng, et autres
Publié: (2024)

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
par: Szot, Andrew, et autres
Publié: (2024)

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs
par: Qian, Yusu, et autres
Publié: (2024)

Guiding Instruction-based Image Editing via Multimodal Large Language Models
par: Fu, Tsu-Jui, et autres
Publié: (2023)

PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
par: Qian, Yusu, et autres
Publié: (2025)

Compressing LLMs: The Truth is Rarely Pure and Never Simple
par: Jaiswal, Ajay, et autres
Publié: (2023)

Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation
par: Zhang, Yuhui, et autres
Publié: (2023)

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments
par: Liao, Zeyi, et autres
Publié: (2025)

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing
par: Fu, Tsu-Jui, et autres
Publié: (2025)

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
par: Liu, Zhaoyang, et autres
Publié: (2025)

LiteCUA: Computer as MCP Server for Computer-Use Agent on AIOS
par: Mei, Kai, et autres
Publié: (2025)

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
par: Lai, Zhengfeng, et autres
Publié: (2024)

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
par: Qian, Yusu, et autres
Publié: (2025)

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
par: Zhang, Haotian, et autres
Publié: (2024)

A11y-CUA Dataset: Characterizing the Accessibility Gap in Computer Use Agents
par: Mohanbabu, Ananya Gubbi, et autres
Publié: (2026)

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
par: Zhang, Haotian, et autres
Publié: (2024)

Grounding Multimodal Large Language Models in Actions
par: Szot, Andrew, et autres
Publié: (2024)

UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning
par: Tian, Rui, et autres
Publié: (2025)

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
par: Li, Yanghao, et autres
Publié: (2025)

Large Language Models as Generalizable Policies for Embodied Tasks
par: Szot, Andrew, et autres
Publié: (2023)

CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
par: Jian, Xiangru, et autres
Publié: (2026)

Improve Vision Language Model Chain-of-thought Reasoning
par: Zhang, Ruohong, et autres
Publié: (2024)

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
par: Qian, Yusu, et autres
Publié: (2025)

ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI
par: Elawady, Ahmad, et autres
Publié: (2024)

The MUG-10 Framework for Preventing Usability Issues in Mobile Application Development
par: Weichbroth, Pawel, et autres
Publié: (2025)

Seeing the Unseen: Visual Common Sense for Semantic Placement
par: Ramrakhya, Ram, et autres
Publié: (2024)

Learning Next Action Predictors from Human-Computer Interaction
par: Shaikh, Omar, et autres
Publié: (2026)

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
par: Narayan, Kartik, et autres
Publié: (2025)

Advancing Egocentric Video Question Answering with Multimodal Large Language Models
par: Patel, Alkesh, et autres
Publié: (2025)

MOFI: Learning Image Representations from Noisy Entity Annotated Images
par: Wu, Wentao, et autres
Publié: (2023)

Understanding Alignment in Multimodal LLMs: A Comprehensive Study
par: Amirloo, Elmira, et autres
Publié: (2024)

Conditional Font Generation With Content Pre‐Train and Style Filter
par: Yang Hong, et autres
Publié: (2024)

SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding
par: Xu, Mingze, et autres
Publié: (2025)