:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Yang, Kaichun, Chen, Jian
Format:	Preprint
Publié:	2025
Sujets:	Human-Computer Interaction Computation and Language Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2510.06782
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

GesGPT: Speech Gesture Synthesis With Text Parsing from ChatGPT
par: Gao, Nan, et autres
Publié: (2023)

Human-Centred Evaluation of Text-to-Image Generation Models for Self-expression of Mental Distress: A Dataset Based on GPT-4o
par: He, Sui, et autres
Publié: (2025)

ColorGPT: Leveraging Large Language Models for Multimodal Color Recommendation
par: Xia, Ding, et autres
Publié: (2025)

VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation
par: Wang, Hao, et autres
Publié: (2024)

Can ChatGPT assist visually impaired people with micro-navigation?
par: He, Junxian, et autres
Publié: (2024)

SiMing-Bench: Evaluating Procedural Correctness from Continuous Interactions in Clinical Skill Videos
par: Huang, Xiyang, et autres
Publié: (2026)

GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual AI for Smart Eyewear
par: Konrad, Robert, et autres
Publié: (2024)

A Picture is Worth a Thousand (Correct) Captions: A Vision-Guided Judge-Corrector System for Multimodal Machine Translation
par: Betala, Siddharth, et autres
Publié: (2025)

AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks
par: Moured, Omar, et autres
Publié: (2024)

Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation
par: Moured, Omar, et autres
Publié: (2024)

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents
par: Luo, Run, et autres
Publié: (2025)

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
par: Wu, Zhiyong, et autres
Publié: (2024)

A Review on Large Language Models for Visual Analytics
par: Agarwal, Navya Sonal, et autres
Publié: (2025)

UIClip: A Data-driven Model for Assessing User Interface Design
par: Wu, Jason, et autres
Publié: (2024)

ChartGen: Scaling Chart Understanding Via Code-Guided Synthetic Chart Generation
par: Kondic, Jovana, et autres
Publié: (2025)

CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models
par: Verma, Arnav, et autres
Publié: (2025)

Computer-Use Agents as Judges for Generative User Interface
par: Lin, Kevin Qinghong, et autres
Publié: (2025)

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
par: You, Keen, et autres
Publié: (2024)

Investigating Disability Representations in Text-to-Image Models
par: Tian, Yang, et autres
Publié: (2026)

Long-Term Ad Memorability: Understanding & Generating Memorable Ads
par: SI, Harini, et autres
Publié: (2023)

ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots
par: Hsiao, Yu-Chung, et autres
Publié: (2022)

Unraveling the Truth: Do VLMs really Understand Charts? A Deep Dive into Consistency and Robustness
par: Mukhopadhyay, Srija, et autres
Publié: (2024)

Steering Generative Models for Accessibility: EasyRead Image Generation
par: Dickenmann, Nicolas, et autres
Publié: (2026)

How Good is ChatGPT at Audiovisual Deepfake Detection: A Comparative Study of ChatGPT, AI Models and Human Perception
par: Shahzad, Sahibzada Adil, et autres
Publié: (2024)

Morae: Proactively Pausing UI Agents for User Choices
par: Peng, Yi-Hao, et autres
Publié: (2025)

UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis
par: Liu, Xinyi, et autres
Publié: (2025)

Deciphering Emotions in Children Storybooks: A Comparative Analysis of Multimodal LLMs in Educational Applications
par: Asseri, Bushra, et autres
Publié: (2025)

SpatialViz-Bench: A Cognitively-Grounded Benchmark for Diagnosing Spatial Visualization in MLLMs
par: Wang, Siting, et autres
Publié: (2025)

What Color Scheme is More Effective in Assisting Readers to Locate Information in a Color-Coded Article?
par: Ng, Ho Yin, et autres
Publié: (2024)

True (VIS) Lies: Analyzing How Generative AI Recognizes Intentionality, Rhetoric, and Misleadingness in Visualization Lies
par: Blasilli, Graziano, et autres
Publié: (2026)

Fool Me Once? Contrasting Textual and Visual Explanations in a Clinical Decision-Support Setting
par: Kayser, Maxime, et autres
Publié: (2024)

What They Saw, Not Just Where They Looked: Semantic Scanpath Similarity via VLMs and NLP metric
par: Kerkouri, Mohamed Amine, et autres
Publié: (2026)

VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents
par: Mazumdar, Amrita, et autres
Publié: (2026)

EvoDiagram: Agentic Editable Diagram Creation via Design Expertise Evolution
par: Wang, Tianfu, et autres
Publié: (2026)

How Can Large Language Models Enable Better Socially Assistive Human-Robot Interaction: A Brief Survey
par: Shi, Zhonghao, et autres
Publié: (2024)

GUICourse: From General Vision Language Models to Versatile GUI Agents
par: Chen, Wentong, et autres
Publié: (2024)

AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent
par: Fan, Jingru, et autres
Publié: (2025)

ShowUI: One Vision-Language-Action Model for GUI Visual Agent
par: Lin, Kevin Qinghong, et autres
Publié: (2024)

AnyMo: Geometry-Aware Setup-Agnostic Modeling of Human Motion in the Wild
par: Chen, Baiyu, et autres
Publié: (2026)

Can ChatGPT Read Who You Are?
par: Derner, Erik, et autres
Publié: (2023)