:: Library Catalog

Зображення обкладинки

Збережено в:

Бібліографічні деталі
Автори:	Zhu, Jialiang, Zhang, Gongrui, Ma, Xiaolong, Xu, Lin, Zhang, Miaosen, Yang, Ruiqi, Wang, Song, Qiu, Kai, Wu, Zhirong, Dai, Qi, Ma, Ruichun, Liu, Bei, Yang, Yifan, Luo, Chong, Yang, Zhengyuan, Li, Linjie, Wang, Lijuan, Chen, Weizhu, Geng, Xin, Guo, Baining
Формат:	Preprint
Опубліковано:	2026
Предмети:	Computation and Language Artificial Intelligence
Онлайн доступ:	https://arxiv.org/abs/2602.02486
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!

Схожі ресурси

InfoAgent: Advancing Autonomous Information-Seeking Agents
за авторством: Zhang, Gongrui, та інші
Опубліковано: (2025)

MageBench: Bridging Large Multimodal Models to Agents
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2024)

Phi-Ground Tech Report: Advancing Perception in GUI Grounding
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2025)

Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models
за авторством: Wang, Alex Jinpeng, та інші
Опубліковано: (2025)

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
за авторством: Peng, Yingzhe, та інші
Опубліковано: (2025)

Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation
за авторством: Cho, Jaemin, та інші
Опубліковано: (2023)

Bring Metric Functions into Diffusion Models
за авторством: An, Jie, та інші
Опубліковано: (2024)

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2024)

NJUST-KMG at TRAC-2024 Tasks 1 and 2: Offline Harm Potential Identification
за авторством: Wang, Jingyuan, та інші
Опубліковано: (2024)

Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning
за авторством: Muppidi, Aneesh, та інші
Опубліковано: (2024)

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
за авторством: Hao, Yunzhuo, та інші
Опубліковано: (2025)

LiVOS: Light Video Object Segmentation with Gated Linear Matching
за авторством: Liu, Qin, та інші
Опубліковано: (2024)

Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2026)

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2026)

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning
за авторством: Liao, Jiaqi, та інші
Опубліковано: (2025)

Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
за авторством: Yang, Zhengyuan, та інші
Опубліковано: (2023)

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
за авторством: Yu, Weihao, та інші
Опубліковано: (2023)

OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation
за авторством: Guo, Heyu, та інші
Опубліковано: (2025)

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning
за авторством: Ni, Minheng, та інші
Опубліковано: (2025)

Language-Guided Face Animation by Recurrent StyleGAN-based Generator
за авторством: Hang, Tiankai, та інші
Опубліковано: (2022)

DisCo: Disentangled Control for Realistic Human Dance Generation
за авторством: Wang, Tan, та інші
Опубліковано: (2023)

Glance: Accelerating Diffusion Models with 1 Sample
за авторством: Dong, Zhuobai, та інші
Опубліковано: (2025)

V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models
за авторством: Zheng, Xiangxi, та інші
Опубліковано: (2025)

Computer-Use Agents as Judges for Generative User Interface
за авторством: Lin, Kevin Qinghong, та інші
Опубліковано: (2025)

Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition
за авторством: Qiu, Jielin, та інші
Опубліковано: (2024)

Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation
за авторством: Zhang, Jihai, та інші
Опубліковано: (2025)

TextGround4M: A Prompt-Aligned Dataset for Layout-Aware Text Rendering
за авторством: Mao, Dongxing, та інші
Опубліковано: (2026)

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
за авторством: Wang, Alex Jinpeng, та інші
Опубліковано: (2024)

GREAT: Grassmannian REcursive Algorithm for Tracking & Online System Identification
за авторством: Sasfi, András, та інші
Опубліковано: (2024)

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
за авторством: Wang, Xiyao, та інші
Опубліковано: (2025)

Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation
за авторством: Zhai, Yuanhao, та інші
Опубліковано: (2024)

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
за авторством: Wang, Xiyao, та інші
Опубліковано: (2024)

VideoGUI: A Benchmark for GUI Automation from Instructional Videos
за авторством: Lin, Kevin Qinghong, та інші
Опубліковано: (2024)

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising
за авторством: Lin, Yan-Bo, та інші
Опубліковано: (2025)

List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
за авторством: Yan, An, та інші
Опубліковано: (2024)

GenXD: Generating Any 3D and 4D Scenes
за авторством: Zhao, Yuyang, та інші
Опубліковано: (2024)

MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities
за авторством: Yu, Weihao, та інші
Опубліковано: (2024)

EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing
за авторством: Zheng, Kaizhi, та інші
Опубліковано: (2024)

Planning with the Views via Scene Self-Exploration
за авторством: Wang, Kangrui, та інші
Опубліковано: (2026)

Measurement of LLM's Philosophies of Human Nature
за авторством: Ni, Minheng, та інші
Опубліковано: (2025)