Збережено в:
| Автори: | Zhu, Jialiang, Zhang, Gongrui, Ma, Xiaolong, Xu, Lin, Zhang, Miaosen, Yang, Ruiqi, Wang, Song, Qiu, Kai, Wu, Zhirong, Dai, Qi, Ma, Ruichun, Liu, Bei, Yang, Yifan, Luo, Chong, Yang, Zhengyuan, Li, Linjie, Wang, Lijuan, Chen, Weizhu, Geng, Xin, Guo, Baining |
|---|---|
| Формат: | Preprint |
| Опубліковано: |
2026
|
| Предмети: | |
| Онлайн доступ: | https://arxiv.org/abs/2602.02486 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Схожі ресурси
InfoAgent: Advancing Autonomous Information-Seeking Agents
за авторством: Zhang, Gongrui, та інші
Опубліковано: (2025)
за авторством: Zhang, Gongrui, та інші
Опубліковано: (2025)
MageBench: Bridging Large Multimodal Models to Agents
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2024)
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2024)
Phi-Ground Tech Report: Advancing Perception in GUI Grounding
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2025)
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2025)
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models
за авторством: Wang, Alex Jinpeng, та інші
Опубліковано: (2025)
за авторством: Wang, Alex Jinpeng, та інші
Опубліковано: (2025)
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
за авторством: Peng, Yingzhe, та інші
Опубліковано: (2025)
за авторством: Peng, Yingzhe, та інші
Опубліковано: (2025)
Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation
за авторством: Cho, Jaemin, та інші
Опубліковано: (2023)
за авторством: Cho, Jaemin, та інші
Опубліковано: (2023)
Bring Metric Functions into Diffusion Models
за авторством: An, Jie, та інші
Опубліковано: (2024)
за авторством: An, Jie, та інші
Опубліковано: (2024)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2024)
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2024)
NJUST-KMG at TRAC-2024 Tasks 1 and 2: Offline Harm Potential Identification
за авторством: Wang, Jingyuan, та інші
Опубліковано: (2024)
за авторством: Wang, Jingyuan, та інші
Опубліковано: (2024)
Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning
за авторством: Muppidi, Aneesh, та інші
Опубліковано: (2024)
за авторством: Muppidi, Aneesh, та інші
Опубліковано: (2024)
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
за авторством: Hao, Yunzhuo, та інші
Опубліковано: (2025)
за авторством: Hao, Yunzhuo, та інші
Опубліковано: (2025)
LiVOS: Light Video Object Segmentation with Gated Linear Matching
за авторством: Liu, Qin, та інші
Опубліковано: (2024)
за авторством: Liu, Qin, та інші
Опубліковано: (2024)
Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2026)
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2026)
Covering Human Action Space for Computer Use: Data Synthesis and Benchmark
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2026)
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2026)
ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning
за авторством: Liao, Jiaqi, та інші
Опубліковано: (2025)
за авторством: Liao, Jiaqi, та інші
Опубліковано: (2025)
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
за авторством: Yang, Zhengyuan, та інші
Опубліковано: (2023)
за авторством: Yang, Zhengyuan, та інші
Опубліковано: (2023)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
за авторством: Yu, Weihao, та інші
Опубліковано: (2023)
за авторством: Yu, Weihao, та інші
Опубліковано: (2023)
OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation
за авторством: Guo, Heyu, та інші
Опубліковано: (2025)
за авторством: Guo, Heyu, та інші
Опубліковано: (2025)
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning
за авторством: Ni, Minheng, та інші
Опубліковано: (2025)
за авторством: Ni, Minheng, та інші
Опубліковано: (2025)
Language-Guided Face Animation by Recurrent StyleGAN-based Generator
за авторством: Hang, Tiankai, та інші
Опубліковано: (2022)
за авторством: Hang, Tiankai, та інші
Опубліковано: (2022)
DisCo: Disentangled Control for Realistic Human Dance Generation
за авторством: Wang, Tan, та інші
Опубліковано: (2023)
за авторством: Wang, Tan, та інші
Опубліковано: (2023)
Glance: Accelerating Diffusion Models with 1 Sample
за авторством: Dong, Zhuobai, та інші
Опубліковано: (2025)
за авторством: Dong, Zhuobai, та інші
Опубліковано: (2025)
V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models
за авторством: Zheng, Xiangxi, та інші
Опубліковано: (2025)
за авторством: Zheng, Xiangxi, та інші
Опубліковано: (2025)
Computer-Use Agents as Judges for Generative User Interface
за авторством: Lin, Kevin Qinghong, та інші
Опубліковано: (2025)
за авторством: Lin, Kevin Qinghong, та інші
Опубліковано: (2025)
Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition
за авторством: Qiu, Jielin, та інші
Опубліковано: (2024)
за авторством: Qiu, Jielin, та інші
Опубліковано: (2024)
Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation
за авторством: Zhang, Jihai, та інші
Опубліковано: (2025)
за авторством: Zhang, Jihai, та інші
Опубліковано: (2025)
TextGround4M: A Prompt-Aligned Dataset for Layout-Aware Text Rendering
за авторством: Mao, Dongxing, та інші
Опубліковано: (2026)
за авторством: Mao, Dongxing, та інші
Опубліковано: (2026)
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
за авторством: Wang, Alex Jinpeng, та інші
Опубліковано: (2024)
за авторством: Wang, Alex Jinpeng, та інші
Опубліковано: (2024)
GREAT: Grassmannian REcursive Algorithm for Tracking & Online System Identification
за авторством: Sasfi, András, та інші
Опубліковано: (2024)
за авторством: Sasfi, András, та інші
Опубліковано: (2024)
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
за авторством: Wang, Xiyao, та інші
Опубліковано: (2025)
за авторством: Wang, Xiyao, та інші
Опубліковано: (2025)
Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation
за авторством: Zhai, Yuanhao, та інші
Опубліковано: (2024)
за авторством: Zhai, Yuanhao, та інші
Опубліковано: (2024)
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
за авторством: Wang, Xiyao, та інші
Опубліковано: (2024)
за авторством: Wang, Xiyao, та інші
Опубліковано: (2024)
VideoGUI: A Benchmark for GUI Automation from Instructional Videos
за авторством: Lin, Kevin Qinghong, та інші
Опубліковано: (2024)
за авторством: Lin, Kevin Qinghong, та інші
Опубліковано: (2024)
Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising
за авторством: Lin, Yan-Bo, та інші
Опубліковано: (2025)
за авторством: Lin, Yan-Bo, та інші
Опубліковано: (2025)
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
за авторством: Yan, An, та інші
Опубліковано: (2024)
за авторством: Yan, An, та інші
Опубліковано: (2024)
GenXD: Generating Any 3D and 4D Scenes
за авторством: Zhao, Yuyang, та інші
Опубліковано: (2024)
за авторством: Zhao, Yuyang, та інші
Опубліковано: (2024)
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities
за авторством: Yu, Weihao, та інші
Опубліковано: (2024)
за авторством: Yu, Weihao, та інші
Опубліковано: (2024)
EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing
за авторством: Zheng, Kaizhi, та інші
Опубліковано: (2024)
за авторством: Zheng, Kaizhi, та інші
Опубліковано: (2024)
Planning with the Views via Scene Self-Exploration
за авторством: Wang, Kangrui, та інші
Опубліковано: (2026)
за авторством: Wang, Kangrui, та інші
Опубліковано: (2026)
Measurement of LLM's Philosophies of Human Nature
за авторством: Ni, Minheng, та інші
Опубліковано: (2025)
за авторством: Ni, Minheng, та інші
Опубліковано: (2025)
Схожі ресурси
-
InfoAgent: Advancing Autonomous Information-Seeking Agents
за авторством: Zhang, Gongrui, та інші
Опубліковано: (2025) -
MageBench: Bridging Large Multimodal Models to Agents
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2024) -
Phi-Ground Tech Report: Advancing Perception in GUI Grounding
за авторством: Zhang, Miaosen, та інші
Опубліковано: (2025) -
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models
за авторством: Wang, Alex Jinpeng, та інші
Опубліковано: (2025) -
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
за авторством: Peng, Yingzhe, та інші
Опубліковано: (2025)