Enregistré dans:
| Auteurs principaux: | Gong, Zhantao, Fan, Liaoyuan, Guo, Qing, Xu, Xun, Yang, Xulei, Li, Shijie |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2511.18735 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Ego2World: Compiling Egocentric Cooking Videos into Executable Worlds for Belief-State Planning
par: Cheng, Qinchuan, et autres
Publié: (2026)
par: Cheng, Qinchuan, et autres
Publié: (2026)
GRIT: Teaching MLLMs to Think with Images
par: Fan, Yue, et autres
Publié: (2025)
par: Fan, Yue, et autres
Publié: (2025)
ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models
par: Hamdan, Shadi, et autres
Publié: (2025)
par: Hamdan, Shadi, et autres
Publié: (2025)
CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving
par: Huang, Minqing, et autres
Publié: (2026)
par: Huang, Minqing, et autres
Publié: (2026)
Chain of World: World Model Thinking in Latent Motion
par: Yang, Fuxiang, et autres
Publié: (2026)
par: Yang, Fuxiang, et autres
Publié: (2026)
RynnEC: Bringing MLLMs into Embodied World
par: Dang, Ronghao, et autres
Publié: (2025)
par: Dang, Ronghao, et autres
Publié: (2025)
Towards Unified World Models for Visual Navigation via Memory-Augmented Planning and Foresight
par: Dong, Yifei, et autres
Publié: (2025)
par: Dong, Yifei, et autres
Publié: (2025)
Visual Foresight for Robotic Stow: A Diffusion-Based World Model from Sparse Snapshots
par: Zhang, Lijun, et autres
Publié: (2026)
par: Zhang, Lijun, et autres
Publié: (2026)
CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs
par: Zhang, Jiaming, et autres
Publié: (2025)
par: Zhang, Jiaming, et autres
Publié: (2025)
SODA: Out-of-Distribution Detection in Domain-Shifted Point Clouds via Neighborhood Propagation
par: Goodge, Adam, et autres
Publié: (2025)
par: Goodge, Adam, et autres
Publié: (2025)
Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
par: Yang, Yi, et autres
Publié: (2025)
par: Yang, Yi, et autres
Publié: (2025)
Future-Aware Interaction Network For Motion Forecasting
par: Li, Shijie, et autres
Publié: (2025)
par: Li, Shijie, et autres
Publié: (2025)
Think Before You Drive: World Model-Inspired Multimodal Grounding for Autonomous Vehicles
par: Liao, Haicheng, et autres
Publié: (2025)
par: Liao, Haicheng, et autres
Publié: (2025)
SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses
par: Jiang, Zhuohang, et autres
Publié: (2026)
par: Jiang, Zhuohang, et autres
Publié: (2026)
Dense Connector for MLLMs
par: Yao, Huanjin, et autres
Publié: (2024)
par: Yao, Huanjin, et autres
Publié: (2024)
Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation
par: Mao, Jiawei, et autres
Publié: (2025)
par: Mao, Jiawei, et autres
Publié: (2025)
CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark
par: Wang, Wei, et autres
Publié: (2026)
par: Wang, Wei, et autres
Publié: (2026)
Multi-View Industrial Anomaly Detection with Epipolar Constrained Cross-View Fusion
par: Liu, Yifan, et autres
Publié: (2025)
par: Liu, Yifan, et autres
Publié: (2025)
VAP-Diffusion: Enriching Descriptions with MLLMs for Enhanced Medical Image Generation
par: Huang, Peng, et autres
Publié: (2025)
par: Huang, Peng, et autres
Publié: (2025)
SCBench: A Sports Commentary Benchmark for Video LLMs
par: Ge, Kuangzhi, et autres
Publié: (2024)
par: Ge, Kuangzhi, et autres
Publié: (2024)
CLIP-based Camera-Agnostic Feature Learning for Intra-camera Person Re-Identification
par: Tan, Xuan, et autres
Publié: (2024)
par: Tan, Xuan, et autres
Publié: (2024)
Enhancing Spatial Reasoning through Visual and Textual Thinking
par: Liang, Xun, et autres
Publié: (2025)
par: Liang, Xun, et autres
Publié: (2025)
V-Reflection: Transforming MLLMs from Passive Observers to Active Interrogators
par: Zhou, Jiazhou, et autres
Publié: (2026)
par: Zhou, Jiazhou, et autres
Publié: (2026)
Finding Lottery Tickets in Vision Models via Data-driven Spectral Foresight Pruning
par: Iurada, Leonardo, et autres
Publié: (2024)
par: Iurada, Leonardo, et autres
Publié: (2024)
A Benchmark for Ultra-High-Resolution Remote Sensing MLLMs
par: Dang, Yunkai, et autres
Publié: (2025)
par: Dang, Yunkai, et autres
Publié: (2025)
CrystaL: Spontaneous Emergence of Visual Latents in MLLMs
par: Zhang, Yang, et autres
Publié: (2026)
par: Zhang, Yang, et autres
Publié: (2026)
STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision
par: Li, Chen, et autres
Publié: (2025)
par: Li, Chen, et autres
Publié: (2025)
From Attributes to Natural Language: A Survey and Foresight on Text-based Person Re-identification
par: Jiang, Fanzhi, et autres
Publié: (2024)
par: Jiang, Fanzhi, et autres
Publié: (2024)
Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors
par: Zheng, Duo, et autres
Publié: (2025)
par: Zheng, Duo, et autres
Publié: (2025)
VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?
par: Tang, Yolo Y., et autres
Publié: (2024)
par: Tang, Yolo Y., et autres
Publié: (2024)
Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events
par: Liu, Xiaolin, et autres
Publié: (2026)
par: Liu, Xiaolin, et autres
Publié: (2026)
VRAG: Learning World Models for Interactive Video Generation
par: Chen, Taiye, et autres
Publié: (2025)
par: Chen, Taiye, et autres
Publié: (2025)
Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs
par: Zhang, Haochen, et autres
Publié: (2026)
par: Zhang, Haochen, et autres
Publié: (2026)
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations
par: Zhang, Ziyang, et autres
Publié: (2025)
par: Zhang, Ziyang, et autres
Publié: (2025)
VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
par: Liu, Wenqi, et autres
Publié: (2026)
par: Liu, Wenqi, et autres
Publié: (2026)
PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension
par: Ouyang, Kun, et autres
Publié: (2024)
par: Ouyang, Kun, et autres
Publié: (2024)
Global-Aware Monocular Semantic Scene Completion with State Space Models
par: Li, Shijie, et autres
Publié: (2025)
par: Li, Shijie, et autres
Publié: (2025)
Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models
par: Zhan, Yufei, et autres
Publié: (2025)
par: Zhan, Yufei, et autres
Publié: (2025)
Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
par: Yang, Enneng, et autres
Publié: (2024)
par: Yang, Enneng, et autres
Publié: (2024)
ORL-LDM: Offline Reinforcement Learning Guided Latent Diffusion Model Super-Resolution Reconstruction
par: Lyu, Shijie
Publié: (2025)
par: Lyu, Shijie
Publié: (2025)
Documents similaires
-
Ego2World: Compiling Egocentric Cooking Videos into Executable Worlds for Belief-State Planning
par: Cheng, Qinchuan, et autres
Publié: (2026) -
GRIT: Teaching MLLMs to Think with Images
par: Fan, Yue, et autres
Publié: (2025) -
ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models
par: Hamdan, Shadi, et autres
Publié: (2025) -
CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving
par: Huang, Minqing, et autres
Publié: (2026) -
Chain of World: World Model Thinking in Latent Motion
par: Yang, Fuxiang, et autres
Publié: (2026)