:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Gong, Zhantao, Fan, Liaoyuan, Guo, Qing, Xu, Xun, Yang, Xulei, Li, Shijie
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2511.18735
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Ego2World: Compiling Egocentric Cooking Videos into Executable Worlds for Belief-State Planning
par: Cheng, Qinchuan, et autres
Publié: (2026)

GRIT: Teaching MLLMs to Think with Images
par: Fan, Yue, et autres
Publié: (2025)

ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models
par: Hamdan, Shadi, et autres
Publié: (2025)

CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving
par: Huang, Minqing, et autres
Publié: (2026)

Chain of World: World Model Thinking in Latent Motion
par: Yang, Fuxiang, et autres
Publié: (2026)

RynnEC: Bringing MLLMs into Embodied World
par: Dang, Ronghao, et autres
Publié: (2025)

Towards Unified World Models for Visual Navigation via Memory-Augmented Planning and Foresight
par: Dong, Yifei, et autres
Publié: (2025)

Visual Foresight for Robotic Stow: A Diffusion-Based World Model from Sparse Snapshots
par: Zhang, Lijun, et autres
Publié: (2026)

CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs
par: Zhang, Jiaming, et autres
Publié: (2025)

SODA: Out-of-Distribution Detection in Domain-Shifted Point Clouds via Neighborhood Propagation
par: Goodge, Adam, et autres
Publié: (2025)

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
par: Yang, Yi, et autres
Publié: (2025)

Future-Aware Interaction Network For Motion Forecasting
par: Li, Shijie, et autres
Publié: (2025)

Think Before You Drive: World Model-Inspired Multimodal Grounding for Autonomous Vehicles
par: Liao, Haicheng, et autres
Publié: (2025)

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses
par: Jiang, Zhuohang, et autres
Publié: (2026)

Dense Connector for MLLMs
par: Yao, Huanjin, et autres
Publié: (2024)

Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation
par: Mao, Jiawei, et autres
Publié: (2025)

CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark
par: Wang, Wei, et autres
Publié: (2026)

Multi-View Industrial Anomaly Detection with Epipolar Constrained Cross-View Fusion
par: Liu, Yifan, et autres
Publié: (2025)

VAP-Diffusion: Enriching Descriptions with MLLMs for Enhanced Medical Image Generation
par: Huang, Peng, et autres
Publié: (2025)

SCBench: A Sports Commentary Benchmark for Video LLMs
par: Ge, Kuangzhi, et autres
Publié: (2024)

CLIP-based Camera-Agnostic Feature Learning for Intra-camera Person Re-Identification
par: Tan, Xuan, et autres
Publié: (2024)

Enhancing Spatial Reasoning through Visual and Textual Thinking
par: Liang, Xun, et autres
Publié: (2025)

V-Reflection: Transforming MLLMs from Passive Observers to Active Interrogators
par: Zhou, Jiazhou, et autres
Publié: (2026)

Finding Lottery Tickets in Vision Models via Data-driven Spectral Foresight Pruning
par: Iurada, Leonardo, et autres
Publié: (2024)

A Benchmark for Ultra-High-Resolution Remote Sensing MLLMs
par: Dang, Yunkai, et autres
Publié: (2025)

CrystaL: Spontaneous Emergence of Visual Latents in MLLMs
par: Zhang, Yang, et autres
Publié: (2026)

STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision
par: Li, Chen, et autres
Publié: (2025)

From Attributes to Natural Language: A Survey and Foresight on Text-based Person Re-identification
par: Jiang, Fanzhi, et autres
Publié: (2024)

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors
par: Zheng, Duo, et autres
Publié: (2025)

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?
par: Tang, Yolo Y., et autres
Publié: (2024)

Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events
par: Liu, Xiaolin, et autres
Publié: (2026)

VRAG: Learning World Models for Interactive Video Generation
par: Chen, Taiye, et autres
Publié: (2025)

Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs
par: Zhang, Haochen, et autres
Publié: (2026)

MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations
par: Zhang, Ziyang, et autres
Publié: (2025)

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
par: Liu, Wenqi, et autres
Publié: (2026)

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension
par: Ouyang, Kun, et autres
Publié: (2024)

Global-Aware Monocular Semantic Scene Completion with State Space Models
par: Li, Shijie, et autres
Publié: (2025)

Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models
par: Zhan, Yufei, et autres
Publié: (2025)

Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
par: Yang, Enneng, et autres
Publié: (2024)

ORL-LDM: Offline Reinforcement Learning Guided Latent Diffusion Model Super-Resolution Reconstruction
par: Lyu, Shijie
Publié: (2025)