Enregistré dans:
| Auteurs principaux: | Deng, Nianchen, Gu, Lixin, Ye, Shenglong, He, Yinan, Chen, Zhe, Li, Songze, Wang, Haomin, Wei, Xingguang, Yang, Tianshuo, Dou, Min, He, Tong, Shao, Wenqi, Zhang, Kaipeng, Wang, Yi, Shi, Botian, Zhang, Yanting, Dai, Jifeng, Qiao, Yu, Zhang, Hongjie, Wang, Wenhai |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2506.18385 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings
par: Wei, Xingguang, et autres
Publié: (2025)
par: Wei, Xingguang, et autres
Publié: (2025)
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
par: Wang, Haomin, et autres
Publié: (2025)
par: Wang, Haomin, et autres
Publié: (2025)
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
par: Zhu, Jinguo, et autres
Publié: (2025)
par: Zhu, Jinguo, et autres
Publié: (2025)
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
par: Wang, Weiyun, et autres
Publié: (2025)
par: Wang, Weiyun, et autres
Publié: (2025)
ArchCAD-400K: A Large-Scale CAD drawings Dataset and New Baseline for Panoptic Symbol Spotting
par: Luo, Ruifeng, et autres
Publié: (2025)
par: Luo, Ruifeng, et autres
Publié: (2025)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
par: Gao, Zhangwei, et autres
Publié: (2024)
par: Gao, Zhangwei, et autres
Publié: (2024)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
par: Wang, Yi, et autres
Publié: (2024)
par: Wang, Yi, et autres
Publié: (2024)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling
par: Wang, Yi, et autres
Publié: (2025)
par: Wang, Yi, et autres
Publié: (2025)
Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
par: Luo, Gen, et autres
Publié: (2025)
par: Luo, Gen, et autres
Publié: (2025)
Docopilot: Improving Multimodal Models for Document-Level Understanding
par: Duan, Yuchen, et autres
Publié: (2025)
par: Duan, Yuchen, et autres
Publié: (2025)
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models
par: Meng, Fanqing, et autres
Publié: (2024)
par: Meng, Fanqing, et autres
Publié: (2024)
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
par: Jia, Mengdi, et autres
Publié: (2025)
par: Jia, Mengdi, et autres
Publié: (2025)
MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning
par: Meng, Fanqing, et autres
Publié: (2025)
par: Meng, Fanqing, et autres
Publié: (2025)
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
par: Chen, Zhe, et autres
Publié: (2023)
par: Chen, Zhe, et autres
Publié: (2023)
Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
par: Zhao, Lirui, et autres
Publié: (2024)
par: Zhao, Lirui, et autres
Publié: (2024)
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
par: Luo, Gen, et autres
Publié: (2024)
par: Luo, Gen, et autres
Publié: (2024)
ZipAR: Parallel Auto-regressive Image Generation through Spatial Locality
par: He, Yefei, et autres
Publié: (2024)
par: He, Yefei, et autres
Publié: (2024)
Needle In A Multimodal Haystack
par: Wang, Weiyun, et autres
Publié: (2024)
par: Wang, Weiyun, et autres
Publié: (2024)
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
par: Dong, Xiaoyi, et autres
Publié: (2024)
par: Dong, Xiaoyi, et autres
Publié: (2024)
Scattering and Gathering for Spatially Varying Blurs
par: Chimitt, Nicholas, et autres
Publié: (2023)
par: Chimitt, Nicholas, et autres
Publié: (2023)
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
par: Chen, Xinyi, et autres
Publié: (2025)
par: Chen, Xinyi, et autres
Publié: (2025)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
par: Wang, Yi, et autres
Publié: (2023)
par: Wang, Yi, et autres
Publié: (2023)
Bounding Box Stability against Feature Dropout Reflects Detector Generalization across Environments
par: Yang, Yang, et autres
Publié: (2024)
par: Yang, Yang, et autres
Publié: (2024)
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
par: Zhang, Pan, et autres
Publié: (2024)
par: Zhang, Pan, et autres
Publié: (2024)
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond
par: Zhu, Zheng, et autres
Publié: (2024)
par: Zhu, Zheng, et autres
Publié: (2024)
X-Imitator: Spatial-Aware Imitation Learning via Bidirectional Action-Pose Interaction
par: Xiong, Kai, et autres
Publié: (2026)
par: Xiong, Kai, et autres
Publié: (2026)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
par: Chen, Zhe, et autres
Publié: (2024)
par: Chen, Zhe, et autres
Publié: (2024)
SpatialScore: Towards Comprehensive Evaluation for Spatial Intelligence
par: Wu, Haoning, et autres
Publié: (2025)
par: Wu, Haoning, et autres
Publié: (2025)
ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution
par: Cui, Long, et autres
Publié: (2025)
par: Cui, Long, et autres
Publié: (2025)
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World
par: Wang, Weiyun, et autres
Publié: (2024)
par: Wang, Weiyun, et autres
Publié: (2024)
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
par: Dong, Xiaoyi, et autres
Publié: (2024)
par: Dong, Xiaoyi, et autres
Publié: (2024)
ModiGen: A Large Language Model-Based Workflow for Multi-Task Modelica Code Generation
par: Xiang, Jiahui, et autres
Publié: (2025)
par: Xiang, Jiahui, et autres
Publié: (2025)
Spatial Data and Evaluation Indicators for Eco-Tourism Development Value in Taihang Honggu National Forest Park, China
par: Zhang, Wenqi
Publié: (2025)
par: Zhang, Wenqi
Publié: (2025)
VideoChat: Chat-Centric Video Understanding
par: Li, KunChang, et autres
Publié: (2023)
par: Li, KunChang, et autres
Publié: (2023)
Intern-S1: A Scientific Multimodal Foundation Model
par: Bai, Lei, et autres
Publié: (2025)
par: Bai, Lei, et autres
Publié: (2025)
EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models
par: Jing, Linglin, et autres
Publié: (2025)
par: Jing, Linglin, et autres
Publié: (2025)
HSD: Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding
par: Liao, Wenhui, et autres
Publié: (2026)
par: Liao, Wenhui, et autres
Publié: (2026)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
par: Li, Qingyun, et autres
Publié: (2024)
par: Li, Qingyun, et autres
Publié: (2024)
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
par: Wang, Weiyun, et autres
Publié: (2025)
par: Wang, Weiyun, et autres
Publié: (2025)
TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts
par: Xie, Yuxuan, et autres
Publié: (2024)
par: Xie, Yuxuan, et autres
Publié: (2024)
Documents similaires
-
Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings
par: Wei, Xingguang, et autres
Publié: (2025) -
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
par: Wang, Haomin, et autres
Publié: (2025) -
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
par: Zhu, Jinguo, et autres
Publié: (2025) -
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
par: Wang, Weiyun, et autres
Publié: (2025) -
ArchCAD-400K: A Large-Scale CAD drawings Dataset and New Baseline for Panoptic Symbol Spotting
par: Luo, Ruifeng, et autres
Publié: (2025)