:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Deng, Nianchen, Gu, Lixin, Ye, Shenglong, He, Yinan, Chen, Zhe, Li, Songze, Wang, Haomin, Wei, Xingguang, Yang, Tianshuo, Dou, Min, He, Tong, Shao, Wenqi, Zhang, Kaipeng, Wang, Yi, Shi, Botian, Zhang, Yanting, Dai, Jifeng, Qiao, Yu, Zhang, Hongjie, Wang, Wenhai
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2506.18385
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings
par: Wei, Xingguang, et autres
Publié: (2025)

InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
par: Wang, Haomin, et autres
Publié: (2025)

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
par: Zhu, Jinguo, et autres
Publié: (2025)

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
par: Wang, Weiyun, et autres
Publié: (2025)

ArchCAD-400K: A Large-Scale CAD drawings Dataset and New Baseline for Panoptic Symbol Spotting
par: Luo, Ruifeng, et autres
Publié: (2025)

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
par: Gao, Zhangwei, et autres
Publié: (2024)

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
par: Wang, Yi, et autres
Publié: (2024)

InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling
par: Wang, Yi, et autres
Publié: (2025)

Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
par: Luo, Gen, et autres
Publié: (2025)

Docopilot: Improving Multimodal Models for Document-Level Understanding
par: Duan, Yuchen, et autres
Publié: (2025)

PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models
par: Meng, Fanqing, et autres
Publié: (2024)

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
par: Jia, Mengdi, et autres
Publié: (2025)

MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning
par: Meng, Fanqing, et autres
Publié: (2025)

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
par: Chen, Zhe, et autres
Publié: (2023)

Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
par: Zhao, Lirui, et autres
Publié: (2024)

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
par: Luo, Gen, et autres
Publié: (2024)

ZipAR: Parallel Auto-regressive Image Generation through Spatial Locality
par: He, Yefei, et autres
Publié: (2024)

Needle In A Multimodal Haystack
par: Wang, Weiyun, et autres
Publié: (2024)

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
par: Dong, Xiaoyi, et autres
Publié: (2024)

Scattering and Gathering for Spatially Varying Blurs
par: Chimitt, Nicholas, et autres
Publié: (2023)

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
par: Chen, Xinyi, et autres
Publié: (2025)

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
par: Wang, Yi, et autres
Publié: (2023)

Bounding Box Stability against Feature Dropout Reflects Detector Generalization across Environments
par: Yang, Yang, et autres
Publié: (2024)

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
par: Zhang, Pan, et autres
Publié: (2024)

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond
par: Zhu, Zheng, et autres
Publié: (2024)

X-Imitator: Spatial-Aware Imitation Learning via Bidirectional Action-Pose Interaction
par: Xiong, Kai, et autres
Publié: (2026)

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
par: Chen, Zhe, et autres
Publié: (2024)

SpatialScore: Towards Comprehensive Evaluation for Spatial Intelligence
par: Wu, Haoning, et autres
Publié: (2025)

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution
par: Cui, Long, et autres
Publié: (2025)

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World
par: Wang, Weiyun, et autres
Publié: (2024)

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
par: Dong, Xiaoyi, et autres
Publié: (2024)

ModiGen: A Large Language Model-Based Workflow for Multi-Task Modelica Code Generation
par: Xiang, Jiahui, et autres
Publié: (2025)

Spatial Data and Evaluation Indicators for Eco-Tourism Development Value in Taihang Honggu National Forest Park, China
par: Zhang, Wenqi
Publié: (2025)

VideoChat: Chat-Centric Video Understanding
par: Li, KunChang, et autres
Publié: (2023)

Intern-S1: A Scientific Multimodal Foundation Model
par: Bai, Lei, et autres
Publié: (2025)

EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models
par: Jing, Linglin, et autres
Publié: (2025)

HSD: Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding
par: Liao, Wenhui, et autres
Publié: (2026)

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
par: Li, Qingyun, et autres
Publié: (2024)

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
par: Wang, Weiyun, et autres
Publié: (2025)

TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts
par: Xie, Yuxuan, et autres
Publié: (2024)