Enregistré dans:
| Auteurs principaux: | Cai, Kaitong, Zhang, Jensen, Yang, Jing, Wang, Keze |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2512.20531 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
STORM: Search-Guided Generative World Models for Robotic Manipulation
par: Lin, Wenjun, et autres
Publié: (2025)
par: Lin, Wenjun, et autres
Publié: (2025)
3DAlign-DAER: Dynamic Attention Policy and Efficient Retrieval Strategy for Fine-grained 3D-Text Alignment at Scale
par: Fan, Yijia, et autres
Publié: (2025)
par: Fan, Yijia, et autres
Publié: (2025)
Top-Down Semantic Refinement for Image Captioning
par: Zhang, Jusheng, et autres
Publié: (2025)
par: Zhang, Jusheng, et autres
Publié: (2025)
FlashVLM: Text-Guided Visual Token Selection for Large Multimodal Models
par: Cai, Kaitong, et autres
Publié: (2025)
par: Cai, Kaitong, et autres
Publié: (2025)
PTTA: A Pure Text-to-Animation Framework for High-Quality Creation
par: Chen, Ruiqi, et autres
Publié: (2025)
par: Chen, Ruiqi, et autres
Publié: (2025)
CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation
par: Zeng, Qinglin, et autres
Publié: (2025)
par: Zeng, Qinglin, et autres
Publié: (2025)
MAT-Agent: Adaptive Multi-Agent Training Optimization
par: Zhang, Jusheng, et autres
Publié: (2025)
par: Zhang, Jusheng, et autres
Publié: (2025)
GTMA: Dynamic Representation Optimization for OOD Vision-Language Models
par: Zhang, Jensen, et autres
Publié: (2025)
par: Zhang, Jensen, et autres
Publié: (2025)
Self-Rewarded Multimodal Coherent Reasoning Across Diverse Visual Domains
par: Zhang, Jesen, et autres
Publié: (2025)
par: Zhang, Jesen, et autres
Publié: (2025)
Process-of-Thought Reasoning for Videos
par: Zhang, Jusheng, et autres
Publié: (2026)
par: Zhang, Jusheng, et autres
Publié: (2026)
HybridToken-VLM: Hybrid Token Compression for Vision-Language Models
par: Zhang, Jusheng, et autres
Publié: (2025)
par: Zhang, Jusheng, et autres
Publié: (2025)
Free-DyGS: Camera-Pose-Free Scene Reconstruction for Dynamic Surgical Videos with Gaussian Splatting
par: Li, Qian, et autres
Publié: (2024)
par: Li, Qian, et autres
Publié: (2024)
Learning Dynamic Scene Reconstruction with Sinusoidal Geometric Priors
par: Guo, Tian, et autres
Publié: (2025)
par: Guo, Tian, et autres
Publié: (2025)
GCRayDiffusion: Pose-Free Surface Reconstruction via Geometric Consistent Ray Diffusion
par: Chen, Li-Heng, et autres
Publié: (2025)
par: Chen, Li-Heng, et autres
Publié: (2025)
Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos
par: Sun, Shuo, et autres
Publié: (2026)
par: Sun, Shuo, et autres
Publié: (2026)
DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving
par: He, Zhuolin, et autres
Publié: (2026)
par: He, Zhuolin, et autres
Publié: (2026)
Mem4D: Decoupling Static and Dynamic Memory for Dynamic Scene Reconstruction
par: Cai, Xudong, et autres
Publié: (2025)
par: Cai, Xudong, et autres
Publié: (2025)
PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization
par: Dong, Siyan, et autres
Publié: (2025)
par: Dong, Siyan, et autres
Publié: (2025)
MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models
par: Zhang, Jusheng, et autres
Publié: (2025)
par: Zhang, Jusheng, et autres
Publié: (2025)
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer
par: Brachmann, Eric, et autres
Publié: (2024)
par: Brachmann, Eric, et autres
Publié: (2024)
Self-Supervised Implicit Attention Priors for Point Cloud Reconstruction
par: Fogarty, Kyle, et autres
Publié: (2025)
par: Fogarty, Kyle, et autres
Publié: (2025)
Image-Plane Geometric Decoding for View-Invariant Indoor Scene Reconstruction
par: Li, Mingyang, et autres
Publié: (2025)
par: Li, Mingyang, et autres
Publié: (2025)
TraceFlow: Dynamic 3D Reconstruction of Specular Scenes Driven by Ray Tracing
par: Tao, Jiachen, et autres
Publié: (2025)
par: Tao, Jiachen, et autres
Publié: (2025)
Diffusion-Driven Self-Supervised Learning for Shape Reconstruction and Pose Estimation
par: Sun, Jingtao, et autres
Publié: (2024)
par: Sun, Jingtao, et autres
Publié: (2024)
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes
par: Liu, Yang, et autres
Publié: (2024)
par: Liu, Yang, et autres
Publié: (2024)
4DRadar-GS: Self-Supervised Dynamic Driving Scene Reconstruction with 4D Radar
par: Tang, Xiao, et autres
Publié: (2025)
par: Tang, Xiao, et autres
Publié: (2025)
Adaptive-VoCo: Complexity-Aware Visual Token Compression for Vision-Language Models
par: Guo, Xiaoyang, et autres
Publié: (2025)
par: Guo, Xiaoyang, et autres
Publié: (2025)
WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories
par: Zhang, Yisu, et autres
Publié: (2026)
par: Zhang, Yisu, et autres
Publié: (2026)
UPGS: Unified Pose-aware Gaussian Splatting for Dynamic Scene Deblurring
par: Wu, Zhijing, et autres
Publié: (2025)
par: Wu, Zhijing, et autres
Publié: (2025)
DynaPose4D: High-Quality 4D Dynamic Content Generation via Pose Alignment Loss
par: Yang, Jing, et autres
Publié: (2025)
par: Yang, Jing, et autres
Publié: (2025)
Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors
par: Paul, Soumava, et autres
Publié: (2024)
par: Paul, Soumava, et autres
Publié: (2024)
UrbanGS: A Scalable and Efficient Architecture for Geometrically Accurate Large-Scene Reconstruction
par: Li, Changbai, et autres
Publié: (2026)
par: Li, Changbai, et autres
Publié: (2026)
Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes
par: Tan, Jing, et autres
Publié: (2026)
par: Tan, Jing, et autres
Publié: (2026)
Scene-agnostic Pose Regression for Visual Localization
par: Zheng, Junwei, et autres
Publié: (2025)
par: Zheng, Junwei, et autres
Publié: (2025)
GRAFT: Geometric Refinement and Fitting Transformer for Human Scene Reconstruction
par: YM, Pradyumna, et autres
Publié: (2026)
par: YM, Pradyumna, et autres
Publié: (2026)
SplitGaussian: Reconstructing Dynamic Scenes via Visual Geometry Decomposition
par: Li, Jiahui, et autres
Publié: (2025)
par: Li, Jiahui, et autres
Publié: (2025)
Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction
par: Chen, Weirong, et autres
Publié: (2025)
par: Chen, Weirong, et autres
Publié: (2025)
Instant Gaussian Stream: Fast and Generalizable Streaming of Dynamic Scene Reconstruction via Gaussian Splatting
par: Yan, Jinbo, et autres
Publié: (2025)
par: Yan, Jinbo, et autres
Publié: (2025)
Self-Supervised High Dynamic Range Imaging with Multi-Exposure Images in Dynamic Scenes
par: Zhang, Zhilu, et autres
Publié: (2023)
par: Zhang, Zhilu, et autres
Publié: (2023)
Self-Supervised Monocular 4D Scene Reconstruction for Egocentric Videos
par: Yuan, Chengbo, et autres
Publié: (2024)
par: Yuan, Chengbo, et autres
Publié: (2024)
Documents similaires
-
STORM: Search-Guided Generative World Models for Robotic Manipulation
par: Lin, Wenjun, et autres
Publié: (2025) -
3DAlign-DAER: Dynamic Attention Policy and Efficient Retrieval Strategy for Fine-grained 3D-Text Alignment at Scale
par: Fan, Yijia, et autres
Publié: (2025) -
Top-Down Semantic Refinement for Image Captioning
par: Zhang, Jusheng, et autres
Publié: (2025) -
FlashVLM: Text-Guided Visual Token Selection for Large Multimodal Models
par: Cai, Kaitong, et autres
Publié: (2025) -
PTTA: A Pure Text-to-Animation Framework for High-Quality Creation
par: Chen, Ruiqi, et autres
Publié: (2025)