:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Huang, Yuzhi, Li, Chenxin, Zhang, Haitao, Lin, Zixu, Lin, Yunlong, Liu, Hengyu, Li, Wuyang, Liu, Xinyu, Gao, Jiechao, Huang, Yue, Ding, Xinghao, Yuan, Yixuan
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2506.05175
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

GaussianStego: A Generalizable Stenography Pipeline for Generative 3D Gaussians Splatting
by: Li, Chenxin, et al.
Published: (2024)

LGS: A Light-weight 4D Gaussian Splatting for Efficient Surgical Scene Reconstruction
by: Liu, Hengyu, et al.
Published: (2024)

Endora: Video Generation Models as Endoscopy Simulators
by: Li, Chenxin, et al.
Published: (2024)

U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation
by: Li, Chenxin, et al.
Published: (2024)

Harnessing Lightweight Transformer with Contextual Synergic Enhancement for Efficient 3D Medical Image Segmentation
by: Liu, Xinyu, et al.
Published: (2026)

JarvisIR: Elevating Autonomous Driving Perception with Intelligent Image Restoration
by: Lin, Yunlong, et al.
Published: (2025)

ConcealGS: Concealing Invisible Copyright Information in 3D Gaussian Splatting
by: Yang, Yifeng, et al.
Published: (2025)

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent
by: Lin, Yunlong, et al.
Published: (2025)

DiffRect: Latent Diffusion Label Rectification for Semi-supervised Medical Image Segmentation
by: Liu, Xinyu, et al.
Published: (2024)

Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World
by: Huang, Yuzhi, et al.
Published: (2026)

Position-Aware Self-supervised Representation Learning for Cross-mode Radar Signal Recognition
by: Zhang, Hongyang, et al.
Published: (2026)

Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity
by: Zhang, Huaxin, et al.
Published: (2024)

MetaScope: Optics-Driven Neural Network for Ultra-Micro Metalens Endoscopy
by: Li, Wuyang, et al.
Published: (2025)

EndoGen: Conditional Autoregressive Endoscopic Video Generation
by: Liu, Xinyu, et al.
Published: (2025)

ID-Crafter: VLM-Grounded Online RL for Compositional Multi-Subject Video Generation
by: Pan, Panwang, et al.
Published: (2025)

X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography
by: Liu, Yifan, et al.
Published: (2025)

PCMamba: Physics-Informed Cross-Modal State Space Model for Dual-Camera Compressive Hyperspectral Imaging
by: Meng, Ge, et al.
Published: (2025)

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
by: Li, Chenxin, et al.
Published: (2026)

Dissecting Generalized Category Discovery: Multiplex Consensus under Self-Deconstruction
by: Tang, Luyao, et al.
Published: (2025)

FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting
by: Liu, Hengyu, et al.
Published: (2025)

Pan-LUT: Efficient Pan-sharpening via Learnable Look-Up Tables
by: Cai, Zhongnan, et al.
Published: (2025)

IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering
by: Liu, Parker, et al.
Published: (2025)

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
by: Wen, Kairun, et al.
Published: (2025)

EndoSparse: Real-Time Sparse View Synthesis of Endoscopic Scenes using Gaussian Splatting
by: Li, Chenxin, et al.
Published: (2024)

MedAD-R1: Eliciting Consistent Reasoning in Interpretible Medical Anomaly Detection via Consistency-Reinforced Policy Optimization
by: Zhang, Haitao, et al.
Published: (2026)

HumanCrafter: Synergizing Generalizable Human Reconstruction and Semantic 3D Segmentation
by: Pan, Panwang, et al.
Published: (2025)

SAM 2++: Tracking Anything at Any Granularity
by: Zhang, Jiaming, et al.
Published: (2025)

Track Any Motions under Any Disturbances
by: Zhang, Zhikai, et al.
Published: (2025)

Count Anything at Any Granularity
by: Liu, Chang, et al.
Published: (2026)

JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
by: Lin, Yunlong, et al.
Published: (2025)

Bootstrap Segmentation Foundation Model under Distribution Shift via Object-Centric Learning
by: Tang, Luyao, et al.
Published: (2024)

Single-Model and Any-Modality for Video Object Tracking
by: Wu, Zongwei, et al.
Published: (2023)

Theory for the Anomalous Phase Behavior of Inertial Active Brownian Particles
by: Feng, Jiechao, et al.
Published: (2024)

ReTrack: Evidence-Driven Dual-Stream Directional Anchor Calibration Network for Composed Video Retrieval
by: Li, Zixu, et al.
Published: (2026)

Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation
by: Guo, Xiaoqing, et al.
Published: (2025)

Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models
by: Pan, Panwang, et al.
Published: (2025)

Pareto-guided Pipeline for Distilling Featherweight AI Agents in Mobile MOBA Games
by: Yang, Xionghui, et al.
Published: (2026)

EndoGaussian: Real-time Gaussian Splatting for Dynamic Endoscopic Scene Reconstruction
by: Liu, Yifan, et al.
Published: (2024)

GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation
by: Li, Chenxin, et al.
Published: (2024)

Exploiting Point-Language Models with Dual-Prompts for 3D Anomaly Detection
by: Wang, Jiaxiang, et al.
Published: (2025)