:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Chen, Ziwei, Liu, Ziling, Huang, Zitong, Gao, Mingqi, Zheng, Feng
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2506.23835
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Leveraging Geometric Priors for Unaligned Scene Change Detection
by: Liu, Ziling, et al.
Published: (2025)

Place Anything into Any Video
by: Liu, Ziling, et al.
Published: (2024)

ArtiWorld: LLM-Driven Articulation of 3D Objects in Scenes
by: Yang, Yixuan, et al.
Published: (2025)

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency
by: Liu, Tianqi, et al.
Published: (2025)

Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model
by: Huang, Zhuoxu, et al.
Published: (2025)

Few-Shot Referring Video Single- and Multi-Object Segmentation via Cross-Modal Affinity with Instance Sequence Matching
by: Liu, Heng, et al.
Published: (2025)

OptiScene: LLM-driven Indoor Scene Layout Generation via Scaled Human-aligned Data Synthesis and Multi-Stage Preference Optimization
by: Yang, Yixuan, et al.
Published: (2025)

TIGeR: Text-Instructed Generation and Refinement for Template-Free Hand-Object Interaction
by: Huang, Yiyao, et al.
Published: (2025)

GIFT: Generated Indoor video frames for Texture-less point tracking
by: Huang, Jianzheng, et al.
Published: (2025)

InfBaGel: Human-Object-Scene Interaction Generation with Dynamic Perception and Iterative Refinement
by: Zou, Yude, et al.
Published: (2026)

Re-Prompting SAM 3 via Object Retrieval: 3rd of the 5th PVUW MOSE Track
by: Gao, Mingqi, et al.
Published: (2026)

ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding
by: Peng, Qihang, et al.
Published: (2025)

Show Me When and Where: Towards Referring Video Object Segmentation in the Wild
by: Gao, Mingqi, et al.
Published: (2026)

Learning Trajectory-Aware Multimodal Large Language Models for Video Reasoning Segmentation
by: Luo, Jingnan, et al.
Published: (2026)

Material Anything: Generating Materials for Any 3D Object via Diffusion
by: Huang, Xin, et al.
Published: (2024)

PCSR: Pseudo-label Consistency-Guided Sample Refinement for Noisy Correspondence Learning
by: Liu, Zhuoyao, et al.
Published: (2025)

3D Scene Generation: A Survey
by: Wen, Beichen, et al.
Published: (2025)

ReSeDis: A Dataset for Referring-based Object Search across Large-Scale Image Collections
by: Huang, Ziling, et al.
Published: (2025)

PhyScene3D: Physically Consistent Interactive 3D Tabletop Scene Generation
by: Chen, Weixing, et al.
Published: (2026)

Delving into Dynamic Scene Cue-Consistency for Robust 3D Multi-Object Tracking
by: Zhang, Haonan, et al.
Published: (2025)

Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects
by: Zhang, Yunfan, et al.
Published: (2024)

THU-Warwick Submission for EPIC-KITCHEN Challenge 2025: Semi-Supervised Video Object Segmentation
by: Gao, Mingqi, et al.
Published: (2025)

SceneDecorator: Towards Scene-Oriented Story Generation with Scene Planning and Scene Consistency
by: Song, Quanjian, et al.
Published: (2025)

MVPainter: Accurate and Detailed 3D Texture Generation via Multi-View Diffusion with Geometric Control
by: Shao, Mingqi, et al.
Published: (2025)

Interpretable Logical Anomaly Classification via Constraint Decomposition and Instruction Fine-Tuning
by: Zhang, Xufei, et al.
Published: (2026)

Ensemble Foreground Management for Unsupervised Object Discovery
by: Wu, Ziling, et al.
Published: (2025)

1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation
by: Gao, Mingqi, et al.
Published: (2024)

Generative Photographic Control for Scene-Consistent Video Cinematic Editing
by: Sun, Huiqiang, et al.
Published: (2025)

ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning
by: Tan, Xiaofeng, et al.
Published: (2026)

Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes
by: Cai, Zhi, et al.
Published: (2024)

ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for Open-Vocabulary Object Detection
by: Jeong, Joonhyun, et al.
Published: (2023)

GBR: Generative Bundle Refinement for High-fidelity Gaussian Splatting with Enhanced Mesh Reconstruction
by: Zhang, Jianing, et al.
Published: (2024)

CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition
by: Phung, Quynh, et al.
Published: (2025)

Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE
by: Yang, Yiying, et al.
Published: (2024)

Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding
by: Chen, Ye, et al.
Published: (2025)

Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy
by: Liu, Yuhao, et al.
Published: (2025)

Cut2Next: Generating Next Shot via In-Context Tuning
by: He, Jingwen, et al.
Published: (2025)

Setting the Stage: Text-Driven Scene-Consistent Image Generation
by: Xie, Cong, et al.
Published: (2025)

Consistent Instance Field for Dynamic Scene Understanding
by: Wu, Junyi, et al.
Published: (2025)

Exposing Image Splicing Traces in Scientific Publications via Uncertainty-guided Refinement
by: Lin, Xun, et al.
Published: (2023)