:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Peng, Zhengyuan, Ma, Jinpeng, Sun, Zhimin, Yi, Ran, Song, Haichuan, Tan, Xin, Ma, Lizhuang
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2503.12035
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction
by: Yi, Ran, et al.
Published: (2025)

DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input
by: Tian, Qijian, et al.
Published: (2024)

Continuous Piecewise-Affine Based Motion Model for Image Animation
by: Wang, Hexiang, et al.
Published: (2024)

AttentionPainter: An Efficient and Adaptive Stroke Predictor for Scene Painting
by: Tang, Yizhe, et al.
Published: (2024)

AdR-Gaussian: Accelerating Gaussian Splatting with Adaptive Radius
by: Wang, Xinzhe, et al.
Published: (2024)

PIG: Prompt Images Guidance for Night-Time Scene Parsing
by: Xie, Zhifeng, et al.
Published: (2024)

UniForward: Unified 3D Scene and Semantic Field Reconstruction via Feed-Forward Gaussian Splatting from Only Sparse-View Images
by: Tian, Qijian, et al.
Published: (2025)

S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction
by: Zhang, Renhe, et al.
Published: (2026)

SU-SAM: A Simple Unified Framework for Adapting Segment Anything Model in Underperformed Scenes
by: Song, Yiran, et al.
Published: (2024)

Learning Part Knowledge to Facilitate Category Understanding for Fine-Grained Generalized Category Discovery
by: Wang, Enguang, et al.
Published: (2025)

Active Generalized Category Discovery
by: Ma, Shijie, et al.
Published: (2024)

Pinco: Position-induced Consistent Adapter for Diffusion Transformer in Foreground-conditioned Inpainting
by: Lu, Guangben, et al.
Published: (2024)

A$^\text{T}$A: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting
by: Tang, Yizhe, et al.
Published: (2025)

InstanceV: Instance-Level Video Generation
by: Chen, Yuheng, et al.
Published: (2025)

Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation
by: Fan, Ke, et al.
Published: (2024)

PoseAnything: Universal Pose-guided Video Generation with Part-aware Temporal Coherence
by: Wang, Ruiyan, et al.
Published: (2025)

Revisiting Mutual Information Maximization for Generalized Category Discovery
by: Tan, Zhaorui, et al.
Published: (2024)

SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation
by: Hu, Teng, et al.
Published: (2024)

CtlGAN: Few-shot Artistic Portraits Generation with Contrastive Transfer Learning
by: Wang, Yue, et al.
Published: (2022)

GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery
by: Wang, Enguang, et al.
Published: (2024)

Source-Free Test-Time Adaptation For Online Surface-Defect Detection
by: Song, Yiran, et al.
Published: (2024)

SRRM: Semantic Region Relation Model for Indoor Scene Recognition
by: Song, Chuanxin, et al.
Published: (2023)

LidarPainter: One-Step Away From Any Lidar View To Novel Guidance
by: Ji, Yuzhou, et al.
Published: (2025)

COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction
by: Ma, Qihang, et al.
Published: (2023)

EyeSeg: An Uncertainty-Aware Eye Segmentation Framework for AR/VR
by: Peng, Zhengyuan, et al.
Published: (2025)

Online Continuous Generalized Category Discovery
by: Park, Keon-Hee, et al.
Published: (2024)

HeadLighter: Disentangling Illumination in Generative 3D Gaussian Heads via Lightstage Captures
by: Wang, Yating, et al.
Published: (2026)

MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning
by: Hao, Jinkun, et al.
Published: (2025)

Reconstructing Topology-Consistent Face Mesh by Volume Rendering from Multi-View Images
by: Wang, Yating, et al.
Published: (2024)

Inter-object Discriminative Graph Modeling for Indoor Scene Recognition
by: Song, Chuanxin, et al.
Published: (2023)

Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction
by: Hu, Teng, et al.
Published: (2025)

Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation
by: Liu, Fengqi, et al.
Published: (2024)

MV-Adapter: Multi-view Consistent Image Generation Made Easy
by: Huang, Zehuan, et al.
Published: (2024)

MotionMaster: Training-free Camera Motion Transfer For Video Generation
by: Hu, Teng, et al.
Published: (2024)

Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models
by: Wang, Alex Jinpeng, et al.
Published: (2025)

M3DM-NR: RGB-3D Noisy-Resistant Industrial Anomaly Detection via Multimodal Denoising
by: Wang, Chengjie, et al.
Published: (2024)

Happy: A Debiased Learning Framework for Continual Generalized Category Discovery
by: Ma, Shijie, et al.
Published: (2024)

GSCompleter: A Distillation-Free Plugin for Metric-Aware 3D Gaussian Splatting Completion in Seconds
by: Gao, Ao, et al.
Published: (2026)

FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views via Compact Semantic Representation
by: Tian, Qijian, et al.
Published: (2025)

Prior-Constrained Association Learning for Fine-Grained Generalized Category Discovery
by: Wang, Menglin, et al.
Published: (2025)