:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Jin, Siyoon, Kim, Seongchan, Chung, Dahyun, Lee, Jaeho, Choi, Hyunwook, Nam, Jisu, Kim, Jiyoung, Kim, Seungryong
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2510.07310
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Emergent Temporal Correspondences from Video Diffusion Transformers
by: Nam, Jisu, et al.
Published: (2025)

InterRVOS: Interaction-aware Referring Video Object Segmentation
by: Jin, Woojeong, et al.
Published: (2025)

CORAL: Correspondence Alignment for Improved Virtual Try-On
by: Kim, Jiyoung, et al.
Published: (2026)

Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis in-the-Wild
by: Jin, Siyoon, et al.
Published: (2024)

MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation
by: Kim, Seyeon, et al.
Published: (2024)

Referring Video Object Segmentation via Language-aligned Track Selection
by: Kim, Seongchan, et al.
Published: (2024)

Repurposing Video Diffusion Transformers for Robust Point Tracking
by: Son, Soowon, et al.
Published: (2025)

DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization
by: Nam, Jisu, et al.
Published: (2024)

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation
by: Nam, Jisu, et al.
Published: (2026)

TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D Tracking
by: Nam, Jisu, et al.
Published: (2026)

Local All-Pair Correspondence for Point Tracking
by: Cho, Seokju, et al.
Published: (2024)

AgentRVOS: Reasoning over Object Tracks for Zero-Shot Referring Video Object Segmentation
by: Jin, Woojeong, et al.
Published: (2026)

Grounding World Simulation Models in a Real-World Metropolis
by: Seo, Junyoung, et al.
Published: (2026)

Multi-Granularity Video Object Segmentation
by: Lim, Sangbeom, et al.
Published: (2024)

Diffusion Model for Dense Matching
by: Nam, Jisu, et al.
Published: (2023)

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
by: Yi, Jung, et al.
Published: (2025)

PLOT: Pseudo-Labeling via Video Object Tracking for Scalable Monocular 3D Object Detection
by: Lee, Seokyeong, et al.
Published: (2025)

Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D Generation
by: Seo, Junyoung, et al.
Published: (2023)

S^4M: Boosting Semi-Supervised Instance Segmentation with SAM
by: Yoon, Heeji, et al.
Published: (2025)

VideoMaMa: Mask-Guided Video Matting via Generative Prior
by: Lim, Sangbeom, et al.
Published: (2026)

Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry
by: Seo, Junyoung, et al.
Published: (2025)

MV-TAP: Tracking Any Point in Multi-View Videos
by: Koo, Jahyeok, et al.
Published: (2025)

MORPHOS: Autoregressive 4D Generation with Temporal Structured Latents
by: Kwon, Minkyung, et al.
Published: (2026)

Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation
by: Kim, Kihong, et al.
Published: (2024)

Exploring Temporally-Aware Features for Point Tracking
by: Kim, Inès Hyeonsu, et al.
Published: (2025)

LatentSwap: An Efficient Latent Code Mapping Framework for Face Swapping
by: Choi, Changho, et al.
Published: (2024)

Domain Generalization Using Large Pretrained Models with Mixture-of-Adapters
by: Lee, Gyuseong, et al.
Published: (2023)

V-Warper: Appearance-Consistent Video Diffusion Personalization via Value Warping
by: Lee, Hyunkoo, et al.
Published: (2025)

CAMEO: Correspondence-Attention Alignment for Multi-View Diffusion Models
by: Kwon, Minkyung, et al.
Published: (2025)

DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion
by: Hwang, Geunmin, et al.
Published: (2025)

TETO: Tracking Events with Teacher Observation for Motion Estimation and Frame Interpolation
by: Yang, Jini, et al.
Published: (2026)

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models
by: Seo, Wonyong, et al.
Published: (2026)

Using Cross-Domain Detection Loss to Infer Multi-Scale Information for Improved Tiny Head Tracking
by: Kim, Jisu, et al.
Published: (2025)

Background-aware Moment Detection for Video Moment Retrieval
by: Jung, Minjoon, et al.
Published: (2023)

Motion Cues from Image-based Point Tracking for LiDAR Scene Flow Estimation
by: Jang, Youngdong, et al.
Published: (2026)

Visual Persona: Foundation Model for Full-Body Human Customization
by: Nam, Jisu, et al.
Published: (2025)

Unified Diffusion Transformer for High-fidelity Text-Aware Image Restoration
by: Kim, Jin Hyeon, et al.
Published: (2025)

SceneNAT: Masked Generative Modeling for Language-Guided Indoor Scene Synthesis
by: Choi, Jeongjun, et al.
Published: (2026)

Visual Representation Alignment for Multimodal Large Language Models
by: Yoon, Heeji, et al.
Published: (2025)

Read, Watch and Scream! Sound Generation from Text and Video
by: Jeong, Yujin, et al.
Published: (2024)