:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Dong, Yubo, Zhu, Linchao
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2602.01340
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention
di: Lu, Yu, et al.
Pubblicazione: (2024)

MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs
di: Xu, Yunqiu, et al.
Pubblicazione: (2024)

H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction
di: Jia, Heng, et al.
Pubblicazione: (2025)

3DID: Direct 3D Inverse Design for Aerodynamics with Physics-Aware Optimization
di: Hao, Yuze, et al.
Pubblicazione: (2025)

EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing
di: Yang, Xiangpeng, et al.
Pubblicazione: (2024)

VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing
di: Yang, Xiangpeng, et al.
Pubblicazione: (2025)

GPD: Guided Progressive Distillation for Fast and High-Quality Video Generation
di: Liang, Xiao, et al.
Pubblicazione: (2026)

Content-Aware Mamba for Learned Image Compression
di: Chen, Yunuo, et al.
Pubblicazione: (2025)

DA-VAE: Plug-in Latent Compression for Diffusion via Detail Alignment
di: Cai, Xin, et al.
Pubblicazione: (2026)

CADC: Content Adaptive Diffusion-Based Generative Image Compression
di: Sheng, Xihua, et al.
Pubblicazione: (2026)

MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization
di: Jia, Mingkai, et al.
Pubblicazione: (2025)

RayFormer: Modeling Inter- and Intra-Ray Similarity for NeRF-Based Video Snapshot Compressive Imaging
di: Dong, Yubo, et al.
Pubblicazione: (2026)

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data
di: Lehmann, Nils, et al.
Pubblicazione: (2026)

Combating Label Noise With A General Surrogate Model For Sample Selection
di: Liang, Chao, et al.
Pubblicazione: (2023)

Slimmable Networks for Contrastive Self-supervised Learning
di: Zhao, Shuai, et al.
Pubblicazione: (2022)

DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval
di: Yang, Xiangpeng, et al.
Pubblicazione: (2024)

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model
di: Zhao, Shuai, et al.
Pubblicazione: (2023)

Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval
di: Suo, Yucheng, et al.
Pubblicazione: (2024)

Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations
di: Zhang, Xu, et al.
Pubblicazione: (2023)

ViBE: Visual-to-M/EEG Brain Encoding via Spatio-Temporal VAE and Distribution-Aligned Projection
di: Xu, Ganxi, et al.
Pubblicazione: (2026)

TVRN: Invertible Neural Networks for Compression-Aware Temporal Video Rescaling
di: Feng, Xinmin, et al.
Pubblicazione: (2026)

Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models
di: Zhao, Shuai, et al.
Pubblicazione: (2023)

Pose-Aware Multi-Level Motion Parsing for Action Quality Assessment
di: Zhu, Shuaikang, et al.
Pubblicazione: (2025)

Flip Distribution Alignment VAE for Multi-Phase MRI Synthesis
di: Kui, Xiaoyan, et al.
Pubblicazione: (2025)

AudioScenic: Audio-Driven Video Scene Editing
di: Shen, Kaixin, et al.
Pubblicazione: (2024)

UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence
di: Wu, Ruihai, et al.
Pubblicazione: (2024)

Towards 1000-fold Electron Microscopy Image Compression for Connectomics via VQ-VAE with Transformer Prior
di: Yang, Fuming, et al.
Pubblicazione: (2025)

Video Compression with Hierarchical Temporal Neural Representation
di: Zhu, Jun, et al.
Pubblicazione: (2026)

CANeRV: Content Adaptive Neural Representation for Video Compression
di: Tang, Lv, et al.
Pubblicazione: (2025)

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking
di: Wang, Shilei, et al.
Pubblicazione: (2026)

PIFu for the Real World: A Self-supervised Framework to Reconstruct Dressed Human from Single-view Images
di: Xiong, Zhangyang, et al.
Pubblicazione: (2022)

OneVAE: Joint Discrete and Continuous Optimization Helps Discrete Video VAE Train Better
di: Zhou, Yupeng, et al.
Pubblicazione: (2025)

DynaTok: Temporally Adaptive and Positional Bias-Aware Token Compression for Video-LLMs
di: Park, Minyoung, et al.
Pubblicazione: (2026)

Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution
di: An, Hongyu, et al.
Pubblicazione: (2025)

BEV-VAE: Multi-view Image Generation with Spatial Consistency for Autonomous Driving
di: Chen, Zeming, et al.
Pubblicazione: (2025)

FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding
di: Guo, Yanan, et al.
Pubblicazione: (2025)

FlexSelect: Flexible Token Selection for Efficient Long Video Understanding
di: Zhang, Yunzhu, et al.
Pubblicazione: (2025)

MVP: Multiple View Prediction Improves GUI Grounding
di: Zhang, Yunzhu, et al.
Pubblicazione: (2025)

Ultron: Enabling Temporal Geometry Compression of 3D Mesh Sequences using Temporal Correspondence and Mesh Deformation
di: Zhu, Haichao
Pubblicazione: (2024)

Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation
di: Zhu, Lunjie, et al.
Pubblicazione: (2026)