Salvato in:
| Autori principali: | Dong, Yubo, Zhu, Linchao |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2602.01340 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention
di: Lu, Yu, et al.
Pubblicazione: (2024)
di: Lu, Yu, et al.
Pubblicazione: (2024)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs
di: Xu, Yunqiu, et al.
Pubblicazione: (2024)
di: Xu, Yunqiu, et al.
Pubblicazione: (2024)
H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction
di: Jia, Heng, et al.
Pubblicazione: (2025)
di: Jia, Heng, et al.
Pubblicazione: (2025)
3DID: Direct 3D Inverse Design for Aerodynamics with Physics-Aware Optimization
di: Hao, Yuze, et al.
Pubblicazione: (2025)
di: Hao, Yuze, et al.
Pubblicazione: (2025)
EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing
di: Yang, Xiangpeng, et al.
Pubblicazione: (2024)
di: Yang, Xiangpeng, et al.
Pubblicazione: (2024)
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing
di: Yang, Xiangpeng, et al.
Pubblicazione: (2025)
di: Yang, Xiangpeng, et al.
Pubblicazione: (2025)
GPD: Guided Progressive Distillation for Fast and High-Quality Video Generation
di: Liang, Xiao, et al.
Pubblicazione: (2026)
di: Liang, Xiao, et al.
Pubblicazione: (2026)
Content-Aware Mamba for Learned Image Compression
di: Chen, Yunuo, et al.
Pubblicazione: (2025)
di: Chen, Yunuo, et al.
Pubblicazione: (2025)
DA-VAE: Plug-in Latent Compression for Diffusion via Detail Alignment
di: Cai, Xin, et al.
Pubblicazione: (2026)
di: Cai, Xin, et al.
Pubblicazione: (2026)
CADC: Content Adaptive Diffusion-Based Generative Image Compression
di: Sheng, Xihua, et al.
Pubblicazione: (2026)
di: Sheng, Xihua, et al.
Pubblicazione: (2026)
MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization
di: Jia, Mingkai, et al.
Pubblicazione: (2025)
di: Jia, Mingkai, et al.
Pubblicazione: (2025)
RayFormer: Modeling Inter- and Intra-Ray Similarity for NeRF-Based Video Snapshot Compressive Imaging
di: Dong, Yubo, et al.
Pubblicazione: (2026)
di: Dong, Yubo, et al.
Pubblicazione: (2026)
EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data
di: Lehmann, Nils, et al.
Pubblicazione: (2026)
di: Lehmann, Nils, et al.
Pubblicazione: (2026)
Combating Label Noise With A General Surrogate Model For Sample Selection
di: Liang, Chao, et al.
Pubblicazione: (2023)
di: Liang, Chao, et al.
Pubblicazione: (2023)
Slimmable Networks for Contrastive Self-supervised Learning
di: Zhao, Shuai, et al.
Pubblicazione: (2022)
di: Zhao, Shuai, et al.
Pubblicazione: (2022)
DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval
di: Yang, Xiangpeng, et al.
Pubblicazione: (2024)
di: Yang, Xiangpeng, et al.
Pubblicazione: (2024)
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model
di: Zhao, Shuai, et al.
Pubblicazione: (2023)
di: Zhao, Shuai, et al.
Pubblicazione: (2023)
Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval
di: Suo, Yucheng, et al.
Pubblicazione: (2024)
di: Suo, Yucheng, et al.
Pubblicazione: (2024)
Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations
di: Zhang, Xu, et al.
Pubblicazione: (2023)
di: Zhang, Xu, et al.
Pubblicazione: (2023)
ViBE: Visual-to-M/EEG Brain Encoding via Spatio-Temporal VAE and Distribution-Aligned Projection
di: Xu, Ganxi, et al.
Pubblicazione: (2026)
di: Xu, Ganxi, et al.
Pubblicazione: (2026)
TVRN: Invertible Neural Networks for Compression-Aware Temporal Video Rescaling
di: Feng, Xinmin, et al.
Pubblicazione: (2026)
di: Feng, Xinmin, et al.
Pubblicazione: (2026)
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models
di: Zhao, Shuai, et al.
Pubblicazione: (2023)
di: Zhao, Shuai, et al.
Pubblicazione: (2023)
Pose-Aware Multi-Level Motion Parsing for Action Quality Assessment
di: Zhu, Shuaikang, et al.
Pubblicazione: (2025)
di: Zhu, Shuaikang, et al.
Pubblicazione: (2025)
Flip Distribution Alignment VAE for Multi-Phase MRI Synthesis
di: Kui, Xiaoyan, et al.
Pubblicazione: (2025)
di: Kui, Xiaoyan, et al.
Pubblicazione: (2025)
AudioScenic: Audio-Driven Video Scene Editing
di: Shen, Kaixin, et al.
Pubblicazione: (2024)
di: Shen, Kaixin, et al.
Pubblicazione: (2024)
UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence
di: Wu, Ruihai, et al.
Pubblicazione: (2024)
di: Wu, Ruihai, et al.
Pubblicazione: (2024)
Towards 1000-fold Electron Microscopy Image Compression for Connectomics via VQ-VAE with Transformer Prior
di: Yang, Fuming, et al.
Pubblicazione: (2025)
di: Yang, Fuming, et al.
Pubblicazione: (2025)
Video Compression with Hierarchical Temporal Neural Representation
di: Zhu, Jun, et al.
Pubblicazione: (2026)
di: Zhu, Jun, et al.
Pubblicazione: (2026)
CANeRV: Content Adaptive Neural Representation for Video Compression
di: Tang, Lv, et al.
Pubblicazione: (2025)
di: Tang, Lv, et al.
Pubblicazione: (2025)
Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking
di: Wang, Shilei, et al.
Pubblicazione: (2026)
di: Wang, Shilei, et al.
Pubblicazione: (2026)
PIFu for the Real World: A Self-supervised Framework to Reconstruct Dressed Human from Single-view Images
di: Xiong, Zhangyang, et al.
Pubblicazione: (2022)
di: Xiong, Zhangyang, et al.
Pubblicazione: (2022)
OneVAE: Joint Discrete and Continuous Optimization Helps Discrete Video VAE Train Better
di: Zhou, Yupeng, et al.
Pubblicazione: (2025)
di: Zhou, Yupeng, et al.
Pubblicazione: (2025)
DynaTok: Temporally Adaptive and Positional Bias-Aware Token Compression for Video-LLMs
di: Park, Minyoung, et al.
Pubblicazione: (2026)
di: Park, Minyoung, et al.
Pubblicazione: (2026)
Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution
di: An, Hongyu, et al.
Pubblicazione: (2025)
di: An, Hongyu, et al.
Pubblicazione: (2025)
BEV-VAE: Multi-view Image Generation with Spatial Consistency for Autonomous Driving
di: Chen, Zeming, et al.
Pubblicazione: (2025)
di: Chen, Zeming, et al.
Pubblicazione: (2025)
FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding
di: Guo, Yanan, et al.
Pubblicazione: (2025)
di: Guo, Yanan, et al.
Pubblicazione: (2025)
FlexSelect: Flexible Token Selection for Efficient Long Video Understanding
di: Zhang, Yunzhu, et al.
Pubblicazione: (2025)
di: Zhang, Yunzhu, et al.
Pubblicazione: (2025)
MVP: Multiple View Prediction Improves GUI Grounding
di: Zhang, Yunzhu, et al.
Pubblicazione: (2025)
di: Zhang, Yunzhu, et al.
Pubblicazione: (2025)
Ultron: Enabling Temporal Geometry Compression of 3D Mesh Sequences using Temporal Correspondence and Mesh Deformation
di: Zhu, Haichao
Pubblicazione: (2024)
di: Zhu, Haichao
Pubblicazione: (2024)
Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation
di: Zhu, Lunjie, et al.
Pubblicazione: (2026)
di: Zhu, Lunjie, et al.
Pubblicazione: (2026)
Documenti analoghi
-
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention
di: Lu, Yu, et al.
Pubblicazione: (2024) -
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs
di: Xu, Yunqiu, et al.
Pubblicazione: (2024) -
H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction
di: Jia, Heng, et al.
Pubblicazione: (2025) -
3DID: Direct 3D Inverse Design for Aerodynamics with Physics-Aware Optimization
di: Hao, Yuze, et al.
Pubblicazione: (2025) -
EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing
di: Yang, Xiangpeng, et al.
Pubblicazione: (2024)