Saved in:
| Main Authors: | Tang, Hao, Shao, Ling, Sebe, Nicu, Van Gool, Luc |
|---|---|
| Format: | Preprint |
| Udgivet: |
2024
|
| Fag: | |
| Online adgang: | https://arxiv.org/abs/2401.07721 |
| Tags: |
Tilføj Tag
Ingen Tags, Vær først til at tagge denne postø!
|
Lignende værker
Spatial-Temporal Graph Mamba for Music-Guided Dance Video Synthesis
af: Tang, Hao, et al.
Udgivet: (2025)
af: Tang, Hao, et al.
Udgivet: (2025)
Enhanced Multi-Scale Cross-Attention for Person Image Generation
af: Tang, Hao, et al.
Udgivet: (2025)
af: Tang, Hao, et al.
Udgivet: (2025)
Asymmetric GANs for Image-to-Image Translation
af: Tang, Hao, et al.
Udgivet: (2019)
af: Tang, Hao, et al.
Udgivet: (2019)
Key-Graph Transformer for Image Restoration
af: Ren, Bin, et al.
Udgivet: (2024)
af: Ren, Bin, et al.
Udgivet: (2024)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning
af: Ren, Bin, et al.
Udgivet: (2024)
af: Ren, Bin, et al.
Udgivet: (2024)
GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation
af: Li, Wenhao, et al.
Udgivet: (2022)
af: Li, Wenhao, et al.
Udgivet: (2022)
Sharing Key Semantics in Transformer Makes Efficient Image Restoration
af: Ren, Bin, et al.
Udgivet: (2024)
af: Ren, Bin, et al.
Udgivet: (2024)
CityLoc: 6DoF Pose Distributional Localization for Text Descriptions in Large-Scale Scenes with Gaussian Representation
af: Ma, Qi, et al.
Udgivet: (2025)
af: Ma, Qi, et al.
Udgivet: (2025)
Towards Online Real-Time Memory-based Video Inpainting Transformers
af: Thiry, Guillaume, et al.
Udgivet: (2024)
af: Thiry, Guillaume, et al.
Udgivet: (2024)
ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining
af: Ma, Qi, et al.
Udgivet: (2024)
af: Ma, Qi, et al.
Udgivet: (2024)
EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM
af: Shu, Yan, et al.
Udgivet: (2025)
af: Shu, Yan, et al.
Udgivet: (2025)
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook
af: Zheng, Xu, et al.
Udgivet: (2025)
af: Zheng, Xu, et al.
Udgivet: (2025)
Hierarchical Cross-Attention Network for Virtual Try-On
af: Tang, Hao, et al.
Udgivet: (2024)
af: Tang, Hao, et al.
Udgivet: (2024)
Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization
af: Ren, Bin, et al.
Udgivet: (2025)
af: Ren, Bin, et al.
Udgivet: (2025)
MatIR: A Hybrid Mamba-Transformer Image Restoration Model
af: Wen, Juan, et al.
Udgivet: (2025)
af: Wen, Juan, et al.
Udgivet: (2025)
Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation
af: Zhang, Jichao, et al.
Udgivet: (2022)
af: Zhang, Jichao, et al.
Udgivet: (2022)
POCI-Diff: Position Objects Consistently and Interactively with 3D-Layout Guided Diffusion
af: Rigo, Andrea, et al.
Udgivet: (2026)
af: Rigo, Andrea, et al.
Udgivet: (2026)
Masked Image Modeling: A Survey
af: Hondru, Vlad, et al.
Udgivet: (2024)
af: Hondru, Vlad, et al.
Udgivet: (2024)
HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud
af: Cheng, Wencan, et al.
Udgivet: (2024)
af: Cheng, Wencan, et al.
Udgivet: (2024)
Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation
af: Ren, Bin, et al.
Udgivet: (2025)
af: Ren, Bin, et al.
Udgivet: (2025)
CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP
af: Xing, Songlong, et al.
Udgivet: (2025)
af: Xing, Songlong, et al.
Udgivet: (2025)
TrafficBots V1.5: Traffic Simulation via Conditional VAEs and Transformers with Relative Pose Encoding
af: Zhang, Zhejun, et al.
Udgivet: (2024)
af: Zhang, Zhejun, et al.
Udgivet: (2024)
A Unified Masked Jigsaw Puzzle Framework for Vision and Language Models
af: Ye, Weixin, et al.
Udgivet: (2026)
af: Ye, Weixin, et al.
Udgivet: (2026)
Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Appearance Graphs
af: Segu, Mattia, et al.
Udgivet: (2024)
af: Segu, Mattia, et al.
Udgivet: (2024)
Masked Clustering Prediction for Unsupervised Point Cloud Pre-training
af: Ren, Bin, et al.
Udgivet: (2025)
af: Ren, Bin, et al.
Udgivet: (2025)
Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models
af: Li, Jinlong, et al.
Udgivet: (2026)
af: Li, Jinlong, et al.
Udgivet: (2026)
Chorus: Multi-Teacher Pretraining for Holistic 3D Gaussian Scene Encoding
af: Li, Yue, et al.
Udgivet: (2025)
af: Li, Yue, et al.
Udgivet: (2025)
Reverse Personalization
af: Kung, Han-Wei, et al.
Udgivet: (2025)
af: Kung, Han-Wei, et al.
Udgivet: (2025)
Anti-Forgetting Adaptation for Unsupervised Person Re-identification
af: Chen, Hao, et al.
Udgivet: (2024)
af: Chen, Hao, et al.
Udgivet: (2024)
DSGC-Net: A Dual-Stream Graph Convolutional Network for Crowd Counting via Feature Correlation Mining
af: Wu, Yihong, et al.
Udgivet: (2025)
af: Wu, Yihong, et al.
Udgivet: (2025)
RankFeat&RankWeight: Rank-1 Feature/Weight Removal for Out-of-distribution Detection
af: Song, Yue, et al.
Udgivet: (2023)
af: Song, Yue, et al.
Udgivet: (2023)
RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism
af: Peruzzo, Elia, et al.
Udgivet: (2025)
af: Peruzzo, Elia, et al.
Udgivet: (2025)
Generalized Fine-Grained Category Discovery with Multi-Granularity Conceptual Experts
af: Zheng, Haiyang, et al.
Udgivet: (2025)
af: Zheng, Haiyang, et al.
Udgivet: (2025)
Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery
af: Zheng, Haiyang, et al.
Udgivet: (2024)
af: Zheng, Haiyang, et al.
Udgivet: (2024)
Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models
af: Motamed, Saman, et al.
Udgivet: (2024)
af: Motamed, Saman, et al.
Udgivet: (2024)
Test-time Training for Hyperspectral Image Super-resolution
af: Li, Ke, et al.
Udgivet: (2024)
af: Li, Ke, et al.
Udgivet: (2024)
Optimizing against Infeasible Inclusions from Data for Semantic Segmentation through Morphology
af: Basu, Shamik, et al.
Udgivet: (2024)
af: Basu, Shamik, et al.
Udgivet: (2024)
Bayesian Self-Training for Semi-Supervised 3D Segmentation
af: Unal, Ozan, et al.
Udgivet: (2024)
af: Unal, Ozan, et al.
Udgivet: (2024)
Hallucination Early Detection in Diffusion Models
af: Betti, Federico, et al.
Udgivet: (2026)
af: Betti, Federico, et al.
Udgivet: (2026)
Vision+X: A Survey on Multimodal Learning in the Light of Data
af: Zhu, Ye, et al.
Udgivet: (2022)
af: Zhu, Ye, et al.
Udgivet: (2022)
Lignende værker
-
Spatial-Temporal Graph Mamba for Music-Guided Dance Video Synthesis
af: Tang, Hao, et al.
Udgivet: (2025) -
Enhanced Multi-Scale Cross-Attention for Person Image Generation
af: Tang, Hao, et al.
Udgivet: (2025) -
Asymmetric GANs for Image-to-Image Translation
af: Tang, Hao, et al.
Udgivet: (2019) -
Key-Graph Transformer for Image Restoration
af: Ren, Bin, et al.
Udgivet: (2024) -
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning
af: Ren, Bin, et al.
Udgivet: (2024)