Salvato in:
| Autori principali: | Shi, Bowen, Zhao, Peisen, Wang, Zichen, Zhang, Yuhang, Wang, Yaoming, Li, Jin, Dai, Wenrui, Zou, Junni, Xiong, Hongkai, Tian, Qi, Zhang, Xiaopeng |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2401.06397 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
GranViT: A Fine-Grained Vision Model With Autoregressive Perception For MLLMs
di: Zheng, Guanghao, et al.
Pubblicazione: (2025)
di: Zheng, Guanghao, et al.
Pubblicazione: (2025)
METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models
di: Liu, Yuchen, et al.
Pubblicazione: (2025)
di: Liu, Yuchen, et al.
Pubblicazione: (2025)
Diffusion-Driven Progressive Target Manipulation for Source-Free Domain Adaptation
di: Huang, Yuyang, et al.
Pubblicazione: (2025)
di: Huang, Yuyang, et al.
Pubblicazione: (2025)
Point Cloud Denoising With Fine-Granularity Dynamic Graph Convolutional Networks
di: Xu, Wenqiang, et al.
Pubblicazione: (2024)
di: Xu, Wenqiang, et al.
Pubblicazione: (2024)
MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch Normalization
di: Fei, Wen, et al.
Pubblicazione: (2020)
di: Fei, Wen, et al.
Pubblicazione: (2020)
Noise Conditional Variational Score Distillation
di: Peng, Xinyu, et al.
Pubblicazione: (2025)
di: Peng, Xinyu, et al.
Pubblicazione: (2025)
Frequency-Aware Transformer for Learned Image Compression
di: Li, Han, et al.
Pubblicazione: (2023)
di: Li, Han, et al.
Pubblicazione: (2023)
Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers
di: Peng, Xinyu, et al.
Pubblicazione: (2026)
di: Peng, Xinyu, et al.
Pubblicazione: (2026)
Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation
di: Li, Han, et al.
Pubblicazione: (2024)
di: Li, Han, et al.
Pubblicazione: (2024)
OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
di: Li, Han, et al.
Pubblicazione: (2025)
di: Li, Han, et al.
Pubblicazione: (2025)
Point Cloud Resampling with Learnable Heat Diffusion
di: Xu, Wenqiang, et al.
Pubblicazione: (2024)
di: Xu, Wenqiang, et al.
Pubblicazione: (2024)
HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation
di: Zheng, Hongwei, et al.
Pubblicazione: (2025)
di: Zheng, Hongwei, et al.
Pubblicazione: (2025)
Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance
di: Peng, Xinyu, et al.
Pubblicazione: (2024)
di: Peng, Xinyu, et al.
Pubblicazione: (2024)
Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment
di: Li, Han, et al.
Pubblicazione: (2025)
di: Li, Han, et al.
Pubblicazione: (2025)
Information-Theoretic Optimization for Task-Adapted Compressed Sensing Magnetic Resonance Imaging
di: Peng, Xinyu, et al.
Pubblicazione: (2026)
di: Peng, Xinyu, et al.
Pubblicazione: (2026)
3DGabSplat: 3D Gabor Splatting for Frequency-adaptive Radiance Field Rendering
di: Zhou, Junyu, et al.
Pubblicazione: (2025)
di: Zhou, Junyu, et al.
Pubblicazione: (2025)
On Disentangled Training for Nonlinear Transform in Learned Image Compression
di: Li, Han, et al.
Pubblicazione: (2025)
di: Li, Han, et al.
Pubblicazione: (2025)
LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors
di: Chen, Yabo, et al.
Pubblicazione: (2024)
di: Chen, Yabo, et al.
Pubblicazione: (2024)
Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views
di: Chen, Yabo, et al.
Pubblicazione: (2023)
di: Chen, Yabo, et al.
Pubblicazione: (2023)
CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding
di: Xu, Wenhao, et al.
Pubblicazione: (2024)
di: Xu, Wenhao, et al.
Pubblicazione: (2024)
From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models
di: Jiang, Dongsheng, et al.
Pubblicazione: (2023)
di: Jiang, Dongsheng, et al.
Pubblicazione: (2023)
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
di: Ren, Tianhe, et al.
Pubblicazione: (2024)
di: Ren, Tianhe, et al.
Pubblicazione: (2024)
SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding
di: Li, Wenrui, et al.
Pubblicazione: (2024)
di: Li, Wenrui, et al.
Pubblicazione: (2024)
Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks
di: Yang, Min, et al.
Pubblicazione: (2024)
di: Yang, Min, et al.
Pubblicazione: (2024)
EV-NVC: Efficient Variable bitrate Neural Video Compression
di: Hu, Yongcun, et al.
Pubblicazione: (2025)
di: Hu, Yongcun, et al.
Pubblicazione: (2025)
Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning
di: Li, Wenrui, et al.
Pubblicazione: (2024)
di: Li, Wenrui, et al.
Pubblicazione: (2024)
UMind-VL: A Generalist Ultrasound Vision-Language Model for Unified Grounded Perception and Comprehensive Interpretation
di: Chen, Dengbo, et al.
Pubblicazione: (2025)
di: Chen, Dengbo, et al.
Pubblicazione: (2025)
Unifying Biomedical Vision-Language Expertise: Towards a Generalist Foundation Model via Multi-CLIP Knowledge Distillation
di: Wang, Shansong, et al.
Pubblicazione: (2025)
di: Wang, Shansong, et al.
Pubblicazione: (2025)
Long-CLIP: Unlocking the Long-Text Capability of CLIP
di: Zhang, Beichen, et al.
Pubblicazione: (2024)
di: Zhang, Beichen, et al.
Pubblicazione: (2024)
A Low-Rank Method for Vision Language Model Hallucination Mitigation in Autonomous Driving
di: Long, Keke, et al.
Pubblicazione: (2025)
di: Long, Keke, et al.
Pubblicazione: (2025)
FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions
di: Zhao, Peisen, et al.
Pubblicazione: (2026)
di: Zhao, Peisen, et al.
Pubblicazione: (2026)
Towards Building Specialized Generalist AI with System 1 and System 2 Fusion
di: Zhang, Kaiyan, et al.
Pubblicazione: (2024)
di: Zhang, Kaiyan, et al.
Pubblicazione: (2024)
Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking
di: Ren, Jie, et al.
Pubblicazione: (2025)
di: Ren, Jie, et al.
Pubblicazione: (2025)
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
di: Xie, Wulin, et al.
Pubblicazione: (2025)
di: Xie, Wulin, et al.
Pubblicazione: (2025)
Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding
di: Zhang, Yuhang, et al.
Pubblicazione: (2025)
di: Zhang, Yuhang, et al.
Pubblicazione: (2025)
Res$^2$CLIP: Few-Shot Generalist Anomaly Detection with Residual-to-Residual Alignment
di: Liu, Xinyue, et al.
Pubblicazione: (2026)
di: Liu, Xinyue, et al.
Pubblicazione: (2026)
MolSight: Optical Chemical Structure Recognition with SMILES Pretraining, Multi-Granularity Learning and Reinforcement Learning
di: Zhang, Wenrui, et al.
Pubblicazione: (2025)
di: Zhang, Wenrui, et al.
Pubblicazione: (2025)
OpenSDI: Spotting Diffusion-Generated Images in the Open World
di: Wang, Yabin, et al.
Pubblicazione: (2025)
di: Wang, Yabin, et al.
Pubblicazione: (2025)
Medical Vision Generalist: Unifying Medical Imaging Tasks in Context
di: Ren, Sucheng, et al.
Pubblicazione: (2024)
di: Ren, Sucheng, et al.
Pubblicazione: (2024)
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
di: LASA Team, et al.
Pubblicazione: (2025)
di: LASA Team, et al.
Pubblicazione: (2025)
Documenti analoghi
-
GranViT: A Fine-Grained Vision Model With Autoregressive Perception For MLLMs
di: Zheng, Guanghao, et al.
Pubblicazione: (2025) -
METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models
di: Liu, Yuchen, et al.
Pubblicazione: (2025) -
Diffusion-Driven Progressive Target Manipulation for Source-Free Domain Adaptation
di: Huang, Yuyang, et al.
Pubblicazione: (2025) -
Point Cloud Denoising With Fine-Granularity Dynamic Graph Convolutional Networks
di: Xu, Wenqiang, et al.
Pubblicazione: (2024) -
MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch Normalization
di: Fei, Wen, et al.
Pubblicazione: (2020)