:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Shi, Bowen, Zhao, Peisen, Wang, Zichen, Zhang, Yuhang, Wang, Yaoming, Li, Jin, Dai, Wenrui, Zou, Junni, Xiong, Hongkai, Tian, Qi, Zhang, Xiaopeng
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2401.06397
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

GranViT: A Fine-Grained Vision Model With Autoregressive Perception For MLLMs
di: Zheng, Guanghao, et al.
Pubblicazione: (2025)

METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models
di: Liu, Yuchen, et al.
Pubblicazione: (2025)

Diffusion-Driven Progressive Target Manipulation for Source-Free Domain Adaptation
di: Huang, Yuyang, et al.
Pubblicazione: (2025)

Point Cloud Denoising With Fine-Granularity Dynamic Graph Convolutional Networks
di: Xu, Wenqiang, et al.
Pubblicazione: (2024)

MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch Normalization
di: Fei, Wen, et al.
Pubblicazione: (2020)

Noise Conditional Variational Score Distillation
di: Peng, Xinyu, et al.
Pubblicazione: (2025)

Frequency-Aware Transformer for Learned Image Compression
di: Li, Han, et al.
Pubblicazione: (2023)

Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers
di: Peng, Xinyu, et al.
Pubblicazione: (2026)

Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation
di: Li, Han, et al.
Pubblicazione: (2024)

OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
di: Li, Han, et al.
Pubblicazione: (2025)

Point Cloud Resampling with Learnable Heat Diffusion
di: Xu, Wenqiang, et al.
Pubblicazione: (2024)

HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation
di: Zheng, Hongwei, et al.
Pubblicazione: (2025)

Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance
di: Peng, Xinyu, et al.
Pubblicazione: (2024)

Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment
di: Li, Han, et al.
Pubblicazione: (2025)

Information-Theoretic Optimization for Task-Adapted Compressed Sensing Magnetic Resonance Imaging
di: Peng, Xinyu, et al.
Pubblicazione: (2026)

3DGabSplat: 3D Gabor Splatting for Frequency-adaptive Radiance Field Rendering
di: Zhou, Junyu, et al.
Pubblicazione: (2025)

On Disentangled Training for Nonlinear Transform in Learned Image Compression
di: Li, Han, et al.
Pubblicazione: (2025)

LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors
di: Chen, Yabo, et al.
Pubblicazione: (2024)

Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views
di: Chen, Yabo, et al.
Pubblicazione: (2023)

CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding
di: Xu, Wenhao, et al.
Pubblicazione: (2024)

From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models
di: Jiang, Dongsheng, et al.
Pubblicazione: (2023)

DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
di: Ren, Tianhe, et al.
Pubblicazione: (2024)

SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding
di: Li, Wenrui, et al.
Pubblicazione: (2024)

Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks
di: Yang, Min, et al.
Pubblicazione: (2024)

EV-NVC: Efficient Variable bitrate Neural Video Compression
di: Hu, Yongcun, et al.
Pubblicazione: (2025)

Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning
di: Li, Wenrui, et al.
Pubblicazione: (2024)

UMind-VL: A Generalist Ultrasound Vision-Language Model for Unified Grounded Perception and Comprehensive Interpretation
di: Chen, Dengbo, et al.
Pubblicazione: (2025)

Unifying Biomedical Vision-Language Expertise: Towards a Generalist Foundation Model via Multi-CLIP Knowledge Distillation
di: Wang, Shansong, et al.
Pubblicazione: (2025)

Long-CLIP: Unlocking the Long-Text Capability of CLIP
di: Zhang, Beichen, et al.
Pubblicazione: (2024)

A Low-Rank Method for Vision Language Model Hallucination Mitigation in Autonomous Driving
di: Long, Keke, et al.
Pubblicazione: (2025)

FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions
di: Zhao, Peisen, et al.
Pubblicazione: (2026)

Towards Building Specialized Generalist AI with System 1 and System 2 Fusion
di: Zhang, Kaiyan, et al.
Pubblicazione: (2024)

Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking
di: Ren, Jie, et al.
Pubblicazione: (2025)

MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
di: Xie, Wulin, et al.
Pubblicazione: (2025)

Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding
di: Zhang, Yuhang, et al.
Pubblicazione: (2025)

Res$^2$CLIP: Few-Shot Generalist Anomaly Detection with Residual-to-Residual Alignment
di: Liu, Xinyue, et al.
Pubblicazione: (2026)

MolSight: Optical Chemical Structure Recognition with SMILES Pretraining, Multi-Granularity Learning and Reinforcement Learning
di: Zhang, Wenrui, et al.
Pubblicazione: (2025)

OpenSDI: Spotting Diffusion-Generated Images in the Open World
di: Wang, Yabin, et al.
Pubblicazione: (2025)

Medical Vision Generalist: Unifying Medical Imaging Tasks in Context
di: Ren, Sucheng, et al.
Pubblicazione: (2024)

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
di: LASA Team, et al.
Pubblicazione: (2025)