:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Yao, Jingfeng, Song, Yuda, Zhou, Yucong, Wang, Xinggang
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2512.13687
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification
di: Yao, Jingfeng, et al.
Pubblicazione: (2024)

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
di: Yao, Jingfeng, et al.
Pubblicazione: (2025)

Matte Anything: Interactive Natural Image Matting with Segment Anything Models
di: Yao, Jingfeng, et al.
Pubblicazione: (2023)

Visual Generation Tuning
di: Guo, Jiahao, et al.
Pubblicazione: (2025)

ViTGaze: Gaze Following with Interaction Features in Vision Transformers
di: Song, Yuehao, et al.
Pubblicazione: (2024)

EVA-X: A Foundation Model for General Chest X-ray Analysis with Self-supervised Learning
di: Yao, Jingfeng, et al.
Pubblicazione: (2024)

Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices
di: Zou, Ya, et al.
Pubblicazione: (2025)

DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models
di: Zeng, Lunbin, et al.
Pubblicazione: (2025)

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies
di: Song, Wei, et al.
Pubblicazione: (2025)

VILA: On Pre-training for Visual Language Models
di: Lin, Ji, et al.
Pubblicazione: (2023)

2D Gaussians Meet Visual Tokenizer
di: Shi, Yiang, et al.
Pubblicazione: (2025)

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
di: Jin, Yang, et al.
Pubblicazione: (2024)

HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction
di: Long, Rujiao, et al.
Pubblicazione: (2024)

Visual Text Generation in the Wild
di: Zhu, Yuanzhi, et al.
Pubblicazione: (2024)

LKCell: Efficient Cell Nuclei Instance Segmentation with Large Convolution Kernels
di: Cui, Ziwei, et al.
Pubblicazione: (2024)

Towards Scalable Language-Image Pre-training for 3D Medical Imaging
di: Zhao, Chenhui, et al.
Pubblicazione: (2025)

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
di: Xue, Le, et al.
Pubblicazione: (2023)

Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration
di: Dudhane, Akshay, et al.
Pubblicazione: (2024)

DriveLaW:Unifying Planning and Video Generation in a Latent Driving World
di: Xia, Tianze, et al.
Pubblicazione: (2025)

Emerging Property of Masked Token for Effective Pre-training
di: Choi, Hyesong, et al.
Pubblicazione: (2024)

Scalable Pre-training of Large Autoregressive Image Models
di: El-Nouby, Alaaeldin, et al.
Pubblicazione: (2024)

In Pursuit of Pixel Supervision for Visual Pre-training
di: Yang, Lihe, et al.
Pubblicazione: (2025)

Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition
di: Lu, Feng, et al.
Pubblicazione: (2024)

From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs
di: Li, Mingxiao, et al.
Pubblicazione: (2025)

Scalable and Generalizable Correspondence Pruning via Geometry-Consistent Pre-training
di: Liao, Tangfei, et al.
Pubblicazione: (2024)

Advancing Pre-trained Teacher: Towards Robust Feature Discrepancy for Anomaly Detection
di: Tang, Canhui, et al.
Pubblicazione: (2024)

Empowering Functional Neuroimaging: A Pre-trained Generative Framework for Unified Representation of Neural Signals
di: Yao, Weiheng, et al.
Pubblicazione: (2025)

Continual Retinal Vision-Language Pre-training upon Incremental Imaging Modalities
di: Yao, Yuang, et al.
Pubblicazione: (2025)

Formula-Supervised Visual-Geometric Pre-training
di: Yamada, Ryosuke, et al.
Pubblicazione: (2024)

Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation
di: Wang, Yuqing, et al.
Pubblicazione: (2025)

Towards Fast, Memory-based and Data-Efficient Vision-Language Policy
di: Li, Haoxuan, et al.
Pubblicazione: (2025)

Visually Guided Generative Text-Layout Pre-training for Document Intelligence
di: Mao, Zhiming, et al.
Pubblicazione: (2024)

MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices
di: Zhang, Shuai, et al.
Pubblicazione: (2025)

SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild
di: Liu, Jiawei, et al.
Pubblicazione: (2025)

Salience-Based Adaptive Masking: Revisiting Token Dynamics for Enhanced Pre-training
di: Choi, Hyesong, et al.
Pubblicazione: (2024)

ELIP: Efficient Discriminative Language-Image Pre-training with Fewer Vision Tokens
di: Guo, Yangyang, et al.
Pubblicazione: (2023)

IRBridge: Solving Image Restoration Bridge with Pre-trained Generative Diffusion Models
di: Wang, Hanting, et al.
Pubblicazione: (2025)

Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs
di: Li, Qi, et al.
Pubblicazione: (2026)

Factorized Visual Tokenization and Generation
di: Bai, Zechen, et al.
Pubblicazione: (2024)

4D Visual Pre-training for Robot Learning
di: Hou, Chengkai, et al.
Pubblicazione: (2025)