Salvato in:
| Autori principali: | Yao, Jingfeng, Song, Yuda, Zhou, Yucong, Wang, Xinggang |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2512.13687 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification
di: Yao, Jingfeng, et al.
Pubblicazione: (2024)
di: Yao, Jingfeng, et al.
Pubblicazione: (2024)
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
di: Yao, Jingfeng, et al.
Pubblicazione: (2025)
di: Yao, Jingfeng, et al.
Pubblicazione: (2025)
Matte Anything: Interactive Natural Image Matting with Segment Anything Models
di: Yao, Jingfeng, et al.
Pubblicazione: (2023)
di: Yao, Jingfeng, et al.
Pubblicazione: (2023)
Visual Generation Tuning
di: Guo, Jiahao, et al.
Pubblicazione: (2025)
di: Guo, Jiahao, et al.
Pubblicazione: (2025)
ViTGaze: Gaze Following with Interaction Features in Vision Transformers
di: Song, Yuehao, et al.
Pubblicazione: (2024)
di: Song, Yuehao, et al.
Pubblicazione: (2024)
EVA-X: A Foundation Model for General Chest X-ray Analysis with Self-supervised Learning
di: Yao, Jingfeng, et al.
Pubblicazione: (2024)
di: Yao, Jingfeng, et al.
Pubblicazione: (2024)
Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices
di: Zou, Ya, et al.
Pubblicazione: (2025)
di: Zou, Ya, et al.
Pubblicazione: (2025)
DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models
di: Zeng, Lunbin, et al.
Pubblicazione: (2025)
di: Zeng, Lunbin, et al.
Pubblicazione: (2025)
DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies
di: Song, Wei, et al.
Pubblicazione: (2025)
di: Song, Wei, et al.
Pubblicazione: (2025)
VILA: On Pre-training for Visual Language Models
di: Lin, Ji, et al.
Pubblicazione: (2023)
di: Lin, Ji, et al.
Pubblicazione: (2023)
2D Gaussians Meet Visual Tokenizer
di: Shi, Yiang, et al.
Pubblicazione: (2025)
di: Shi, Yiang, et al.
Pubblicazione: (2025)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
di: Jin, Yang, et al.
Pubblicazione: (2024)
di: Jin, Yang, et al.
Pubblicazione: (2024)
HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction
di: Long, Rujiao, et al.
Pubblicazione: (2024)
di: Long, Rujiao, et al.
Pubblicazione: (2024)
Visual Text Generation in the Wild
di: Zhu, Yuanzhi, et al.
Pubblicazione: (2024)
di: Zhu, Yuanzhi, et al.
Pubblicazione: (2024)
LKCell: Efficient Cell Nuclei Instance Segmentation with Large Convolution Kernels
di: Cui, Ziwei, et al.
Pubblicazione: (2024)
di: Cui, Ziwei, et al.
Pubblicazione: (2024)
Towards Scalable Language-Image Pre-training for 3D Medical Imaging
di: Zhao, Chenhui, et al.
Pubblicazione: (2025)
di: Zhao, Chenhui, et al.
Pubblicazione: (2025)
ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
di: Xue, Le, et al.
Pubblicazione: (2023)
di: Xue, Le, et al.
Pubblicazione: (2023)
Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration
di: Dudhane, Akshay, et al.
Pubblicazione: (2024)
di: Dudhane, Akshay, et al.
Pubblicazione: (2024)
DriveLaW:Unifying Planning and Video Generation in a Latent Driving World
di: Xia, Tianze, et al.
Pubblicazione: (2025)
di: Xia, Tianze, et al.
Pubblicazione: (2025)
Emerging Property of Masked Token for Effective Pre-training
di: Choi, Hyesong, et al.
Pubblicazione: (2024)
di: Choi, Hyesong, et al.
Pubblicazione: (2024)
Scalable Pre-training of Large Autoregressive Image Models
di: El-Nouby, Alaaeldin, et al.
Pubblicazione: (2024)
di: El-Nouby, Alaaeldin, et al.
Pubblicazione: (2024)
In Pursuit of Pixel Supervision for Visual Pre-training
di: Yang, Lihe, et al.
Pubblicazione: (2025)
di: Yang, Lihe, et al.
Pubblicazione: (2025)
Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition
di: Lu, Feng, et al.
Pubblicazione: (2024)
di: Lu, Feng, et al.
Pubblicazione: (2024)
From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs
di: Li, Mingxiao, et al.
Pubblicazione: (2025)
di: Li, Mingxiao, et al.
Pubblicazione: (2025)
Scalable and Generalizable Correspondence Pruning via Geometry-Consistent Pre-training
di: Liao, Tangfei, et al.
Pubblicazione: (2024)
di: Liao, Tangfei, et al.
Pubblicazione: (2024)
Advancing Pre-trained Teacher: Towards Robust Feature Discrepancy for Anomaly Detection
di: Tang, Canhui, et al.
Pubblicazione: (2024)
di: Tang, Canhui, et al.
Pubblicazione: (2024)
Empowering Functional Neuroimaging: A Pre-trained Generative Framework for Unified Representation of Neural Signals
di: Yao, Weiheng, et al.
Pubblicazione: (2025)
di: Yao, Weiheng, et al.
Pubblicazione: (2025)
Continual Retinal Vision-Language Pre-training upon Incremental Imaging Modalities
di: Yao, Yuang, et al.
Pubblicazione: (2025)
di: Yao, Yuang, et al.
Pubblicazione: (2025)
Formula-Supervised Visual-Geometric Pre-training
di: Yamada, Ryosuke, et al.
Pubblicazione: (2024)
di: Yamada, Ryosuke, et al.
Pubblicazione: (2024)
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation
di: Wang, Yuqing, et al.
Pubblicazione: (2025)
di: Wang, Yuqing, et al.
Pubblicazione: (2025)
Towards Fast, Memory-based and Data-Efficient Vision-Language Policy
di: Li, Haoxuan, et al.
Pubblicazione: (2025)
di: Li, Haoxuan, et al.
Pubblicazione: (2025)
Visually Guided Generative Text-Layout Pre-training for Document Intelligence
di: Mao, Zhiming, et al.
Pubblicazione: (2024)
di: Mao, Zhiming, et al.
Pubblicazione: (2024)
MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices
di: Zhang, Shuai, et al.
Pubblicazione: (2025)
di: Zhang, Shuai, et al.
Pubblicazione: (2025)
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild
di: Liu, Jiawei, et al.
Pubblicazione: (2025)
di: Liu, Jiawei, et al.
Pubblicazione: (2025)
Salience-Based Adaptive Masking: Revisiting Token Dynamics for Enhanced Pre-training
di: Choi, Hyesong, et al.
Pubblicazione: (2024)
di: Choi, Hyesong, et al.
Pubblicazione: (2024)
ELIP: Efficient Discriminative Language-Image Pre-training with Fewer Vision Tokens
di: Guo, Yangyang, et al.
Pubblicazione: (2023)
di: Guo, Yangyang, et al.
Pubblicazione: (2023)
IRBridge: Solving Image Restoration Bridge with Pre-trained Generative Diffusion Models
di: Wang, Hanting, et al.
Pubblicazione: (2025)
di: Wang, Hanting, et al.
Pubblicazione: (2025)
Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs
di: Li, Qi, et al.
Pubblicazione: (2026)
di: Li, Qi, et al.
Pubblicazione: (2026)
Factorized Visual Tokenization and Generation
di: Bai, Zechen, et al.
Pubblicazione: (2024)
di: Bai, Zechen, et al.
Pubblicazione: (2024)
4D Visual Pre-training for Robot Learning
di: Hou, Chengkai, et al.
Pubblicazione: (2025)
di: Hou, Chengkai, et al.
Pubblicazione: (2025)
Documenti analoghi
-
FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification
di: Yao, Jingfeng, et al.
Pubblicazione: (2024) -
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
di: Yao, Jingfeng, et al.
Pubblicazione: (2025) -
Matte Anything: Interactive Natural Image Matting with Segment Anything Models
di: Yao, Jingfeng, et al.
Pubblicazione: (2023) -
Visual Generation Tuning
di: Guo, Jiahao, et al.
Pubblicazione: (2025) -
ViTGaze: Gaze Following with Interaction Features in Vision Transformers
di: Song, Yuehao, et al.
Pubblicazione: (2024)