Enregistré dans:
| Auteurs principaux: | Yue, Kaiyu, Jia, Menglin, Hou, Ji, Goldstein, Tom |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2602.15030 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Zero-Shot Vision Encoder Grafting via LLM Surrogates
par: Yue, Kaiyu, et autres
Publié: (2025)
par: Yue, Kaiyu, et autres
Publié: (2025)
Efficient Image Synthesis with Sphere Latent Encoder
par: Do, Tung, et autres
Publié: (2026)
par: Do, Tung, et autres
Publié: (2026)
Object Recognition as Next Token Prediction
par: Yue, Kaiyu, et autres
Publié: (2023)
par: Yue, Kaiyu, et autres
Publié: (2023)
From Pixels to Prose: A Large Dataset of Dense Image Captions
par: Singla, Vasu, et autres
Publié: (2024)
par: Singla, Vasu, et autres
Publié: (2024)
Language-Image Alignment with Fixed Text Encoders
par: Yang, Jingfeng, et autres
Publié: (2025)
par: Yang, Jingfeng, et autres
Publié: (2025)
FlowBypass: Rectified Flow Trajectory Bypass for Training-Free Image Editing
par: Han, Menglin, et autres
Publié: (2026)
par: Han, Menglin, et autres
Publié: (2026)
UNIT: Unifying Image and Text Recognition in One Vision Encoder
par: Zhu, Yi, et autres
Publié: (2024)
par: Zhu, Yi, et autres
Publié: (2024)
Flow Matching Posterior Sampling: A Training-free Conditional Generation for Flow Matching
par: Song, Kaiyu, et autres
Publié: (2024)
par: Song, Kaiyu, et autres
Publié: (2024)
General Vision Encoder Features as Guidance in Medical Image Registration
par: Kögl, Fryderyk, et autres
Publié: (2024)
par: Kögl, Fryderyk, et autres
Publié: (2024)
Modality-Aware Bias Mitigation and Invariance Learning for Unsupervised Visible-Infrared Person Re-Identification
par: Wang, Menglin, et autres
Publié: (2025)
par: Wang, Menglin, et autres
Publié: (2025)
Prior-Constrained Association Learning for Fine-Grained Generalized Category Discovery
par: Wang, Menglin, et autres
Publié: (2025)
par: Wang, Menglin, et autres
Publié: (2025)
Encoder-Only Image Registration
par: Chen, Xiang, et autres
Publié: (2025)
par: Chen, Xiang, et autres
Publié: (2025)
Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders
par: Kou, Siqi, et autres
Publié: (2026)
par: Kou, Siqi, et autres
Publié: (2026)
FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges
par: Hayes, Kevin David, et autres
Publié: (2025)
par: Hayes, Kevin David, et autres
Publié: (2025)
TextBoost: Boosting Text Encoder for Personalized Text-to-Image Generation
par: Park, NaHyeon, et autres
Publié: (2024)
par: Park, NaHyeon, et autres
Publié: (2024)
Semantically Robust Unsupervised Image Translation for Paired Remote Sensing Images
par: Fang, Sheng, et autres
Publié: (2025)
par: Fang, Sheng, et autres
Publié: (2025)
Text-Guided Semantic Image Encoder
par: Thirukovalluru, Raghuveer, et autres
Publié: (2025)
par: Thirukovalluru, Raghuveer, et autres
Publié: (2025)
IDProtector: An Adversarial Noise Encoder to Protect Against ID-Preserving Image Generation
par: Song, Yiren, et autres
Publié: (2024)
par: Song, Yiren, et autres
Publié: (2024)
Vision-Based Localization in Dense Urban Environments: A Case Study of an Urban Village in China
par: Wu, Menglin, et autres
Publié: (2026)
par: Wu, Menglin, et autres
Publié: (2026)
MobileDiffusion: Instant Text-to-Image Generation on Mobile Devices
par: Zhao, Yang, et autres
Publié: (2023)
par: Zhao, Yang, et autres
Publié: (2023)
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
par: Cai, Yuanhao, et autres
Publié: (2025)
par: Cai, Yuanhao, et autres
Publié: (2025)
Patch-enhanced Mask Encoder Prompt Image Generation
par: Xu, Shusong, et autres
Publié: (2024)
par: Xu, Shusong, et autres
Publié: (2024)
General Purpose Image Encoder DINOv2 for Medical Image Registration
par: Song, Xinrui, et autres
Publié: (2024)
par: Song, Xinrui, et autres
Publié: (2024)
Topology Sculptor, Shape Refiner: Discrete Diffusion Model for High-Fidelity 3D Meshes Generation
par: Song, Kaiyu, et autres
Publié: (2025)
par: Song, Kaiyu, et autres
Publié: (2025)
Adaptive Caching for Faster Video Generation with Diffusion Transformers
par: Kahatapitiya, Kumara, et autres
Publié: (2024)
par: Kahatapitiya, Kumara, et autres
Publié: (2024)
Rethinking Oversaturation in Classifier-Free Guidance via Low Frequency
par: Song, Kaiyu, et autres
Publié: (2025)
par: Song, Kaiyu, et autres
Publié: (2025)
Leveraging Previous Steps: A Training-free Fast Solver for Flow Diffusion
par: Song, Kaiyu, et autres
Publié: (2024)
par: Song, Kaiyu, et autres
Publié: (2024)
Improving Training-free Conditional Diffusion Model via Fisher Information
par: Song, Kaiyu, et autres
Publié: (2024)
par: Song, Kaiyu, et autres
Publié: (2024)
Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning
par: Li, Ang, et autres
Publié: (2025)
par: Li, Ang, et autres
Publié: (2025)
Neural Light Spheres for Implicit Image Stitching and View Synthesis
par: Chugunov, Ilya, et autres
Publié: (2024)
par: Chugunov, Ilya, et autres
Publié: (2024)
SphereDrag: Spherical Geometry-Aware Panoramic Image Editing
par: Feng, Zhiao, et autres
Publié: (2025)
par: Feng, Zhiao, et autres
Publié: (2025)
Analysis of Attention in Video Diffusion Transformers
par: Wen, Yuxin, et autres
Publié: (2025)
par: Wen, Yuxin, et autres
Publié: (2025)
ARGUS: Hallucination and Omission Evaluation in Video-LLMs
par: Rawal, Ruchit, et autres
Publié: (2025)
par: Rawal, Ruchit, et autres
Publié: (2025)
Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing
par: Zhang, Shilong, et autres
Publié: (2025)
par: Zhang, Shilong, et autres
Publié: (2025)
Covariance Descriptors Meet General Vision Encoders: Riemannian Deep Learning for Medical Image Classification
par: Mayr, Josef, et autres
Publié: (2025)
par: Mayr, Josef, et autres
Publié: (2025)
PromptFusion: Decoupling Stability and Plasticity for Continual Learning
par: Chen, Haoran, et autres
Publié: (2023)
par: Chen, Haoran, et autres
Publié: (2023)
Latent Enhancing AutoEncoder for Occluded Image Classification
par: Kotwal, Ketan, et autres
Publié: (2024)
par: Kotwal, Ketan, et autres
Publié: (2024)
Breaking the Encoder Barrier for Seamless Video-Language Understanding
par: Li, Handong, et autres
Publié: (2025)
par: Li, Handong, et autres
Publié: (2025)
Video Prediction Models as General Visual Encoders
par: Maier, James, et autres
Publié: (2024)
par: Maier, James, et autres
Publié: (2024)
TABLET: Table Structure Recognition using Encoder-only Transformers
par: Hou, Qiyu, et autres
Publié: (2025)
par: Hou, Qiyu, et autres
Publié: (2025)
Documents similaires
-
Zero-Shot Vision Encoder Grafting via LLM Surrogates
par: Yue, Kaiyu, et autres
Publié: (2025) -
Efficient Image Synthesis with Sphere Latent Encoder
par: Do, Tung, et autres
Publié: (2026) -
Object Recognition as Next Token Prediction
par: Yue, Kaiyu, et autres
Publié: (2023) -
From Pixels to Prose: A Large Dataset of Dense Image Captions
par: Singla, Vasu, et autres
Publié: (2024) -
Language-Image Alignment with Fixed Text Encoders
par: Yang, Jingfeng, et autres
Publié: (2025)