:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Yue, Kaiyu, Jia, Menglin, Hou, Ji, Goldstein, Tom
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2602.15030
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Zero-Shot Vision Encoder Grafting via LLM Surrogates
par: Yue, Kaiyu, et autres
Publié: (2025)

Efficient Image Synthesis with Sphere Latent Encoder
par: Do, Tung, et autres
Publié: (2026)

Object Recognition as Next Token Prediction
par: Yue, Kaiyu, et autres
Publié: (2023)

From Pixels to Prose: A Large Dataset of Dense Image Captions
par: Singla, Vasu, et autres
Publié: (2024)

Language-Image Alignment with Fixed Text Encoders
par: Yang, Jingfeng, et autres
Publié: (2025)

FlowBypass: Rectified Flow Trajectory Bypass for Training-Free Image Editing
par: Han, Menglin, et autres
Publié: (2026)

UNIT: Unifying Image and Text Recognition in One Vision Encoder
par: Zhu, Yi, et autres
Publié: (2024)

Flow Matching Posterior Sampling: A Training-free Conditional Generation for Flow Matching
par: Song, Kaiyu, et autres
Publié: (2024)

General Vision Encoder Features as Guidance in Medical Image Registration
par: Kögl, Fryderyk, et autres
Publié: (2024)

Modality-Aware Bias Mitigation and Invariance Learning for Unsupervised Visible-Infrared Person Re-Identification
par: Wang, Menglin, et autres
Publié: (2025)

Prior-Constrained Association Learning for Fine-Grained Generalized Category Discovery
par: Wang, Menglin, et autres
Publié: (2025)

Encoder-Only Image Registration
par: Chen, Xiang, et autres
Publié: (2025)

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders
par: Kou, Siqi, et autres
Publié: (2026)

FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges
par: Hayes, Kevin David, et autres
Publié: (2025)

TextBoost: Boosting Text Encoder for Personalized Text-to-Image Generation
par: Park, NaHyeon, et autres
Publié: (2024)

Semantically Robust Unsupervised Image Translation for Paired Remote Sensing Images
par: Fang, Sheng, et autres
Publié: (2025)

Text-Guided Semantic Image Encoder
par: Thirukovalluru, Raghuveer, et autres
Publié: (2025)

IDProtector: An Adversarial Noise Encoder to Protect Against ID-Preserving Image Generation
par: Song, Yiren, et autres
Publié: (2024)

Vision-Based Localization in Dense Urban Environments: A Case Study of an Urban Village in China
par: Wu, Menglin, et autres
Publié: (2026)

MobileDiffusion: Instant Text-to-Image Generation on Mobile Devices
par: Zhao, Yang, et autres
Publié: (2023)

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
par: Cai, Yuanhao, et autres
Publié: (2025)

Patch-enhanced Mask Encoder Prompt Image Generation
par: Xu, Shusong, et autres
Publié: (2024)

General Purpose Image Encoder DINOv2 for Medical Image Registration
par: Song, Xinrui, et autres
Publié: (2024)

Topology Sculptor, Shape Refiner: Discrete Diffusion Model for High-Fidelity 3D Meshes Generation
par: Song, Kaiyu, et autres
Publié: (2025)

Adaptive Caching for Faster Video Generation with Diffusion Transformers
par: Kahatapitiya, Kumara, et autres
Publié: (2024)

Rethinking Oversaturation in Classifier-Free Guidance via Low Frequency
par: Song, Kaiyu, et autres
Publié: (2025)

Leveraging Previous Steps: A Training-free Fast Solver for Flow Diffusion
par: Song, Kaiyu, et autres
Publié: (2024)

Improving Training-free Conditional Diffusion Model via Fisher Information
par: Song, Kaiyu, et autres
Publié: (2024)

Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning
par: Li, Ang, et autres
Publié: (2025)

Neural Light Spheres for Implicit Image Stitching and View Synthesis
par: Chugunov, Ilya, et autres
Publié: (2024)

SphereDrag: Spherical Geometry-Aware Panoramic Image Editing
par: Feng, Zhiao, et autres
Publié: (2025)

Analysis of Attention in Video Diffusion Transformers
par: Wen, Yuxin, et autres
Publié: (2025)

ARGUS: Hallucination and Omission Evaluation in Video-LLMs
par: Rawal, Ruchit, et autres
Publié: (2025)

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing
par: Zhang, Shilong, et autres
Publié: (2025)

Covariance Descriptors Meet General Vision Encoders: Riemannian Deep Learning for Medical Image Classification
par: Mayr, Josef, et autres
Publié: (2025)

PromptFusion: Decoupling Stability and Plasticity for Continual Learning
par: Chen, Haoran, et autres
Publié: (2023)

Latent Enhancing AutoEncoder for Occluded Image Classification
par: Kotwal, Ketan, et autres
Publié: (2024)

Breaking the Encoder Barrier for Seamless Video-Language Understanding
par: Li, Handong, et autres
Publié: (2025)

Video Prediction Models as General Visual Encoders
par: Maier, James, et autres
Publié: (2024)

TABLET: Table Structure Recognition using Encoder-only Transformers
par: Hou, Qiyu, et autres
Publié: (2025)