:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Grimal, Paul, Borgne, Hervé Le, Ferret, Olivier
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2504.17525
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

TIAM -- A Metric for Evaluating Alignment in Text-to-Image Generation
by: Grimal, Paul, et al.
Published: (2023)

SAGA: Learning Signal-Aligned Distributions for Improved Text-to-Image Generation
by: Grimal, Paul, et al.
Published: (2025)

Automatic Die Studies for Ancient Numismatics
by: Cornet, Clément, et al.
Published: (2024)

Step Saver: Predicting Minimum Denoising Steps for Diffusion Model Image Generation
by: Yu, Jean, et al.
Published: (2024)

Explaining How Visual, Textual and Multimodal Encoders Share Concepts
by: Cornet, Clément, et al.
Published: (2025)

Smooth Pseudo-Labeling
by: Karaliolios, Nikolaos, et al.
Published: (2024)

Reliable and Reproducible Demographic Inference for Fairness in Face Analysis
by: Fournier-Montgieux, Alexandre, et al.
Published: (2025)

Denoising Diffusion Step-aware Models
by: Yang, Shuai, et al.
Published: (2023)

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation
by: Hu, Zijing, et al.
Published: (2025)

Continual Learning for Image Captioning through Improved Image-Text Alignment
by: Taetz, Bertram, et al.
Published: (2025)

Fairer Analysis and Demographically Balanced Face Generation for Fairer Face Verification
by: Fournier-Montgieux, Alexandre, et al.
Published: (2024)

Toward Fairer Face Recognition Datasets
by: Fournier-Montgieux, Alexandre, et al.
Published: (2024)

ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only
by: Lahlali, Saad, et al.
Published: (2024)

MVAT: Multi-View Aware Teacher for Weakly Supervised 3D Object Detection
by: Lahlali, Saad, et al.
Published: (2025)

Step-level Denoising-time Diffusion Alignment with Multiple Objectives
by: Zhang, Qi, et al.
Published: (2026)

TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency
by: Wang, Juntong, et al.
Published: (2025)

Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
by: Xie, Xing, et al.
Published: (2025)

CaMiT: A Time-Aware Car Model Dataset for Classification and Generation
by: LIN, Frédéric, et al.
Published: (2025)

Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models
by: Zhang, Yasi, et al.
Published: (2024)

TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models
by: Deutch, Gilad, et al.
Published: (2024)

PiCo: Enhancing Text-Image Alignment with Improved Noise Selection and Precise Mask Control in Diffusion Models
by: Xie, Chang, et al.
Published: (2025)

Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment
by: Du, Zhenbang, et al.
Published: (2025)

AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models
by: Lee, Seunghoon, et al.
Published: (2025)

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
by: Ma, Nanye, et al.
Published: (2025)

AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image Models
by: Agarwal, Aishwarya, et al.
Published: (2024)

Latent Denoising Improves Visual Alignment in Large Multimodal Models
by: Parikh, Dhruv, et al.
Published: (2026)

Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through $f$-divergence Minimization
by: Sun, Haoyuan, et al.
Published: (2024)

One-Step Image Translation with Text-to-Image Models
by: Parmar, Gaurav, et al.
Published: (2024)

Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score
by: Israr, Syed Muhmmad, et al.
Published: (2025)

Denoising Diffusion via Image-Based Rendering
by: Anciukevičius, Titas, et al.
Published: (2024)

xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion
by: Lahlali, Saad, et al.
Published: (2025)

ReAlign: Text-to-Motion Generation via Step-Aware Reward-Guided Alignment
by: Weng, Wanjiang, et al.
Published: (2025)

Denoise-then-Retrieve: Text-Conditioned Video Denoising for Video Moment Retrieval
by: Liu, Weijia, et al.
Published: (2025)

Language-Image Alignment with Fixed Text Encoders
by: Yang, Jingfeng, et al.
Published: (2025)

Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment
by: Ba, Ying, et al.
Published: (2025)

VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing
by: Liu, Shang, et al.
Published: (2024)

Self-Corrected Flow Distillation for Consistent One-Step and Few-Step Text-to-Image Generation
by: Dao, Quan, et al.
Published: (2024)

Extending CLIP's Image-Text Alignment to Referring Image Segmentation
by: Kim, Seoyeon, et al.
Published: (2023)

SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation
by: Nguyen, Thuan Hoang, et al.
Published: (2023)

Re-Thinking the Automatic Evaluation of Image-Text Alignment in Text-to-Image Models
by: Zhang, Huixuan, et al.
Published: (2025)