:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Zhang, Qian, Zhang, Lin, Fang, Xing, Zhang, Mingxin, Wei, Zhiyuan, Song, Ran, Zhang, Wei
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2509.17074
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

General Flow as Foundation Affordance for Scalable Robot Learning
von: Yuan, Chengbo, et al.
Veröffentlicht: (2024)

Self-Explainable Affordance Learning with Embodied Caption
von: Zhang, Zhipeng, et al.
Veröffentlicht: (2024)

Re-Thinking the Automatic Evaluation of Image-Text Alignment in Text-to-Image Models
von: Zhang, Huixuan, et al.
Veröffentlicht: (2025)

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
von: Zhang, Yiming, et al.
Veröffentlicht: (2023)

Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
von: Zhang, Jielu, et al.
Veröffentlicht: (2023)

RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment
von: Zhuang, Qiyuan, et al.
Veröffentlicht: (2026)

Learning to Manipulate Artistic Images
von: Guo, Wei, et al.
Veröffentlicht: (2024)

Personalized Safety Alignment for Text-to-Image Diffusion Models
von: Lei, Yu, et al.
Veröffentlicht: (2025)

ELBO-T2IAlign: A Generic ELBO-Based Method for Calibrating Pixel-level Text-Image Alignment in Diffusion Models
von: Zhou, Qin, et al.
Veröffentlicht: (2025)

Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning
von: Zhang, Zijian, et al.
Veröffentlicht: (2024)

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation
von: Zheng, Anlin, et al.
Veröffentlicht: (2025)

LAGO: Language-Guided Adaptive Object-Region Focus for Zero-Shot Visual-Text Alignment
von: Hu, Junyi, et al.
Veröffentlicht: (2026)

Regeneration Based Training-free Attribution of Fake Images Generated by Text-to-Image Generative Models
von: Li, Meiling, et al.
Veröffentlicht: (2024)

Instant Preference Alignment for Text-to-Image Diffusion Models
von: Li, Yang, et al.
Veröffentlicht: (2025)

MCA-RG: Enhancing LLMs with Medical Concept Alignment for Radiology Report Generation
von: Xing, Qilong, et al.
Veröffentlicht: (2025)

DH-VTON: Deep Text-Driven Virtual Try-On via Hybrid Attention Learning
von: Wei, Jiabao, et al.
Veröffentlicht: (2024)

GEA: Generation-Enhanced Alignment for Text-to-Image Person Retrieval
von: Zou, Hao, et al.
Veröffentlicht: (2025)

Coarse-to-Fine Detection of Multiple Seams for Robotic Welding
von: Wei, Pengkun, et al.
Veröffentlicht: (2024)

Text-driven Affordance Learning from Egocentric Vision
von: Yoshida, Tomoya, et al.
Veröffentlicht: (2024)

Improving GFlowNets for Text-to-Image Diffusion Alignment
von: Zhang, Dinghuai, et al.
Veröffentlicht: (2024)

Synergistic Dual Spatial-aware Generation of Image-to-Text and Text-to-Image
von: Zhao, Yu, et al.
Veröffentlicht: (2024)

EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction
von: Yu, Wei, et al.
Veröffentlicht: (2026)

VisionCLIP: An Med-AIGC based Ethical Language-Image Foundation Model for Generalizable Retina Image Analysis
von: Wei, Hao, et al.
Veröffentlicht: (2024)

DGTRSD & DGTRS-CLIP: A Dual-Granularity Remote Sensing Image-Text Dataset and Vision Language Foundation Model for Alignment
von: Chen, Weizhi, et al.
Veröffentlicht: (2025)

ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation
von: Ma, Zhiyuan, et al.
Veröffentlicht: (2024)

A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis
von: Guan, Xianchao, et al.
Veröffentlicht: (2025)

SVGDreamer: Text Guided SVG Generation with Diffusion Model
von: Xing, Ximing, et al.
Veröffentlicht: (2023)

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey
von: Li, Jinxuan, et al.
Veröffentlicht: (2025)

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning
von: Fu, Ling, et al.
Veröffentlicht: (2024)

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
von: Tong, Chengzhuo, et al.
Veröffentlicht: (2026)

Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability
von: Zhu, Zhiyu, et al.
Veröffentlicht: (2025)

Visual Prompt Selection for In-Context Learning Segmentation
von: Suo, Wei, et al.
Veröffentlicht: (2024)

TFANet: Three-Stage Image-Text Feature Alignment Network for Robust Referring Image Segmentation
von: Lu, Qianqi, et al.
Veröffentlicht: (2025)

Curriculum Prompting Foundation Models for Medical Image Segmentation
von: Zheng, Xiuqi, et al.
Veröffentlicht: (2024)

Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
von: Song, Zhixue, et al.
Veröffentlicht: (2026)

DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models
von: Xing, Ximing, et al.
Veröffentlicht: (2023)

ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model
von: Zhang, Juntian, et al.
Veröffentlicht: (2025)

Impact of Noisy Supervision in Foundation Model Learning
von: Chen, Hao, et al.
Veröffentlicht: (2024)

Boosting Semi-Supervised Medical Image Segmentation via Masked Image Consistency and Discrepancy Learning
von: Zhou, Pengcheng, et al.
Veröffentlicht: (2025)

Semantic Is Enough: Only Semantic Information For NeRF Reconstruction
von: Wang, Ruibo, et al.
Veröffentlicht: (2024)