Gespeichert in:
| Hauptverfasser: | Zhang, Qian, Zhang, Lin, Fang, Xing, Zhang, Mingxin, Wei, Zhiyuan, Song, Ran, Zhang, Wei |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2509.17074 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
General Flow as Foundation Affordance for Scalable Robot Learning
von: Yuan, Chengbo, et al.
Veröffentlicht: (2024)
von: Yuan, Chengbo, et al.
Veröffentlicht: (2024)
Self-Explainable Affordance Learning with Embodied Caption
von: Zhang, Zhipeng, et al.
Veröffentlicht: (2024)
von: Zhang, Zhipeng, et al.
Veröffentlicht: (2024)
Re-Thinking the Automatic Evaluation of Image-Text Alignment in Text-to-Image Models
von: Zhang, Huixuan, et al.
Veröffentlicht: (2025)
von: Zhang, Huixuan, et al.
Veröffentlicht: (2025)
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
von: Zhang, Yiming, et al.
Veröffentlicht: (2023)
von: Zhang, Yiming, et al.
Veröffentlicht: (2023)
Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
von: Zhang, Jielu, et al.
Veröffentlicht: (2023)
von: Zhang, Jielu, et al.
Veröffentlicht: (2023)
RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment
von: Zhuang, Qiyuan, et al.
Veröffentlicht: (2026)
von: Zhuang, Qiyuan, et al.
Veröffentlicht: (2026)
Learning to Manipulate Artistic Images
von: Guo, Wei, et al.
Veröffentlicht: (2024)
von: Guo, Wei, et al.
Veröffentlicht: (2024)
Personalized Safety Alignment for Text-to-Image Diffusion Models
von: Lei, Yu, et al.
Veröffentlicht: (2025)
von: Lei, Yu, et al.
Veröffentlicht: (2025)
ELBO-T2IAlign: A Generic ELBO-Based Method for Calibrating Pixel-level Text-Image Alignment in Diffusion Models
von: Zhou, Qin, et al.
Veröffentlicht: (2025)
von: Zhou, Qin, et al.
Veröffentlicht: (2025)
Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning
von: Zhang, Zijian, et al.
Veröffentlicht: (2024)
von: Zhang, Zijian, et al.
Veröffentlicht: (2024)
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation
von: Zheng, Anlin, et al.
Veröffentlicht: (2025)
von: Zheng, Anlin, et al.
Veröffentlicht: (2025)
LAGO: Language-Guided Adaptive Object-Region Focus for Zero-Shot Visual-Text Alignment
von: Hu, Junyi, et al.
Veröffentlicht: (2026)
von: Hu, Junyi, et al.
Veröffentlicht: (2026)
Regeneration Based Training-free Attribution of Fake Images Generated by Text-to-Image Generative Models
von: Li, Meiling, et al.
Veröffentlicht: (2024)
von: Li, Meiling, et al.
Veröffentlicht: (2024)
Instant Preference Alignment for Text-to-Image Diffusion Models
von: Li, Yang, et al.
Veröffentlicht: (2025)
von: Li, Yang, et al.
Veröffentlicht: (2025)
MCA-RG: Enhancing LLMs with Medical Concept Alignment for Radiology Report Generation
von: Xing, Qilong, et al.
Veröffentlicht: (2025)
von: Xing, Qilong, et al.
Veröffentlicht: (2025)
DH-VTON: Deep Text-Driven Virtual Try-On via Hybrid Attention Learning
von: Wei, Jiabao, et al.
Veröffentlicht: (2024)
von: Wei, Jiabao, et al.
Veröffentlicht: (2024)
GEA: Generation-Enhanced Alignment for Text-to-Image Person Retrieval
von: Zou, Hao, et al.
Veröffentlicht: (2025)
von: Zou, Hao, et al.
Veröffentlicht: (2025)
Coarse-to-Fine Detection of Multiple Seams for Robotic Welding
von: Wei, Pengkun, et al.
Veröffentlicht: (2024)
von: Wei, Pengkun, et al.
Veröffentlicht: (2024)
Text-driven Affordance Learning from Egocentric Vision
von: Yoshida, Tomoya, et al.
Veröffentlicht: (2024)
von: Yoshida, Tomoya, et al.
Veröffentlicht: (2024)
Improving GFlowNets for Text-to-Image Diffusion Alignment
von: Zhang, Dinghuai, et al.
Veröffentlicht: (2024)
von: Zhang, Dinghuai, et al.
Veröffentlicht: (2024)
Synergistic Dual Spatial-aware Generation of Image-to-Text and Text-to-Image
von: Zhao, Yu, et al.
Veröffentlicht: (2024)
von: Zhao, Yu, et al.
Veröffentlicht: (2024)
EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction
von: Yu, Wei, et al.
Veröffentlicht: (2026)
von: Yu, Wei, et al.
Veröffentlicht: (2026)
VisionCLIP: An Med-AIGC based Ethical Language-Image Foundation Model for Generalizable Retina Image Analysis
von: Wei, Hao, et al.
Veröffentlicht: (2024)
von: Wei, Hao, et al.
Veröffentlicht: (2024)
DGTRSD & DGTRS-CLIP: A Dual-Granularity Remote Sensing Image-Text Dataset and Vision Language Foundation Model for Alignment
von: Chen, Weizhi, et al.
Veröffentlicht: (2025)
von: Chen, Weizhi, et al.
Veröffentlicht: (2025)
ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation
von: Ma, Zhiyuan, et al.
Veröffentlicht: (2024)
von: Ma, Zhiyuan, et al.
Veröffentlicht: (2024)
A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis
von: Guan, Xianchao, et al.
Veröffentlicht: (2025)
von: Guan, Xianchao, et al.
Veröffentlicht: (2025)
SVGDreamer: Text Guided SVG Generation with Diffusion Model
von: Xing, Ximing, et al.
Veröffentlicht: (2023)
von: Xing, Ximing, et al.
Veröffentlicht: (2023)
Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey
von: Li, Jinxuan, et al.
Veröffentlicht: (2025)
von: Li, Jinxuan, et al.
Veröffentlicht: (2025)
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning
von: Fu, Ling, et al.
Veröffentlicht: (2024)
von: Fu, Ling, et al.
Veröffentlicht: (2024)
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
von: Tong, Chengzhuo, et al.
Veröffentlicht: (2026)
von: Tong, Chengzhuo, et al.
Veröffentlicht: (2026)
Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability
von: Zhu, Zhiyu, et al.
Veröffentlicht: (2025)
von: Zhu, Zhiyu, et al.
Veröffentlicht: (2025)
Visual Prompt Selection for In-Context Learning Segmentation
von: Suo, Wei, et al.
Veröffentlicht: (2024)
von: Suo, Wei, et al.
Veröffentlicht: (2024)
TFANet: Three-Stage Image-Text Feature Alignment Network for Robust Referring Image Segmentation
von: Lu, Qianqi, et al.
Veröffentlicht: (2025)
von: Lu, Qianqi, et al.
Veröffentlicht: (2025)
Curriculum Prompting Foundation Models for Medical Image Segmentation
von: Zheng, Xiuqi, et al.
Veröffentlicht: (2024)
von: Zheng, Xiuqi, et al.
Veröffentlicht: (2024)
Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
von: Song, Zhixue, et al.
Veröffentlicht: (2026)
von: Song, Zhixue, et al.
Veröffentlicht: (2026)
DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models
von: Xing, Ximing, et al.
Veröffentlicht: (2023)
von: Xing, Ximing, et al.
Veröffentlicht: (2023)
ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model
von: Zhang, Juntian, et al.
Veröffentlicht: (2025)
von: Zhang, Juntian, et al.
Veröffentlicht: (2025)
Impact of Noisy Supervision in Foundation Model Learning
von: Chen, Hao, et al.
Veröffentlicht: (2024)
von: Chen, Hao, et al.
Veröffentlicht: (2024)
Boosting Semi-Supervised Medical Image Segmentation via Masked Image Consistency and Discrepancy Learning
von: Zhou, Pengcheng, et al.
Veröffentlicht: (2025)
von: Zhou, Pengcheng, et al.
Veröffentlicht: (2025)
Semantic Is Enough: Only Semantic Information For NeRF Reconstruction
von: Wang, Ruibo, et al.
Veröffentlicht: (2024)
von: Wang, Ruibo, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
General Flow as Foundation Affordance for Scalable Robot Learning
von: Yuan, Chengbo, et al.
Veröffentlicht: (2024) -
Self-Explainable Affordance Learning with Embodied Caption
von: Zhang, Zhipeng, et al.
Veröffentlicht: (2024) -
Re-Thinking the Automatic Evaluation of Image-Text Alignment in Text-to-Image Models
von: Zhang, Huixuan, et al.
Veröffentlicht: (2025) -
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
von: Zhang, Yiming, et al.
Veröffentlicht: (2023) -
Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
von: Zhang, Jielu, et al.
Veröffentlicht: (2023)