Salvato in:
| Autori principali: | Li, Mingyang, Yuan, Maoqin, Li, Luyao, Pengsihua, Han |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2402.18849 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval
di: Liu, Delong, et al.
Pubblicazione: (2023)
di: Liu, Delong, et al.
Pubblicazione: (2023)
Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)
di: Saxon, Michael, et al.
Pubblicazione: (2024)
di: Saxon, Michael, et al.
Pubblicazione: (2024)
LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP
di: Chen, Danlu, et al.
Pubblicazione: (2024)
di: Chen, Danlu, et al.
Pubblicazione: (2024)
MINOS: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text
di: Zhang, Junzhe, et al.
Pubblicazione: (2025)
di: Zhang, Junzhe, et al.
Pubblicazione: (2025)
Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions
di: Su, Junhao, et al.
Pubblicazione: (2025)
di: Su, Junhao, et al.
Pubblicazione: (2025)
Re-Thinking the Automatic Evaluation of Image-Text Alignment in Text-to-Image Models
di: Zhang, Huixuan, et al.
Pubblicazione: (2025)
di: Zhang, Huixuan, et al.
Pubblicazione: (2025)
From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs
di: Liu, Yulong, et al.
Pubblicazione: (2024)
di: Liu, Yulong, et al.
Pubblicazione: (2024)
Multi-Modal Language Models as Text-to-Image Model Evaluators
di: Chen, Jiahui, et al.
Pubblicazione: (2025)
di: Chen, Jiahui, et al.
Pubblicazione: (2025)
More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding
di: Tang, Yuan, et al.
Pubblicazione: (2024)
di: Tang, Yuan, et al.
Pubblicazione: (2024)
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective
di: Zhu, Xiangru, et al.
Pubblicazione: (2024)
di: Zhu, Xiangru, et al.
Pubblicazione: (2024)
TempViz: On the Evaluation of Temporal Knowledge in Text-to-Image Models
di: Holtermann, Carolin, et al.
Pubblicazione: (2026)
di: Holtermann, Carolin, et al.
Pubblicazione: (2026)
Enhancing Vision Models for Text-Heavy Content Understanding and Interaction
di: TG, Adithya, et al.
Pubblicazione: (2024)
di: TG, Adithya, et al.
Pubblicazione: (2024)
DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models
di: Ventura, Mor, et al.
Pubblicazione: (2025)
di: Ventura, Mor, et al.
Pubblicazione: (2025)
Medical Image Synthesis via Fine-Grained Image-Text Alignment and Anatomy-Pathology Prompting
di: Chen, Wenting, et al.
Pubblicazione: (2024)
di: Chen, Wenting, et al.
Pubblicazione: (2024)
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
di: Jiang, Dongzhi, et al.
Pubblicazione: (2024)
di: Jiang, Dongzhi, et al.
Pubblicazione: (2024)
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
di: Lin, Bin, et al.
Pubblicazione: (2025)
di: Lin, Bin, et al.
Pubblicazione: (2025)
Mitigating Multilingual Hallucination in Large Vision-Language Models
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)
OSCBench: Benchmarking Object State Change in Text-to-Video Generation
di: Han, Xianjing, et al.
Pubblicazione: (2026)
di: Han, Xianjing, et al.
Pubblicazione: (2026)
CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics
di: Nayak, Shravan, et al.
Pubblicazione: (2025)
di: Nayak, Shravan, et al.
Pubblicazione: (2025)
Benchmarking and Enhancing Text-to-Image Models for Generating Visual Representations in Early Arithmetic Education
di: Wang, Junling, et al.
Pubblicazione: (2026)
di: Wang, Junling, et al.
Pubblicazione: (2026)
Holistic Evaluation for Interleaved Text-and-Image Generation
di: Liu, Minqian, et al.
Pubblicazione: (2024)
di: Liu, Minqian, et al.
Pubblicazione: (2024)
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
di: Li, Jialu, et al.
Pubblicazione: (2025)
di: Li, Jialu, et al.
Pubblicazione: (2025)
Fine-Grained Image-Text Alignment in Medical Imaging Enables Explainable Cyclic Image-Report Generation
di: Chen, Wenting, et al.
Pubblicazione: (2023)
di: Chen, Wenting, et al.
Pubblicazione: (2023)
Evaluating Text-to-Visual Generation with Image-to-Text Generation
di: Lin, Zhiqiu, et al.
Pubblicazione: (2024)
di: Lin, Zhiqiu, et al.
Pubblicazione: (2024)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion
di: Lv, Zheqi, et al.
Pubblicazione: (2025)
di: Lv, Zheqi, et al.
Pubblicazione: (2025)
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
di: Jiang, Chen, et al.
Pubblicazione: (2023)
di: Jiang, Chen, et al.
Pubblicazione: (2023)
Translation-Enhanced Multilingual Text-to-Image Generation
di: Li, Yaoyiran, et al.
Pubblicazione: (2023)
di: Li, Yaoyiran, et al.
Pubblicazione: (2023)
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology
di: Wang, Haochen, et al.
Pubblicazione: (2025)
di: Wang, Haochen, et al.
Pubblicazione: (2025)
TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment
di: Li, Wei, et al.
Pubblicazione: (2024)
di: Li, Wei, et al.
Pubblicazione: (2024)
Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?
di: Li, Xiujun, et al.
Pubblicazione: (2023)
di: Li, Xiujun, et al.
Pubblicazione: (2023)
SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation
di: Kendre, Shrikant, et al.
Pubblicazione: (2025)
di: Kendre, Shrikant, et al.
Pubblicazione: (2025)
Brain-CLIPLM: Decoding Compressed Semantic Representations in EEG for Language Reconstruction
di: Yang, Xiaoli, et al.
Pubblicazione: (2026)
di: Yang, Xiaoli, et al.
Pubblicazione: (2026)
Text-only Synthesis for Image Captioning
di: Zhou, Qing, et al.
Pubblicazione: (2024)
di: Zhou, Qing, et al.
Pubblicazione: (2024)
ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding
di: Rao, Mingyang, et al.
Pubblicazione: (2026)
di: Rao, Mingyang, et al.
Pubblicazione: (2026)
Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
di: Chen, Chao, et al.
Pubblicazione: (2025)
di: Chen, Chao, et al.
Pubblicazione: (2025)
Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars
di: Zhang, Youliang, et al.
Pubblicazione: (2026)
di: Zhang, Youliang, et al.
Pubblicazione: (2026)
Semantic Map-based Generation of Navigation Instructions
di: Li, Chengzu, et al.
Pubblicazione: (2024)
di: Li, Chengzu, et al.
Pubblicazione: (2024)
Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation
di: Zhu, Fanwei, et al.
Pubblicazione: (2025)
di: Zhu, Fanwei, et al.
Pubblicazione: (2025)
Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models
di: Li, Zhang, et al.
Pubblicazione: (2023)
di: Li, Zhang, et al.
Pubblicazione: (2023)
Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models
di: Yamabe, Shojiro, et al.
Pubblicazione: (2025)
di: Yamabe, Shojiro, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval
di: Liu, Delong, et al.
Pubblicazione: (2023) -
Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)
di: Saxon, Michael, et al.
Pubblicazione: (2024) -
LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP
di: Chen, Danlu, et al.
Pubblicazione: (2024) -
MINOS: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text
di: Zhang, Junzhe, et al.
Pubblicazione: (2025) -
Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions
di: Su, Junhao, et al.
Pubblicazione: (2025)