:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Li, Mingyang, Yuan, Maoqin, Li, Luyao, Pengsihua, Han
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Computer Vision and Pattern Recognition Artificial Intelligence Computation and Language
Accesso online:	https://arxiv.org/abs/2402.18849
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval
di: Liu, Delong, et al.
Pubblicazione: (2023)

Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)
di: Saxon, Michael, et al.
Pubblicazione: (2024)

LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP
di: Chen, Danlu, et al.
Pubblicazione: (2024)

MINOS: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text
di: Zhang, Junzhe, et al.
Pubblicazione: (2025)

Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions
di: Su, Junhao, et al.
Pubblicazione: (2025)

Re-Thinking the Automatic Evaluation of Image-Text Alignment in Text-to-Image Models
di: Zhang, Huixuan, et al.
Pubblicazione: (2025)

From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs
di: Liu, Yulong, et al.
Pubblicazione: (2024)

Multi-Modal Language Models as Text-to-Image Model Evaluators
di: Chen, Jiahui, et al.
Pubblicazione: (2025)

More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding
di: Tang, Yuan, et al.
Pubblicazione: (2024)

Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective
di: Zhu, Xiangru, et al.
Pubblicazione: (2024)

TempViz: On the Evaluation of Temporal Knowledge in Text-to-Image Models
di: Holtermann, Carolin, et al.
Pubblicazione: (2026)

Enhancing Vision Models for Text-Heavy Content Understanding and Interaction
di: TG, Adithya, et al.
Pubblicazione: (2024)

DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models
di: Ventura, Mor, et al.
Pubblicazione: (2025)

Medical Image Synthesis via Fine-Grained Image-Text Alignment and Anatomy-Pathology Prompting
di: Chen, Wenting, et al.
Pubblicazione: (2024)

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
di: Jiang, Dongzhi, et al.
Pubblicazione: (2024)

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
di: Lin, Bin, et al.
Pubblicazione: (2025)

Mitigating Multilingual Hallucination in Large Vision-Language Models
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)

OSCBench: Benchmarking Object State Change in Text-to-Video Generation
di: Han, Xianjing, et al.
Pubblicazione: (2026)

CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics
di: Nayak, Shravan, et al.
Pubblicazione: (2025)

Benchmarking and Enhancing Text-to-Image Models for Generating Visual Representations in Early Arithmetic Education
di: Wang, Junling, et al.
Pubblicazione: (2026)

Holistic Evaluation for Interleaved Text-and-Image Generation
di: Liu, Minqian, et al.
Pubblicazione: (2024)

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
di: Li, Jialu, et al.
Pubblicazione: (2025)

Fine-Grained Image-Text Alignment in Medical Imaging Enables Explainable Cyclic Image-Report Generation
di: Chen, Wenting, et al.
Pubblicazione: (2023)

Evaluating Text-to-Visual Generation with Image-to-Text Generation
di: Lin, Zhiqiu, et al.
Pubblicazione: (2024)

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion
di: Lv, Zheqi, et al.
Pubblicazione: (2025)

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
di: Jiang, Chen, et al.
Pubblicazione: (2023)

Translation-Enhanced Multilingual Text-to-Image Generation
di: Li, Yaoyiran, et al.
Pubblicazione: (2023)

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology
di: Wang, Haochen, et al.
Pubblicazione: (2025)

TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment
di: Li, Wei, et al.
Pubblicazione: (2024)

Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?
di: Li, Xiujun, et al.
Pubblicazione: (2023)

SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation
di: Kendre, Shrikant, et al.
Pubblicazione: (2025)

Brain-CLIPLM: Decoding Compressed Semantic Representations in EEG for Language Reconstruction
di: Yang, Xiaoli, et al.
Pubblicazione: (2026)

Text-only Synthesis for Image Captioning
di: Zhou, Qing, et al.
Pubblicazione: (2024)

ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding
di: Rao, Mingyang, et al.
Pubblicazione: (2026)

Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
di: Chen, Chao, et al.
Pubblicazione: (2025)

Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars
di: Zhang, Youliang, et al.
Pubblicazione: (2026)

Semantic Map-based Generation of Navigation Instructions
di: Li, Chengzu, et al.
Pubblicazione: (2024)

Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation
di: Zhu, Fanwei, et al.
Pubblicazione: (2025)

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models
di: Li, Zhang, et al.
Pubblicazione: (2023)

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models
di: Yamabe, Shojiro, et al.
Pubblicazione: (2025)