Salvato in:
| Autori principali: | Chun, Sanghyuk, Kim, Wonjae, Park, Song, Chang, Minsuk, Oh, Seong Joon |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2022
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2204.03359 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Probabilistic Language-Image Pre-Training
di: Chun, Sanghyuk, et al.
Pubblicazione: (2024)
di: Chun, Sanghyuk, et al.
Pubblicazione: (2024)
RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models
di: Park, Seulki, et al.
Pubblicazione: (2023)
di: Park, Seulki, et al.
Pubblicazione: (2023)
HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts
di: Kim, Wonjae, et al.
Pubblicazione: (2024)
di: Kim, Wonjae, et al.
Pubblicazione: (2024)
Emergence of Text Readability in Vision Language Models
di: Park, Jaeyoo, et al.
Pubblicazione: (2025)
di: Park, Jaeyoo, et al.
Pubblicazione: (2025)
Language-only Efficient Training of Zero-shot Composed Image Retrieval
di: Gu, Geonmo, et al.
Pubblicazione: (2023)
di: Gu, Geonmo, et al.
Pubblicazione: (2023)
An Efficient Post-hoc Framework for Reducing Task Discrepancy of Text Encoders for Composed Image Retrieval
di: Byun, Jaeseok, et al.
Pubblicazione: (2024)
di: Byun, Jaeseok, et al.
Pubblicazione: (2024)
CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning
di: Saito, Kuniaki, et al.
Pubblicazione: (2025)
di: Saito, Kuniaki, et al.
Pubblicazione: (2025)
Leveraging Textual Compositional Reasoning for Robust Change Captioning
di: Park, Kyu Ri, et al.
Pubblicazione: (2025)
di: Park, Kyu Ri, et al.
Pubblicazione: (2025)
COCO-Urdu: A Large-Scale Urdu Image-Caption Dataset with Multimodal Quality Estimation
di: Hassan, Umair
Pubblicazione: (2025)
di: Hassan, Umair
Pubblicazione: (2025)
SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning
di: Zhang, Lin, et al.
Pubblicazione: (2025)
di: Zhang, Lin, et al.
Pubblicazione: (2025)
CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion
di: Gu, Geonmo, et al.
Pubblicazione: (2023)
di: Gu, Geonmo, et al.
Pubblicazione: (2023)
Improving Text Generation on Images with Synthetic Captions
di: Koh, Jun Young, et al.
Pubblicazione: (2024)
di: Koh, Jun Young, et al.
Pubblicazione: (2024)
Pix2Cap-COCO: Advancing Visual Comprehension via Pixel-Level Captioning
di: You, Zuyao, et al.
Pubblicazione: (2025)
di: You, Zuyao, et al.
Pubblicazione: (2025)
Improved Probabilistic Image-Text Representations
di: Chun, Sanghyuk
Pubblicazione: (2023)
di: Chun, Sanghyuk
Pubblicazione: (2023)
From COCO to COCO-FP: A Deep Dive into Background False Positives for COCO Detectors
di: Liu, Longfei, et al.
Pubblicazione: (2024)
di: Liu, Longfei, et al.
Pubblicazione: (2024)
Negative Entity Suppression for Zero-Shot Captioning with Synthetic Images
di: Lu, Zimao, et al.
Pubblicazione: (2025)
di: Lu, Zimao, et al.
Pubblicazione: (2025)
SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning
di: Kim, Si-Woo, et al.
Pubblicazione: (2025)
di: Kim, Si-Woo, et al.
Pubblicazione: (2025)
Unifying Vision-Language Latents for Zero-label Image Caption Enhancement
di: Byun, Sanghyun, et al.
Pubblicazione: (2025)
di: Byun, Sanghyun, et al.
Pubblicazione: (2025)
CaptionFool: Universal Image Captioning Model Attacks
di: Parekh, Swapnil
Pubblicazione: (2026)
di: Parekh, Swapnil
Pubblicazione: (2026)
CaptionQA: Is Your Caption as Useful as the Image Itself?
di: Yang, Shijia, et al.
Pubblicazione: (2025)
di: Yang, Shijia, et al.
Pubblicazione: (2025)
From Image Captioning to Visual Storytelling
di: Passadakis, Admitos, et al.
Pubblicazione: (2025)
di: Passadakis, Admitos, et al.
Pubblicazione: (2025)
SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings
di: Hsu, Ting-Yao, et al.
Pubblicazione: (2024)
di: Hsu, Ting-Yao, et al.
Pubblicazione: (2024)
AGIC: Attention-Guided Image Captioning to Improve Caption Relevance
di: Teja, L. D. M. S. Sai, et al.
Pubblicazione: (2025)
di: Teja, L. D. M. S. Sai, et al.
Pubblicazione: (2025)
Generating Accurate and Detailed Captions for High-Resolution Images
di: Lee, Hankyeol, et al.
Pubblicazione: (2025)
di: Lee, Hankyeol, et al.
Pubblicazione: (2025)
MAMS: Model-Agnostic Module Selection Framework for Video Captioning
di: Lee, Sangho, et al.
Pubblicazione: (2025)
di: Lee, Sangho, et al.
Pubblicazione: (2025)
Seeing What You Say: Expressive Image Generation from Speech
di: Lee, Jiyoung, et al.
Pubblicazione: (2025)
di: Lee, Jiyoung, et al.
Pubblicazione: (2025)
Inserting Faces inside Captions: Image Captioning with Attention Guided Merging
di: Tevissen, Yannis, et al.
Pubblicazione: (2024)
di: Tevissen, Yannis, et al.
Pubblicazione: (2024)
HiCM$^2$: Hierarchical Compact Memory Modeling for Dense Video Captioning
di: Kim, Minkuk, et al.
Pubblicazione: (2024)
di: Kim, Minkuk, et al.
Pubblicazione: (2024)
Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval
di: Kim, Minkuk, et al.
Pubblicazione: (2024)
di: Kim, Minkuk, et al.
Pubblicazione: (2024)
Mitigating Cross-Image Information Leakage in LVLMs for Multi-Image Tasks
di: Park, Yeji, et al.
Pubblicazione: (2025)
di: Park, Yeji, et al.
Pubblicazione: (2025)
See or Guess: Counterfactually Regularized Image Captioning
di: Cao, Qian, et al.
Pubblicazione: (2024)
di: Cao, Qian, et al.
Pubblicazione: (2024)
CIC: A Framework for Culturally-Aware Image Captioning
di: Yun, Youngsik, et al.
Pubblicazione: (2024)
di: Yun, Youngsik, et al.
Pubblicazione: (2024)
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
di: Hsieh, Yu-Guan, et al.
Pubblicazione: (2024)
di: Hsieh, Yu-Guan, et al.
Pubblicazione: (2024)
Multiplicity is an Inevitable and Inherent Challenge in Multimodal Learning
di: Chun, Sanghyuk
Pubblicazione: (2025)
di: Chun, Sanghyuk
Pubblicazione: (2025)
Image Captioning via Compact Bidirectional Architecture
di: Song, Zijie, et al.
Pubblicazione: (2022)
di: Song, Zijie, et al.
Pubblicazione: (2022)
Towards Fine-Grained Human Motion Video Captioning
di: Song, Guorui, et al.
Pubblicazione: (2025)
di: Song, Guorui, et al.
Pubblicazione: (2025)
CAF-Score: Calibrating CLAP with LALMs for Reference-free Audio Captioning Evaluation
di: Lee, Insung, et al.
Pubblicazione: (2026)
di: Lee, Insung, et al.
Pubblicazione: (2026)
CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning
di: Tang, Zhijiang, et al.
Pubblicazione: (2026)
di: Tang, Zhijiang, et al.
Pubblicazione: (2026)
Aligning Audio Captions with Human Preferences
di: Hegde, Kartik, et al.
Pubblicazione: (2025)
di: Hegde, Kartik, et al.
Pubblicazione: (2025)
LongCaptioning: Unlocking the Power of Long Video Caption Generation in Large Multimodal Models
di: Wei, Hongchen, et al.
Pubblicazione: (2025)
di: Wei, Hongchen, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Probabilistic Language-Image Pre-Training
di: Chun, Sanghyuk, et al.
Pubblicazione: (2024) -
RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models
di: Park, Seulki, et al.
Pubblicazione: (2023) -
HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts
di: Kim, Wonjae, et al.
Pubblicazione: (2024) -
Emergence of Text Readability in Vision Language Models
di: Park, Jaeyoo, et al.
Pubblicazione: (2025) -
Language-only Efficient Training of Zero-shot Composed Image Retrieval
di: Gu, Geonmo, et al.
Pubblicazione: (2023)