:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Chun, Sanghyuk, Kim, Wonjae, Park, Song, Chang, Minsuk, Oh, Seong Joon
Natura:	Preprint
Pubblicazione:	2022
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2204.03359
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Probabilistic Language-Image Pre-Training
di: Chun, Sanghyuk, et al.
Pubblicazione: (2024)

RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models
di: Park, Seulki, et al.
Pubblicazione: (2023)

HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts
di: Kim, Wonjae, et al.
Pubblicazione: (2024)

Emergence of Text Readability in Vision Language Models
di: Park, Jaeyoo, et al.
Pubblicazione: (2025)

Language-only Efficient Training of Zero-shot Composed Image Retrieval
di: Gu, Geonmo, et al.
Pubblicazione: (2023)

An Efficient Post-hoc Framework for Reducing Task Discrepancy of Text Encoders for Composed Image Retrieval
di: Byun, Jaeseok, et al.
Pubblicazione: (2024)

CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning
di: Saito, Kuniaki, et al.
Pubblicazione: (2025)

Leveraging Textual Compositional Reasoning for Robust Change Captioning
di: Park, Kyu Ri, et al.
Pubblicazione: (2025)

COCO-Urdu: A Large-Scale Urdu Image-Caption Dataset with Multimodal Quality Estimation
di: Hassan, Umair
Pubblicazione: (2025)

SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning
di: Zhang, Lin, et al.
Pubblicazione: (2025)

CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion
di: Gu, Geonmo, et al.
Pubblicazione: (2023)

Improving Text Generation on Images with Synthetic Captions
di: Koh, Jun Young, et al.
Pubblicazione: (2024)

Pix2Cap-COCO: Advancing Visual Comprehension via Pixel-Level Captioning
di: You, Zuyao, et al.
Pubblicazione: (2025)

Improved Probabilistic Image-Text Representations
di: Chun, Sanghyuk
Pubblicazione: (2023)

From COCO to COCO-FP: A Deep Dive into Background False Positives for COCO Detectors
di: Liu, Longfei, et al.
Pubblicazione: (2024)

Negative Entity Suppression for Zero-Shot Captioning with Synthetic Images
di: Lu, Zimao, et al.
Pubblicazione: (2025)

SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning
di: Kim, Si-Woo, et al.
Pubblicazione: (2025)

Unifying Vision-Language Latents for Zero-label Image Caption Enhancement
di: Byun, Sanghyun, et al.
Pubblicazione: (2025)

CaptionFool: Universal Image Captioning Model Attacks
di: Parekh, Swapnil
Pubblicazione: (2026)

CaptionQA: Is Your Caption as Useful as the Image Itself?
di: Yang, Shijia, et al.
Pubblicazione: (2025)

From Image Captioning to Visual Storytelling
di: Passadakis, Admitos, et al.
Pubblicazione: (2025)

SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings
di: Hsu, Ting-Yao, et al.
Pubblicazione: (2024)

AGIC: Attention-Guided Image Captioning to Improve Caption Relevance
di: Teja, L. D. M. S. Sai, et al.
Pubblicazione: (2025)

Generating Accurate and Detailed Captions for High-Resolution Images
di: Lee, Hankyeol, et al.
Pubblicazione: (2025)

MAMS: Model-Agnostic Module Selection Framework for Video Captioning
di: Lee, Sangho, et al.
Pubblicazione: (2025)

Seeing What You Say: Expressive Image Generation from Speech
di: Lee, Jiyoung, et al.
Pubblicazione: (2025)

Inserting Faces inside Captions: Image Captioning with Attention Guided Merging
di: Tevissen, Yannis, et al.
Pubblicazione: (2024)

HiCM$^2$: Hierarchical Compact Memory Modeling for Dense Video Captioning
di: Kim, Minkuk, et al.
Pubblicazione: (2024)

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval
di: Kim, Minkuk, et al.
Pubblicazione: (2024)

Mitigating Cross-Image Information Leakage in LVLMs for Multi-Image Tasks
di: Park, Yeji, et al.
Pubblicazione: (2025)

See or Guess: Counterfactually Regularized Image Captioning
di: Cao, Qian, et al.
Pubblicazione: (2024)

CIC: A Framework for Culturally-Aware Image Captioning
di: Yun, Youngsik, et al.
Pubblicazione: (2024)

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
di: Hsieh, Yu-Guan, et al.
Pubblicazione: (2024)

Multiplicity is an Inevitable and Inherent Challenge in Multimodal Learning
di: Chun, Sanghyuk
Pubblicazione: (2025)

Image Captioning via Compact Bidirectional Architecture
di: Song, Zijie, et al.
Pubblicazione: (2022)

Towards Fine-Grained Human Motion Video Captioning
di: Song, Guorui, et al.
Pubblicazione: (2025)

CAF-Score: Calibrating CLAP with LALMs for Reference-free Audio Captioning Evaluation
di: Lee, Insung, et al.
Pubblicazione: (2026)

CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning
di: Tang, Zhijiang, et al.
Pubblicazione: (2026)

Aligning Audio Captions with Human Preferences
di: Hegde, Kartik, et al.
Pubblicazione: (2025)

LongCaptioning: Unlocking the Power of Long Video Caption Generation in Large Multimodal Models
di: Wei, Hongchen, et al.
Pubblicazione: (2025)