:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Seo, Yongdeuk, Min, Hyun-seok, Choi, Sungchul
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2511.09977
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling
by: Jung, Kyuheon, et al.
Published: (2024)

Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors
by: Guan, Tongkun, et al.
Published: (2023)

Handwritten Text Recognition for Low Resource Languages
by: Dey, Sayantan, et al.
Published: (2025)

KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark
by: Nom, Vannkinh, et al.
Published: (2024)

DA-RAW: Domain Adaptive Object Detection for Real-World Adverse Weather Conditions
by: Jeon, Minsik, et al.
Published: (2023)

SELECT: Detecting Label Errors in Real-world Scene Text Data
by: Liu, Wenjun, et al.
Published: (2025)

Grounding World Simulation Models in a Real-World Metropolis
by: Seo, Junyoung, et al.
Published: (2026)

ExCellGen: Fast, Controllable, Photorealistic 3D Scene Generation from a Single Real-World Exemplar
by: Jambon, Clément, et al.
Published: (2024)

Vision-Language Integration for Zero-Shot Scene Understanding in Real-World Environments
by: Rajiv, Manjunath Prasad Holenarasipura, et al.
Published: (2025)

Free-Editor: Zero-shot Text-driven 3D Scene Editing
by: Karim, Nazmul, et al.
Published: (2023)

RePaintGS: Reference-Guided Gaussian Splatting for Realistic and View-Consistent 3D Scene Inpainting
by: Seo, Ji Hyun, et al.
Published: (2025)

STEFANN: Scene Text Editor using Font Adaptive Neural Network
by: Roy, Prasun, et al.
Published: (2019)

World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge
by: Son, Moo Hyun, et al.
Published: (2025)

Text Image Generation for Low-Resource Languages with Dual Translation Learning
by: Noguchi, Chihiro, et al.
Published: (2024)

Reading in the Dark: Low-light Scene Text Recognition
by: Fu, Xuanshuo, et al.
Published: (2026)

Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation
by: Vaidya, Shreyas, et al.
Published: (2023)

Finetuning Vision-Language Models as OCR Systems for Low-Resource Languages: A Case Study of Manchu
by: Chung, Yan Hon Michael, et al.
Published: (2025)

LatentEditor: Text Driven Local Editing of 3D Scenes
by: Khalid, Umar, et al.
Published: (2023)

Efficient and Accurate Scene Text Recognition with Cascaded-Transformers
by: Ozkan, Savas, et al.
Published: (2025)

SceneNAT: Masked Generative Modeling for Language-Guided Indoor Scene Synthesis
by: Choi, Jeongjun, et al.
Published: (2026)

TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition
by: Ye, Xingsong, et al.
Published: (2024)

Geometry-Aware Scene Configurations for Novel View Synthesis
by: Kim, Minkwan, et al.
Published: (2025)

SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments
by: Cao, Yue, et al.
Published: (2024)

Dynamic Context-Aware Scene Reasoning Using Vision-Language Alignment in Zero-Shot Real-World Scenarios
by: Rajiv, Manjunath Prasad Holenarasipura, et al.
Published: (2025)

Real-World Efficient Blind Motion Deblurring via Blur Pixel Discretization
by: Kim, Insoo, et al.
Published: (2024)

EK-Net:Real-time Scene Text Detection with Expand Kernel Distance
by: Zhu, Boyuan, et al.
Published: (2024)

Real-Time Text Detection with Similar Mask in Traffic, Industrial, and Natural Scenes
by: Han, Xu, et al.
Published: (2024)

TextOVSR: Text-Guided Real-World Opera Video Super-Resolution
by: Chang, Hua, et al.
Published: (2026)

Enhancing Image Matting in Real-World Scenes with Mask-Guided Iterative Refinement
by: Liu, Rui
Published: (2025)

Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation
by: Chen, Mu, et al.
Published: (2023)

HazeCLIP: Towards Language Guided Real-World Image Dehazing
by: Wang, Ruiyi, et al.
Published: (2024)

A Study of the Framework and Real-World Applications of Language Embedding for 3D Scene Understanding
by: Zaouali, Mahmoud Chick, et al.
Published: (2025)

Rethinking Text-Promptable Surgical Instrument Segmentation with Robust Framework
by: Choi, Tae-Min, et al.
Published: (2024)

DepthFocus: Controllable Depth Estimation for See-Through Scenes
by: Min, Junhong, et al.
Published: (2025)

TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles
by: Wang, Tong, et al.
Published: (2024)

The First Swahili Language Scene Text Detection and Recognition Dataset
by: Douamba, Fadila Wendigoundi, et al.
Published: (2024)

Multi-LLM Collaborative Caption Generation in Scientific Documents
by: Kim, Jaeyoung, et al.
Published: (2025)

Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces
by: Zhang, Chenyangguang, et al.
Published: (2025)

Real-World Scene Recovery for Scattering-Degraded Images Using Spatial and Frequency Priors
by: Liu, Yun, et al.
Published: (2025)

PILOT-Bench: A Benchmark for Legal Reasoning in the Patent Domain with IRAC-Aligned Classification Tasks
by: Jang, Yehoon, et al.
Published: (2026)