:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Singh, Kunwar Arpit, Prakash, Ankush, Lone, Haroon R
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition Artificial Intelligence Machine Learning
Online Access:	https://arxiv.org/abs/2602.18089
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Handwritten Text Recognition: A Survey
by: Garrido-Munoz, Carlos, et al.
Published: (2025)

BullingerDB: A Dataset for Handwritten Text Recognition and Writer Retrieval
by: Peer, Marco, et al.
Published: (2026)

VATr++: Choose Your Words Wisely for Handwritten Text Generation
by: Vanherle, Bram, et al.
Published: (2024)

StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting
by: Simonyan, Aleksandr, et al.
Published: (2026)

Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition
by: Kaliosis, Panagiotis, et al.
Published: (2025)

Towards GUI Agents: Vision-Language Diffusion Models for GUI Grounding
by: Kumbhar, Shrinidhi, et al.
Published: (2026)

RVAFM: Re-parameterizing Vertical Attention Fusion Module for Handwritten Paragraph Text Recognition
by: Zheng, Jinhui, et al.
Published: (2025)

BeHGAN: Bengali Handwritten Word Generation from Plain Text Using Generative Adversarial Networks
by: Islam, Md. Rakibul, et al.
Published: (2025)

ZK-WAGON: Imperceptible Watermark for Image Generation Models using ZK-SNARKs
by: Ramakrishnan, Aadarsh Anantha, et al.
Published: (2025)

SD-VSum: A Method and Dataset for Script-Driven Video Summarization
by: Mylonas, Manolis, et al.
Published: (2025)

Mapping of Land Use and Land Cover (LULC) using EuroSAT and Transfer Learning
by: Kunwar, Suman, et al.
Published: (2023)

Towards Scalable Training for Handwritten Mathematical Expression Recognition
by: Li, Haoyang, et al.
Published: (2025)

3DCoMPaT$^{++}$: An improved Large-scale 3D Vision Dataset for Compositional Recognition
by: Slim, Habib, et al.
Published: (2023)

Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets
by: Kišš, Martin, et al.
Published: (2025)

Diffusion Suction Grasping with Large-Scale Parcel Dataset
by: Huang, Ding-Tao, et al.
Published: (2025)

Diffusion-Based Ukrainian Handwritten Text Generation with Cross-Domain Style Transfer
by: Ahitoliev, Andrii, et al.
Published: (2026)

Can AI Assistance Aid in the Grading of Handwritten Answer Sheets?
by: Sil, Pritam, et al.
Published: (2024)

Advancing Offline Handwritten Text Recognition: A Systematic Review of Data Augmentation and Generation Techniques
by: Rassul, Yassin Hussein, et al.
Published: (2025)

Script-to-Slide Grounding: Grounding Script Sentences to Slide Objects for Automatic Instructional Video Generation
by: Suzuki, Rena, et al.
Published: (2026)

Handwritten Text Recognition of Historical Manuscripts Using Transformer-Based Models
by: Meoded, Erez
Published: (2025)

Few-shot Writer Adaptation via Multimodal In-Context Learning
by: Simon, Tom, et al.
Published: (2026)

Large-Scale Universal Defect Generation: Foundation Models and Datasets
by: Fan, Yuanting, et al.
Published: (2026)

Multi-language Video Subtitle Dataset for Image-based Text Recognition
by: Singkhornart, Thanadol, et al.
Published: (2024)

Diabetic Retinopathy Detection Using Quantum Transfer Learning
by: Jain, Ankush, et al.
Published: (2024)

Mask & Match: Learning to Recognize Handwritten Math with Self-Supervised Attention
by: Mitra, Shree, et al.
Published: (2025)

An End-to-End, Segmentation-Free, Arabic Handwritten Recognition Model on KHATT
by: Aabed, Sondos, et al.
Published: (2024)

Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition
by: Cheng, Hanbo, et al.
Published: (2023)

Learning Under Low Illumination: A Dataset and Algorithm for Traffic Sign Recognition
by: Mishra, Aditya, et al.
Published: (2025)

Multi-Scale Temporal Difference Transformer for Video-Text Retrieval
by: Wang, Ni, et al.
Published: (2024)

A Large-scale Dataset for Robust Complex Anime Scene Text Detection
by: Dong, Ziyi, et al.
Published: (2025)

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding
by: Bai, Yatong, et al.
Published: (2024)

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset
by: Agrawal, Vasu, et al.
Published: (2025)

Scale Efficient Training for Large Datasets
by: Zhou, Qing, et al.
Published: (2025)

Online Handwritten Signature Verification Based on Temporal-Spatial Graph Attention Transformer
by: Yuan, Hai-jie, et al.
Published: (2025)

AnyTrans: Translate AnyText in the Image with Large Scale Models
by: Qian, Zhipeng, et al.
Published: (2024)

NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models
by: Park, Sung-Yeon, et al.
Published: (2025)

ScreenWriter: Automatic Screenplay Generation and Movie Summarisation
by: Mahon, Louis, et al.
Published: (2024)

Complex Mathematical Expression Recognition: Benchmark, Large-Scale Dataset and Strong Baseline
by: Bai, Weikang, et al.
Published: (2025)

MITS: A Large-Scale Multimodal Benchmark Dataset for Intelligent Traffic Surveillance
by: Zhao, Kaikai, et al.
Published: (2025)

CityNav: A Large-Scale Dataset for Real-World Aerial Navigation
by: Lee, Jungdae, et al.
Published: (2024)