:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Perš, Janez, Muhovič, Jon, Košir, Andrej, Murovec, Boštjan
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2601.00730
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

MULTIAQUA: A multimodal maritime dataset and robust training strategies for multimodal semantic segmentation
by: Muhovič, Jon, et al.
Published: (2025)

Dense Center-Direction Regression for Object Counting and Localization with Point Supervision
by: Tabernik, Domen, et al.
Published: (2024)

Center Direction Network for Grasping Point Localization on Cloths
by: Tabernik, Domen, et al.
Published: (2024)

Benchmarking Large Language Models for Handwritten Text Recognition
by: Crosilla, Giorgia, et al.
Published: (2025)

Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams
by: Cui, Yiming, et al.
Published: (2025)

Seeing the Big Picture: Evaluating Multimodal LLMs' Ability to Interpret and Grade Handwritten Student Work
by: Henkel, Owen, et al.
Published: (2025)

Can AI Assistance Aid in the Grading of Handwritten Answer Sheets?
by: Sil, Pritam, et al.
Published: (2024)

Can Vision-Language Models Evaluate Handwritten Math?
by: Nath, Oikantik, et al.
Published: (2025)

Handwritten Text Recognition for Low Resource Languages
by: Dey, Sayantan, et al.
Published: (2025)

EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions
by: Sun, Weiyu, et al.
Published: (2026)

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models
by: Das, Rocktim Jyoti, et al.
Published: (2024)

Uncovering the Handwritten Text in the Margins: End-to-end Handwritten Text Detection and Recognition
by: Cheng, Liang, et al.
Published: (2023)

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition
by: Meyer, Florent, et al.
Published: (2026)

Unlocking the Archives: Using Large Language Models to Transcribe Handwritten Historical Documents
by: Humphries, Mark, et al.
Published: (2024)

GenExam: A Multidisciplinary Text-to-Image Exam
by: Wang, Zhaokai, et al.
Published: (2025)

SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models
by: Su, Yuhang, et al.
Published: (2026)

Quo Vadis Handwritten Text Generation for Handwritten Text Recognition?
by: Pippi, Vittorio, et al.
Published: (2025)

EuraGovExam: A Multilingual Multimodal Benchmark from Real-World Civil Service Exams
by: Kim, Jaeseong, et al.
Published: (2026)

Semi-Supervised Adaptation of Diffusion Models for Handwritten Text Generation
by: Brandenbusch, Kai
Published: (2024)

Practical Fine-Tuning of Autoregressive Models on Limited Handwritten Texts
by: Kohút, Jan, et al.
Published: (2025)

Diagnosing Shoulder Disorders Using Multimodal Large Language Models and Consumer-Grade Cameras
by: Hong, Jindong, et al.
Published: (2025)

Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition
by: Liu, Chenyu, et al.
Published: (2025)

Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text
by: Wang, Zi-Rui
Published: (2024)

Multimodal Large Language Models as Image Classifiers
by: Kisel, Nikita, et al.
Published: (2026)

The Return of Structural Handwritten Mathematical Expression Recognition
by: Seitz, Jakob, et al.
Published: (2025)

A Perspective Analysis of Handwritten Signature Technology
by: Diaz, Moises, et al.
Published: (2024)

Semantic Alignment for Multimodal Large Language Models
by: Wu, Tao, et al.
Published: (2024)

Leveraging Large Language Models for Multimodal Search
by: Barbany, Oriol, et al.
Published: (2024)

Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition
by: Li, Yu, et al.
Published: (2025)

Mario: Multimodal Graph Reasoning with Large Language Models
by: Sun, Yuanfu, et al.
Published: (2026)

MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models
by: Shen, Leyang, et al.
Published: (2024)

One-Shot Diffusion Mimicker for Handwritten Text Generation
by: Dai, Gang, et al.
Published: (2024)

HTR-VT: Handwritten Text Recognition with Vision Transformer
by: Li, Yuting, et al.
Published: (2024)

Best Practices for a Handwritten Text Recognition System
by: Retsinas, George, et al.
Published: (2024)

Innovative Methods for Non-Destructive Inspection of Handwritten Documents
by: Breci, Eleonora, et al.
Published: (2023)

Attention Guidance Mechanism for Handwritten Mathematical Expression Recognition
by: Liu, Yutian, et al.
Published: (2024)

MMaDA: Multimodal Large Diffusion Language Models
by: Yang, Ling, et al.
Published: (2025)

Grounding Everything in Tokens for Multimodal Large Language Models
by: Ren, Xiangxuan, et al.
Published: (2025)

Large Language Models for Multimodal Deformable Image Registration
by: Ma, Mingrui, et al.
Published: (2024)

Hallucination of Multimodal Large Language Models: A Survey
by: Bai, Zechen, et al.
Published: (2024)