:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Lee, JoonHo, Park, Sunho
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2510.02543
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

BEM: Training-Free Background Embedding Memory for False-Positive Suppression in Real-Time Fixed-Background Camera
par: Park, Junwoo, et autres
Publié: (2026)

Training Unbiased Diffusion Models From Biased Dataset
par: Kim, Yeongmin, et autres
Publié: (2024)

OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
par: Zhang, Junyuan, et autres
Publié: (2024)

Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding
par: Park, Jaeyoo, et autres
Publié: (2024)

When Good OCR Is Not Enough: Benchmarking OCR Robustness for Retrieval-Augmented Generation
par: Sun, Lin, et autres
Publié: (2026)

Integrating Query-aware Segmentation and Cross-Attention for Robust VQA
par: Choi, Wonjun, et autres
Publié: (2024)

Ocean-OCR: Towards General OCR Application via a Vision-Language Model
par: Chen, Song, et autres
Publié: (2025)

VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving
par: Liu, Yibo, et autres
Publié: (2024)

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
par: Wei, Haoran, et autres
Publié: (2024)

OCR-Agent: Agentic OCR with Capability and Memory Reflection
par: Wen, Shimin, et autres
Publié: (2026)

OmniOCR: Generalist OCR for Ethnic Minority Languages
par: Liu, Bonan, et autres
Publié: (2026)

Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization
par: Hyun, Jeongseok, et autres
Publié: (2024)

SeeDiff: Off-the-Shelf Seeded Mask Generation from Diffusion Models
par: Park, Joon Hyun, et autres
Publié: (2025)

Enhancing Document VQA Models via Retrieval-Augmented Generation
par: López, Eric, et autres
Publié: (2025)

TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens
par: Yu, Ya-Qi, et autres
Publié: (2024)

On the Role of Visual Grounding in VQA
par: Reich, Daniel, et autres
Publié: (2024)

Post-Training Quantization via Residual Truncation and Zero Suppression for Diffusion Models
par: Kim, Donghoon, et autres
Publié: (2025)

Agentar-Fin-OCR
par: Qian, Siyi, et autres
Publié: (2026)

RGC-VQA: An Exploration Database for Robotic-Generated Video Quality Assessment
par: Jin, Jianing, et autres
Publié: (2025)

Reliability-Targeted Simulation of Item Response Data: Solving the Inverse Design Problem
par: Lee, JoonHo
Publié: (2025)

olmOCR 2: Unit Test Rewards for Document OCR
par: Poznanski, Jake, et autres
Publié: (2025)

Exploring the Application of Visual Question Answering (VQA) for Classroom Activity Monitoring
par: Vu, Sinh Trong, et autres
Publié: (2025)

MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios
par: Shi, Yang, et autres
Publié: (2025)

TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content
par: Anand, Avinash, et autres
Publié: (2024)

Elevating Flow-Guided Video Inpainting with Reference Generation
par: Cho, Suhwan, et autres
Publié: (2024)

VQA Training Sets are Self-play Environments for Generating Few-shot Pools
par: Misiunas, Tautvydas, et autres
Publié: (2024)

EduVQA: Towards Concept-Aware Assessment of Educational AI-Generated Videos
par: Chen, Baoliang, et autres
Publié: (2026)

Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation
par: Li, Zhiyuan, et autres
Publié: (2023)

ABot-OCR Technical Report
par: Jiang, Kaitao, et autres
Publié: (2026)

RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages
par: Kashid, Harshvivek, et autres
Publié: (2024)

Exploring Temporally-Aware Features for Point Tracking
par: Kim, Inès Hyeonsu, et autres
Publié: (2025)

OCRGenBench: A Comprehensive Benchmark for Evaluating OCR Generative Capabilities
par: Zhang, Peirong, et autres
Publié: (2025)

SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks
par: Kahl, Kim-Celine, et autres
Publié: (2024)

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy
par: Yang, Zhibo, et autres
Publié: (2024)

Knowledge Condensation and Reasoning for Knowledge-based VQA
par: Hao, Dongze, et autres
Publié: (2024)

Measuring Faithful and Plausible Visual Grounding in VQA
par: Reich, Daniel, et autres
Publié: (2023)

Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model
par: Vesalainen, Ari, et autres
Publié: (2026)

Overconfidence and Calibration in Medical VQA: Empirical Findings and Hallucination-Aware Mitigation
par: Byun, Ji Young, et autres
Publié: (2026)

Bilingual Text-to-Motion Generation: A New Benchmark and Baselines
par: Weng, Wanjiang, et autres
Publié: (2026)

HDRSDR-VQA: A Subjective Video Quality Dataset for HDR and SDR Comparative Evaluation
par: Chen, Bowen, et autres
Publié: (2025)