Enregistré dans:
| Auteurs principaux: | Lee, JoonHo, Park, Sunho |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2510.02543 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
BEM: Training-Free Background Embedding Memory for False-Positive Suppression in Real-Time Fixed-Background Camera
par: Park, Junwoo, et autres
Publié: (2026)
par: Park, Junwoo, et autres
Publié: (2026)
Training Unbiased Diffusion Models From Biased Dataset
par: Kim, Yeongmin, et autres
Publié: (2024)
par: Kim, Yeongmin, et autres
Publié: (2024)
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
par: Zhang, Junyuan, et autres
Publié: (2024)
par: Zhang, Junyuan, et autres
Publié: (2024)
Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding
par: Park, Jaeyoo, et autres
Publié: (2024)
par: Park, Jaeyoo, et autres
Publié: (2024)
When Good OCR Is Not Enough: Benchmarking OCR Robustness for Retrieval-Augmented Generation
par: Sun, Lin, et autres
Publié: (2026)
par: Sun, Lin, et autres
Publié: (2026)
Integrating Query-aware Segmentation and Cross-Attention for Robust VQA
par: Choi, Wonjun, et autres
Publié: (2024)
par: Choi, Wonjun, et autres
Publié: (2024)
Ocean-OCR: Towards General OCR Application via a Vision-Language Model
par: Chen, Song, et autres
Publié: (2025)
par: Chen, Song, et autres
Publié: (2025)
VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving
par: Liu, Yibo, et autres
Publié: (2024)
par: Liu, Yibo, et autres
Publié: (2024)
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
par: Wei, Haoran, et autres
Publié: (2024)
par: Wei, Haoran, et autres
Publié: (2024)
OCR-Agent: Agentic OCR with Capability and Memory Reflection
par: Wen, Shimin, et autres
Publié: (2026)
par: Wen, Shimin, et autres
Publié: (2026)
OmniOCR: Generalist OCR for Ethnic Minority Languages
par: Liu, Bonan, et autres
Publié: (2026)
par: Liu, Bonan, et autres
Publié: (2026)
Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization
par: Hyun, Jeongseok, et autres
Publié: (2024)
par: Hyun, Jeongseok, et autres
Publié: (2024)
SeeDiff: Off-the-Shelf Seeded Mask Generation from Diffusion Models
par: Park, Joon Hyun, et autres
Publié: (2025)
par: Park, Joon Hyun, et autres
Publié: (2025)
Enhancing Document VQA Models via Retrieval-Augmented Generation
par: López, Eric, et autres
Publié: (2025)
par: López, Eric, et autres
Publié: (2025)
TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens
par: Yu, Ya-Qi, et autres
Publié: (2024)
par: Yu, Ya-Qi, et autres
Publié: (2024)
On the Role of Visual Grounding in VQA
par: Reich, Daniel, et autres
Publié: (2024)
par: Reich, Daniel, et autres
Publié: (2024)
Post-Training Quantization via Residual Truncation and Zero Suppression for Diffusion Models
par: Kim, Donghoon, et autres
Publié: (2025)
par: Kim, Donghoon, et autres
Publié: (2025)
Agentar-Fin-OCR
par: Qian, Siyi, et autres
Publié: (2026)
par: Qian, Siyi, et autres
Publié: (2026)
RGC-VQA: An Exploration Database for Robotic-Generated Video Quality Assessment
par: Jin, Jianing, et autres
Publié: (2025)
par: Jin, Jianing, et autres
Publié: (2025)
Reliability-Targeted Simulation of Item Response Data: Solving the Inverse Design Problem
par: Lee, JoonHo
Publié: (2025)
par: Lee, JoonHo
Publié: (2025)
olmOCR 2: Unit Test Rewards for Document OCR
par: Poznanski, Jake, et autres
Publié: (2025)
par: Poznanski, Jake, et autres
Publié: (2025)
Exploring the Application of Visual Question Answering (VQA) for Classroom Activity Monitoring
par: Vu, Sinh Trong, et autres
Publié: (2025)
par: Vu, Sinh Trong, et autres
Publié: (2025)
MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios
par: Shi, Yang, et autres
Publié: (2025)
par: Shi, Yang, et autres
Publié: (2025)
TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content
par: Anand, Avinash, et autres
Publié: (2024)
par: Anand, Avinash, et autres
Publié: (2024)
Elevating Flow-Guided Video Inpainting with Reference Generation
par: Cho, Suhwan, et autres
Publié: (2024)
par: Cho, Suhwan, et autres
Publié: (2024)
VQA Training Sets are Self-play Environments for Generating Few-shot Pools
par: Misiunas, Tautvydas, et autres
Publié: (2024)
par: Misiunas, Tautvydas, et autres
Publié: (2024)
EduVQA: Towards Concept-Aware Assessment of Educational AI-Generated Videos
par: Chen, Baoliang, et autres
Publié: (2026)
par: Chen, Baoliang, et autres
Publié: (2026)
Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation
par: Li, Zhiyuan, et autres
Publié: (2023)
par: Li, Zhiyuan, et autres
Publié: (2023)
ABot-OCR Technical Report
par: Jiang, Kaitao, et autres
Publié: (2026)
par: Jiang, Kaitao, et autres
Publié: (2026)
RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages
par: Kashid, Harshvivek, et autres
Publié: (2024)
par: Kashid, Harshvivek, et autres
Publié: (2024)
Exploring Temporally-Aware Features for Point Tracking
par: Kim, Inès Hyeonsu, et autres
Publié: (2025)
par: Kim, Inès Hyeonsu, et autres
Publié: (2025)
OCRGenBench: A Comprehensive Benchmark for Evaluating OCR Generative Capabilities
par: Zhang, Peirong, et autres
Publié: (2025)
par: Zhang, Peirong, et autres
Publié: (2025)
SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks
par: Kahl, Kim-Celine, et autres
Publié: (2024)
par: Kahl, Kim-Celine, et autres
Publié: (2024)
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy
par: Yang, Zhibo, et autres
Publié: (2024)
par: Yang, Zhibo, et autres
Publié: (2024)
Knowledge Condensation and Reasoning for Knowledge-based VQA
par: Hao, Dongze, et autres
Publié: (2024)
par: Hao, Dongze, et autres
Publié: (2024)
Measuring Faithful and Plausible Visual Grounding in VQA
par: Reich, Daniel, et autres
Publié: (2023)
par: Reich, Daniel, et autres
Publié: (2023)
Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model
par: Vesalainen, Ari, et autres
Publié: (2026)
par: Vesalainen, Ari, et autres
Publié: (2026)
Overconfidence and Calibration in Medical VQA: Empirical Findings and Hallucination-Aware Mitigation
par: Byun, Ji Young, et autres
Publié: (2026)
par: Byun, Ji Young, et autres
Publié: (2026)
Bilingual Text-to-Motion Generation: A New Benchmark and Baselines
par: Weng, Wanjiang, et autres
Publié: (2026)
par: Weng, Wanjiang, et autres
Publié: (2026)
HDRSDR-VQA: A Subjective Video Quality Dataset for HDR and SDR Comparative Evaluation
par: Chen, Bowen, et autres
Publié: (2025)
par: Chen, Bowen, et autres
Publié: (2025)
Documents similaires
-
BEM: Training-Free Background Embedding Memory for False-Positive Suppression in Real-Time Fixed-Background Camera
par: Park, Junwoo, et autres
Publié: (2026) -
Training Unbiased Diffusion Models From Biased Dataset
par: Kim, Yeongmin, et autres
Publié: (2024) -
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
par: Zhang, Junyuan, et autres
Publié: (2024) -
Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding
par: Park, Jaeyoo, et autres
Publié: (2024) -
When Good OCR Is Not Enough: Benchmarking OCR Robustness for Retrieval-Augmented Generation
par: Sun, Lin, et autres
Publié: (2026)