:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Hamdi, Laziz, Tamasna, Amine, Boisson, Pascal, Paquet, Thierry
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2604.16070
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

PILOT: A Promptable Interleaved Layout-aware OCR Transformer
di: Hamdi, Laziz, et al.
Pubblicazione: (2025)

FastTab: A Fast Table Recognizer with a Tiny Recursive Module and 1D Transformers
di: Hamdi, Laziz, et al.
Pubblicazione: (2026)

DenTab: A Dataset for Table Recognition and Visual QA on Real-World Dental Estimates
di: Hamdi, Laziz, et al.
Pubblicazione: (2026)

Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
di: Horita, Daichi, et al.
Pubblicazione: (2023)

UniLayDiff: A Unified Diffusion Transformer for Content-Aware Layout Generation
di: Liu, Zeyang, et al.
Pubblicazione: (2025)

LayoutRAG: Retrieval-Augmented Model for Content-agnostic Conditional Layout Generation
di: Wu, Yuxuan, et al.
Pubblicazione: (2025)

LayoutDiT: Exploring Content-Graphic Balance in Layout Generation with Diffusion Transformer
di: Li, Yu, et al.
Pubblicazione: (2024)

Generating Synthetic Invoices via Layout-Preserving Content Replacement
di: V, Bevin, et al.
Pubblicazione: (2025)

Lane2Seq: Towards Unified Lane Detection via Sequence Generation
di: Zhou, Kunyang
Pubblicazione: (2024)

uLayout: Unified Room Layout Estimation for Perspective and Panoramic Images
di: Lee, Jonathan, et al.
Pubblicazione: (2025)

StructLayoutFormer:Conditional Structured Layout Generation via Structure Serialization and Disentanglement
di: Hu, Xin, et al.
Pubblicazione: (2025)

Generating Animated Layouts as Structured Text Representations
di: Shin, Yeonsang, et al.
Pubblicazione: (2025)

Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition
di: Simon, Tom, et al.
Pubblicazione: (2025)

End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music
di: Ríos-Vila, Antonio, et al.
Pubblicazione: (2024)

VASCAR: Content-Aware Layout Generation via Visual-Aware Self-Correction
di: Zhang, Jiahao, et al.
Pubblicazione: (2024)

Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation
di: Lu, Shuo, et al.
Pubblicazione: (2025)

LayoutFlow: Flow Matching for Layout Generation
di: Guerreiro, Julian Jorge Andrade, et al.
Pubblicazione: (2024)

EchoGen: Cycle-Consistent Learning for Unified Layout-Image Generation and Understanding
di: Zou, Kai, et al.
Pubblicazione: (2026)

SEGA: A Stepwise Evolution Paradigm for Content-Aware Layout Generation with Design Prior
di: Wang, Haoran, et al.
Pubblicazione: (2025)

PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation
di: Seol, Jaejung, et al.
Pubblicazione: (2024)

TFLOP: Table Structure Recognition Framework with Layout Pointer Mechanism
di: Khang, Minsoo, et al.
Pubblicazione: (2025)

ReLayout: Integrating Relation Reasoning for Content-aware Layout Generation with Multi-modal Large Language Models
di: Tian, Jiaxu, et al.
Pubblicazione: (2025)

SciPostLayout: A Dataset for Layout Analysis and Layout Generation of Scientific Posters
di: Tanaka, Shohei, et al.
Pubblicazione: (2024)

LED Benchmark: Diagnosing Structural Layout Errors for Document Layout Analysis
di: Heo, Inbum, et al.
Pubblicazione: (2025)

End-to-end information extraction in handwritten documents: Understanding Paris marriage records from 1880 to 1940
di: Constum, Thomas, et al.
Pubblicazione: (2024)

Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks
di: Yang, Min, et al.
Pubblicazione: (2024)

PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM
di: Yang, Tao, et al.
Pubblicazione: (2024)

Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents
di: Karmanov, Ilia, et al.
Pubblicazione: (2025)

DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation
di: He, Weijie, et al.
Pubblicazione: (2025)

LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation
di: Zheng, Guangcong, et al.
Pubblicazione: (2023)

Few-shot Writer Adaptation via Multimodal In-Context Learning
di: Simon, Tom, et al.
Pubblicazione: (2026)

Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription
di: Ríos-Vila, Antonio, et al.
Pubblicazione: (2024)

Scan-and-Print: Patch-level Data Summarization and Augmentation for Content-aware Layout Generation in Poster Design
di: Hsu, HsiaoYuan, et al.
Pubblicazione: (2025)

ConsistCompose: Unified Multimodal Layout Control for Image Composition
di: Shi, Xuanke, et al.
Pubblicazione: (2025)

DogLayout: Denoising Diffusion GAN for Discrete and Continuous Layout Generation
di: Gan, Zhaoxing, et al.
Pubblicazione: (2024)

LTSim: Layout Transportation-based Similarity Measure for Evaluating Layout Generation
di: Otani, Mayu, et al.
Pubblicazione: (2024)

Revisiting Transformers with Insights from Image Filtering and Boosting
di: Abdullaev, Laziz U., et al.
Pubblicazione: (2025)

Beyond Bag-of-Patches: Learning Global Layout via Textual Supervision for Late-Interaction Visual Document Retrieval
di: Tilli, Pascal, et al.
Pubblicazione: (2026)

TerraGen: A Unified Multi-Task Layout Generation Framework for Remote Sensing Data Augmentation
di: Tang, Datao, et al.
Pubblicazione: (2025)

PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models
di: He, Runze, et al.
Pubblicazione: (2025)