:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Peinl, René, Tischler, Vincent, Schröder, Patrick, Groth, Christian
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence I.2.10
Accès en ligne:	https://arxiv.org/abs/2602.00108
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

BugNIST -- a Large Volumetric Dataset for Object Detection under Domain Shift
par: Jensen, Patrick Møller, et autres
Publié: (2023)

VLM@school -- Evaluation of AI image understanding on German middle school knowledge
par: Peinl, René, et autres
Publié: (2025)

Demo-Pose: Depth-Monocular Modality Fusion For Object Pose Estimation
par: Agarwal, Rachit, et autres
Publié: (2026)

Robust Visual Question Answering: Datasets, Methods, and Future Challenges
par: Ma, Jie, et autres
Publié: (2023)

Evaluation of Environmental Conditions on Object Detection using Oriented Bounding Boxes for AR Applications
par: Li, Vladislav, et autres
Publié: (2023)

MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model
par: Yang, Shan
Publié: (2024)

Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation
par: Wu, Qingyu, et autres
Publié: (2026)

GenMatter: Perceiving Physical Objects with Generative Matter Models
par: Li, Eric, et autres
Publié: (2026)

ChartComplete: A Taxonomy-based Inclusive Chart Dataset
par: Mustapha, Ahmad, et autres
Publié: (2026)

A Two-Stage, Object-Centric Deep Learning Framework for Robust Exam Cheating Detection
par: Le, Van-Truong, et autres
Publié: (2026)

GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics
par: Zhang, Yan, et autres
Publié: (2026)

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views
par: Chen, Zhangquan, et autres
Publié: (2025)

Image Segmentation and Classification of E-waste for Training Robots for Waste Segregation
par: Tripathi, Prakriti
Publié: (2025)

ProtoFlow: Interpretable and Robust Surgical Workflow Modeling with Learned Dynamic Scene Graph Prototypes
par: Holm, Felix, et autres
Publié: (2025)

Siamese Networks for Cat Re-Identification: Exploring Neural Models for Cat Instance Recognition
par: Trein, Tobias, et autres
Publié: (2025)

Appearance-based gaze estimation enhanced with synthetic images using deep neural networks
par: Herashchenko, Dmytro, et autres
Publié: (2023)

From Prompt to Production:Automating Brand-Safe Marketing Imagery with Text-to-Image Models
par: Atighehchian, Parmida, et autres
Publié: (2026)

Attentive VQ-VAE
par: Hoyos, Angello, et autres
Publié: (2023)

Sora as a World Model? A Complete Survey on Text-to-Video Generation
par: Puspitasari, Fachrina Dewi, et autres
Publié: (2024)

TexTailor: Customized Text-aligned Texturing via Effective Resampling
par: Lee, Suin, et autres
Publié: (2025)

SIFThinker: Spatially-Aware Image Focus for Visual Reasoning
par: Chen, Zhangquan, et autres
Publié: (2025)

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
par: Chen, Zhangquan, et autres
Publié: (2026)

CLIP Embeddings for AI-Generated Image Detection: A Few-Shot Study with Lightweight Classifier
par: Ou, Ziyang
Publié: (2025)

Rethinking Multimodal Point Cloud Completion: A Completion-by-Correction Perspective
par: Luo, Wang, et autres
Publié: (2025)

CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging
par: Safdar, Aon, et autres
Publié: (2025)

Next-Generation License Plate Detection and Recognition System using YOLOv8
par: Amin, Arslan, et autres
Publié: (2025)

3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding
par: Chen, Yiping, et autres
Publié: (2026)

VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding
par: He, Jianxiang, et autres
Publié: (2025)

Instruction-based Image Editing with Planning, Reasoning, and Generation
par: Ji, Liya, et autres
Publié: (2026)

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs
par: Feng, Yigui, et autres
Publié: (2026)

Disrupting Diffusion: Token-Level Attention Erasure Attack against Diffusion-based Customization
par: Liu, Yisu, et autres
Publié: (2024)

Unified Auto-Encoding with Masked Diffusion
par: Hansen-Estruch, Philippe, et autres
Publié: (2024)

FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies
par: Liang, Shuqiao, et autres
Publié: (2025)

Supervised Contrastive Learning for Few-Shot AI-Generated Image Detection and Attribution
par: Urueña, Jaime Álvarez, et autres
Publié: (2025)

Intrinsic Image Diffusion for Indoor Single-view Material Estimation
par: Kocsis, Peter, et autres
Publié: (2023)

MedVision: Dataset and Benchmark for Quantitative Medical Image Analysis
par: Yao, Yongcheng, et autres
Publié: (2025)

Beyond Few-shot Object Detection: A Detailed Survey
par: Chudasama, Vishal, et autres
Publié: (2024)

Enhancing Long-Term Re-Identification Robustness Using Synthetic Data: A Comparative Analysis
par: Pionzewski, Christian, et autres
Publié: (2025)

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles
par: Oliveira, Daniel, et autres
Publié: (2026)

Multi-modal Loop Closure Detection with Foundation Models in Severely Unstructured Environments
par: Gonzalez, Laura Alejandra Encinar, et autres
Publié: (2025)