Enregistré dans:
| Auteurs principaux: | Peinl, René, Tischler, Vincent, Schröder, Patrick, Groth, Christian |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2602.00108 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
BugNIST -- a Large Volumetric Dataset for Object Detection under Domain Shift
par: Jensen, Patrick Møller, et autres
Publié: (2023)
par: Jensen, Patrick Møller, et autres
Publié: (2023)
VLM@school -- Evaluation of AI image understanding on German middle school knowledge
par: Peinl, René, et autres
Publié: (2025)
par: Peinl, René, et autres
Publié: (2025)
Demo-Pose: Depth-Monocular Modality Fusion For Object Pose Estimation
par: Agarwal, Rachit, et autres
Publié: (2026)
par: Agarwal, Rachit, et autres
Publié: (2026)
Robust Visual Question Answering: Datasets, Methods, and Future Challenges
par: Ma, Jie, et autres
Publié: (2023)
par: Ma, Jie, et autres
Publié: (2023)
Evaluation of Environmental Conditions on Object Detection using Oriented Bounding Boxes for AR Applications
par: Li, Vladislav, et autres
Publié: (2023)
par: Li, Vladislav, et autres
Publié: (2023)
MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model
par: Yang, Shan
Publié: (2024)
par: Yang, Shan
Publié: (2024)
Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation
par: Wu, Qingyu, et autres
Publié: (2026)
par: Wu, Qingyu, et autres
Publié: (2026)
GenMatter: Perceiving Physical Objects with Generative Matter Models
par: Li, Eric, et autres
Publié: (2026)
par: Li, Eric, et autres
Publié: (2026)
ChartComplete: A Taxonomy-based Inclusive Chart Dataset
par: Mustapha, Ahmad, et autres
Publié: (2026)
par: Mustapha, Ahmad, et autres
Publié: (2026)
A Two-Stage, Object-Centric Deep Learning Framework for Robust Exam Cheating Detection
par: Le, Van-Truong, et autres
Publié: (2026)
par: Le, Van-Truong, et autres
Publié: (2026)
GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics
par: Zhang, Yan, et autres
Publié: (2026)
par: Zhang, Yan, et autres
Publié: (2026)
Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views
par: Chen, Zhangquan, et autres
Publié: (2025)
par: Chen, Zhangquan, et autres
Publié: (2025)
Image Segmentation and Classification of E-waste for Training Robots for Waste Segregation
par: Tripathi, Prakriti
Publié: (2025)
par: Tripathi, Prakriti
Publié: (2025)
ProtoFlow: Interpretable and Robust Surgical Workflow Modeling with Learned Dynamic Scene Graph Prototypes
par: Holm, Felix, et autres
Publié: (2025)
par: Holm, Felix, et autres
Publié: (2025)
Siamese Networks for Cat Re-Identification: Exploring Neural Models for Cat Instance Recognition
par: Trein, Tobias, et autres
Publié: (2025)
par: Trein, Tobias, et autres
Publié: (2025)
Appearance-based gaze estimation enhanced with synthetic images using deep neural networks
par: Herashchenko, Dmytro, et autres
Publié: (2023)
par: Herashchenko, Dmytro, et autres
Publié: (2023)
From Prompt to Production:Automating Brand-Safe Marketing Imagery with Text-to-Image Models
par: Atighehchian, Parmida, et autres
Publié: (2026)
par: Atighehchian, Parmida, et autres
Publié: (2026)
Attentive VQ-VAE
par: Hoyos, Angello, et autres
Publié: (2023)
par: Hoyos, Angello, et autres
Publié: (2023)
Sora as a World Model? A Complete Survey on Text-to-Video Generation
par: Puspitasari, Fachrina Dewi, et autres
Publié: (2024)
par: Puspitasari, Fachrina Dewi, et autres
Publié: (2024)
TexTailor: Customized Text-aligned Texturing via Effective Resampling
par: Lee, Suin, et autres
Publié: (2025)
par: Lee, Suin, et autres
Publié: (2025)
SIFThinker: Spatially-Aware Image Focus for Visual Reasoning
par: Chen, Zhangquan, et autres
Publié: (2025)
par: Chen, Zhangquan, et autres
Publié: (2025)
OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
par: Chen, Zhangquan, et autres
Publié: (2026)
par: Chen, Zhangquan, et autres
Publié: (2026)
CLIP Embeddings for AI-Generated Image Detection: A Few-Shot Study with Lightweight Classifier
par: Ou, Ziyang
Publié: (2025)
par: Ou, Ziyang
Publié: (2025)
Rethinking Multimodal Point Cloud Completion: A Completion-by-Correction Perspective
par: Luo, Wang, et autres
Publié: (2025)
par: Luo, Wang, et autres
Publié: (2025)
CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging
par: Safdar, Aon, et autres
Publié: (2025)
par: Safdar, Aon, et autres
Publié: (2025)
Next-Generation License Plate Detection and Recognition System using YOLOv8
par: Amin, Arslan, et autres
Publié: (2025)
par: Amin, Arslan, et autres
Publié: (2025)
3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding
par: Chen, Yiping, et autres
Publié: (2026)
par: Chen, Yiping, et autres
Publié: (2026)
VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding
par: He, Jianxiang, et autres
Publié: (2025)
par: He, Jianxiang, et autres
Publié: (2025)
Instruction-based Image Editing with Planning, Reasoning, and Generation
par: Ji, Liya, et autres
Publié: (2026)
par: Ji, Liya, et autres
Publié: (2026)
Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs
par: Feng, Yigui, et autres
Publié: (2026)
par: Feng, Yigui, et autres
Publié: (2026)
Disrupting Diffusion: Token-Level Attention Erasure Attack against Diffusion-based Customization
par: Liu, Yisu, et autres
Publié: (2024)
par: Liu, Yisu, et autres
Publié: (2024)
Unified Auto-Encoding with Masked Diffusion
par: Hansen-Estruch, Philippe, et autres
Publié: (2024)
par: Hansen-Estruch, Philippe, et autres
Publié: (2024)
FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies
par: Liang, Shuqiao, et autres
Publié: (2025)
par: Liang, Shuqiao, et autres
Publié: (2025)
Supervised Contrastive Learning for Few-Shot AI-Generated Image Detection and Attribution
par: Urueña, Jaime Álvarez, et autres
Publié: (2025)
par: Urueña, Jaime Álvarez, et autres
Publié: (2025)
Intrinsic Image Diffusion for Indoor Single-view Material Estimation
par: Kocsis, Peter, et autres
Publié: (2023)
par: Kocsis, Peter, et autres
Publié: (2023)
MedVision: Dataset and Benchmark for Quantitative Medical Image Analysis
par: Yao, Yongcheng, et autres
Publié: (2025)
par: Yao, Yongcheng, et autres
Publié: (2025)
Beyond Few-shot Object Detection: A Detailed Survey
par: Chudasama, Vishal, et autres
Publié: (2024)
par: Chudasama, Vishal, et autres
Publié: (2024)
Enhancing Long-Term Re-Identification Robustness Using Synthetic Data: A Comparative Analysis
par: Pionzewski, Christian, et autres
Publié: (2025)
par: Pionzewski, Christian, et autres
Publié: (2025)
StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles
par: Oliveira, Daniel, et autres
Publié: (2026)
par: Oliveira, Daniel, et autres
Publié: (2026)
Multi-modal Loop Closure Detection with Foundation Models in Severely Unstructured Environments
par: Gonzalez, Laura Alejandra Encinar, et autres
Publié: (2025)
par: Gonzalez, Laura Alejandra Encinar, et autres
Publié: (2025)
Documents similaires
-
BugNIST -- a Large Volumetric Dataset for Object Detection under Domain Shift
par: Jensen, Patrick Møller, et autres
Publié: (2023) -
VLM@school -- Evaluation of AI image understanding on German middle school knowledge
par: Peinl, René, et autres
Publié: (2025) -
Demo-Pose: Depth-Monocular Modality Fusion For Object Pose Estimation
par: Agarwal, Rachit, et autres
Publié: (2026) -
Robust Visual Question Answering: Datasets, Methods, and Future Challenges
par: Ma, Jie, et autres
Publié: (2023) -
Evaluation of Environmental Conditions on Object Detection using Oriented Bounding Boxes for AR Applications
par: Li, Vladislav, et autres
Publié: (2023)