:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Berjawi, Jad, Dupas, Yoann, C'erin, Christophe
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition I.2.10; I.4.8
Accès en ligne:	https://arxiv.org/abs/2510.17078
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

CLIP-Joint-Detect: End-to-End Joint Training of Object Detectors with Contrastive Vision-Language Supervision
par: Raoufi, Behnam, et autres
Publié: (2025)

Exploring Surround-View Fisheye Camera 3D Object Detection
par: Li, Changcai, et autres
Publié: (2025)

A Light Perspective for 3D Object Detection
par: Pederiva, Marcelo Eduardo, et autres
Publié: (2025)

Reducing Object Hallucination in LVLMs via Emphasizing Image-negative Tokens
par: Shen, Meng, et autres
Publié: (2026)

Car Object Counting and Position Estimation via Extension of the CLIP-EBC Framework
par: Jung, Seoik, et autres
Publié: (2025)

Prompt Sensitivity in Vision-Language Grounding: How Small Changes in Wording Affect Object Detection
par: Deka, Dawar Jyoti, et autres
Publié: (2026)

Evaluating the Impact of Synthetic Data on Object Detection Tasks in Autonomous Driving
par: Özeren, Enes, et autres
Publié: (2025)

SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling
par: Liao, Guanghao, et autres
Publié: (2026)

PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance
par: Satish, Siddarth Nilol Kundur, et autres
Publié: (2026)

Pedestrian Detection in Low-Light Conditions: A Comprehensive Survey
par: Ghari, Bahareh, et autres
Publié: (2024)

Vi-SAFE: A Spatial-Temporal Framework for Efficient Violence Detection in Public Surveillance
par: Chang, Ligang, et autres
Publié: (2025)

SCA-Net: Spatial-Contextual Aggregation Network for Enhanced Small Building and Road Change Detection
par: Gholibeigi, Emad, et autres
Publié: (2026)

OCC-MLLM-CoT-Alpha: Towards Multi-stage Occlusion Recognition Based on Large Language Models via 3D-Aware Supervision and Chain-of-Thoughts Guidance
par: Wang, Chaoyi, et autres
Publié: (2025)

Hierarchical Image-Guided 3D Point Cloud Segmentation in Industrial Scenes via Multi-View Bayesian Fusion
par: Zhu, Yu, et autres
Publié: (2025)

From eye to AI: studying rodent social behavior in the era of machine Learning
par: Chindemi, Giuseppe, et autres
Publié: (2025)

Butter: Frequency Consistency and Hierarchical Fusion for Autonomous Driving Object Detection
par: Lin, Xiaojian, et autres
Publié: (2025)

Selection, Not Fusion: Radar-Modulated State Space Models for Radar-Camera Depth Estimation
par: Hou, Zhangcheng, et autres
Publié: (2026)

A Two-Stage, Object-Centric Deep Learning Framework for Robust Exam Cheating Detection
par: Le, Van-Truong, et autres
Publié: (2026)

Beyond Few-shot Object Detection: A Detailed Survey
par: Chudasama, Vishal, et autres
Publié: (2024)

Context in object detection: a systematic literature review
par: Jamali, Mahtab, et autres
Publié: (2025)

Mask-Conditioned Voxel Diffusion for Joint Geometry and Color Inpainting
par: Sumuk, Aarya
Publié: (2026)

FlowIBR: Leveraging Pre-Training for Efficient Neural Image-Based Rendering of Dynamic Scenes
par: Büsching, Marcel, et autres
Publié: (2023)

IMASHRIMP: Automatic White Shrimp (Penaeus vannamei) Biometrical Analysis from Laboratory Images Using Computer Vision and Deep Learning
par: González, Abiam Remache, et autres
Publié: (2025)

NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models
par: Lee, Kyuho, et autres
Publié: (2025)

A Simple Baseline for Streaming Video Understanding
par: Shen, Yujiao, et autres
Publié: (2026)

EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis
par: Guo, Yijie, et autres
Publié: (2025)

SimWorld: A Unified Benchmark for Simulator-Conditioned Scene Generation via World Model
par: Li, Xinqing, et autres
Publié: (2025)

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation
par: Zeng, Taowen
Publié: (2026)

A Vision-Language Model for Focal Liver Lesion Classification
par: Jian, Song, et autres
Publié: (2025)

Pixel-Level Pavement Distress Assessment Using Instance Segmentation
par: Dewick, Logan, et autres
Publié: (2026)

A Reverse Causal Framework to Mitigate Spurious Correlations for Debiasing Scene Graph Generation
par: Sun, Shuzhou, et autres
Publié: (2025)

Action Anticipation from SoccerNet Football Video Broadcasts
par: Dalal, Mohamad, et autres
Publié: (2025)

A Recipe for Geometry-Aware 3D Mesh Transformers
par: Farazi, Mohammad, et autres
Publié: (2024)

Optimizing the image correction pipeline for pedestrian detection in the thermal-infrared domain
par: Karam, Christophe, et autres
Publié: (2024)

GenMatter: Perceiving Physical Objects with Generative Matter Models
par: Li, Eric, et autres
Publié: (2026)

Temporally Consistent Object 6D Pose Estimation for Robot Control
par: Zorina, Kateryna, et autres
Publié: (2026)

THIRDEYE: Cue-Aware Monocular Depth Estimation via Brain-Inspired Multi-Stage Fusion
par: Ioan, Calin Teodor
Publié: (2025)

Adapting SAM with Dynamic Similarity Graphs for Few-Shot Parameter-Efficient Small Dense Object Detection: A Case Study of Chickpea Pods in Field Conditions
par: Jiang, Xintong, et autres
Publié: (2025)

Light Future: Multimodal Action Frame Prediction via InstructPix2Pix
par: Zhong, Zesen, et autres
Publié: (2025)

Domain-Adaptive Pretraining Improves Primate Behavior Recognition
par: Mueller, Felix B., et autres
Publié: (2025)