:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Mandal, Subhra Jyoti, Rachidi, Lara, Jain, Puneet, Duvinage, Matthieu, Timmer, Sander W.
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2602.20543
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Comparative Evaluation of Applicability Domain Definition Methods for Regression Models
by: Khurshid, Shakir, et al.
Published: (2024)

Privacy-Preserving Computer Vision for Industry: Three Case Studies in Human-Centric Manufacturing
by: De Coninck, Sander, et al.
Published: (2025)

Evaluating Vision Transformer Models for Visual Quality Control in Industrial Manufacturing
by: Alber, Miriam, et al.
Published: (2024)

In-Context-Learning-Assisted Quality Assessment Vision-Language Models for Metal Additive Manufacturing
by: Zheng, Qiaojie, et al.
Published: (2025)

Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation
by: Padhan, Swagat, et al.
Published: (2026)

Vision Large Language Models Are Good Noise Handlers in Engagement Analysis
by: Vedernikov, Alexander, et al.
Published: (2025)

FREE: Fast and Robust Vision Language Models with Early Exits
by: Bajpai, Divya Jyoti, et al.
Published: (2025)

VitaTouch: Property-Aware Vision-Tactile-Language Model for Robotic Quality Inspection in Manufacturing
by: Zong, Junyi, et al.
Published: (2026)

Interpretable Image Emotion Recognition: A Domain Adaptation Approach Using Facial Expressions
by: Kumar, Puneet, et al.
Published: (2020)

Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks
by: Shandilya, Utkarsh, et al.
Published: (2025)

Why Do Vision Language Models Struggle To Recognize Human Emotions?
by: Agarwal, Madhav, et al.
Published: (2026)

Data Collection for Training Quality-Control AI in Carpet Manufacturing
by: Erkinov, Akbar
Published: (2026)

Beyond Human Vision: The Role of Large Vision Language Models in Microscope Image Analysis
by: Verma, Prateek, et al.
Published: (2024)

Beyond Images: Adaptive Fusion of Visual and Textual Data for Food Classification
by: Mittal, Prateek, et al.
Published: (2023)

Vision-Language Models vs Human: Perceptual Image Quality Assessment
by: Mehmood, Imran, et al.
Published: (2026)

Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning
by: Shukor, Mustafa, et al.
Published: (2023)

Unboxing Engagement in YouTube Influencer Videos: An Attention-Based Approach
by: Rajaram, Prashant, et al.
Published: (2020)

BEEM: Boosting Performance of Early Exit DNNs using Multi-Exit Classifiers as Experts
by: Bajpai, Divya Jyoti, et al.
Published: (2025)

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models
by: Das, Rocktim Jyoti, et al.
Published: (2024)

A Hamilton-Jacobi Approach for Nonlinear Model Predictive Control in Applications with Navigational Uncertainty
by: Jain, Amit, et al.
Published: (2025)

Sanitizing Manufacturing Dataset Labels Using Vision-Language Models
by: Mahjourian, Nazanin, et al.
Published: (2025)

On the Holistic Approach for Detecting Human Image Forgery
by: Guo, Xiao, et al.
Published: (2026)

A Multi-Camera Vision-Based Approach for Fine-Grained Assembly Quality Control
by: Nazeri, Ali, et al.
Published: (2025)

FusionAgent: A Multimodal Agent with Dynamic Model Selection for Human Recognition
by: Zhu, Jie, et al.
Published: (2026)

Agent Journey Beyond RGB: Hierarchical Semantic-Spatial Representation Enrichment for Vision-and-Language Navigation
by: Zhang, Xuesong, et al.
Published: (2024)

Scaling Vision Language Models for Pharmaceutical Long Form Video Reasoning on Industrial GenAI Platform
by: Mishra, Suyash, et al.
Published: (2026)

Controlling Vision-Language Models for Multi-Task Image Restoration
by: Luo, Ziwei, et al.
Published: (2023)

ScreenAgent: A Vision Language Model-driven Computer Control Agent
by: Niu, Runliang, et al.
Published: (2024)

Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning
by: Vedanshu, et al.
Published: (2024)

A Quality-Guided Mixture of Score-Fusion Experts Framework for Human Recognition
by: Zhu, Jie, et al.
Published: (2025)

Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models
by: You, Zhiyuan, et al.
Published: (2023)

Vision-Language Models for Infrared Industrial Sensing in Additive Manufacturing Scene Description
by: Mahjourian, Nazanin, et al.
Published: (2025)

Assistive XR research for disability at ACM ASSETS: A Scoping Review
by: Jain, Puneet
Published: (2025)

MAIL++: Multi-Modal Bi-directional Agent Layer for Vision-Language Models
by: Chen, Kaixiang, et al.
Published: (2026)

Collecting Consistently High Quality Object Tracks with Minimal Human Involvement by Using Self-Supervised Learning to Detect Tracker Errors
by: Anjum, Samreen, et al.
Published: (2024)

Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models
by: Hossain, Shamima
Published: (2025)

Learning to Assist: Physics-Grounded Human-Human Control via Multi-Agent Reinforcement Learning
by: Shibata, Yuto, et al.
Published: (2026)

BabyVision: Visual Reasoning Beyond Language
by: Chen, Liang, et al.
Published: (2026)

Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models
by: Waseda, Futa, et al.
Published: (2025)

Enhancing Glass Defect Detection with Diffusion Models: Addressing Imbalanced Datasets in Manufacturing Quality Control
by: Boroujeni, Sajjad Rezvani, et al.
Published: (2025)