:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Van Tu, Nguyen, Long, Pham Nguyen Hai, Viet, Vo Hoai
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2509.18913
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Driver Attention Tracking and Analysis
by: Nguyen, Dat Viet Thanh, et al.
Published: (2024)

Detecting Omissions in Geographic Maps through Computer Vision
by: Nguyen, Phuc D. A., et al.
Published: (2024)

Enhancing the Fairness and Performance of Edge Cameras with Explainable AI
by: Nguyen, Truong Thanh Hung, et al.
Published: (2024)

WriteViT: Handwritten Text Generation with Vision Transformer
by: Nam, Dang Hoai, et al.
Published: (2025)

A Hierarchical Computer Vision Pipeline for Physiological Data Extraction from Bedside Monitors
by: Chau, Vinh, et al.
Published: (2025)

Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance
by: Pham, Duc-Hai, et al.
Published: (2024)

Lifelong Whole Slide Image Analysis: Online Vision-Language Adaptation and Past-to-Present Gradient Distillation
by: Bui, Doanh C., et al.
Published: (2025)

A Deep-Learning Framework for Land-Sliding Classification from Remote Sensing Image
by: Tang, Hieu, et al.
Published: (2025)

LangXAI: Integrating Large Vision Models for Generating Textual Explanations to Enhance Explainability in Visual Perception Tasks
by: Nguyen, Truong Thanh Hung, et al.
Published: (2024)

AC-MAMBASEG: An adaptive convolution and Mamba-based architecture for enhanced skin lesion segmentation
by: Nguyen, Viet-Thanh, et al.
Published: (2024)

SwiftPie: Lightning-fast Subject-driven Image Personalization via One step Diffusion
by: Duong, Huy, et al.
Published: (2026)

Count What You Want: Exemplar Identification and Few-shot Counting of Human Actions in the Wild
by: Huang, Yifeng, et al.
Published: (2023)

Can Current AI Models Count What We Mean, Not What They See? A Benchmark and Systematic Evaluation
by: Nguyen, Gia Khanh, et al.
Published: (2025)

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Text Recognition
by: Truc, Pham Thach Thanh, et al.
Published: (2025)

VinDr-CXR-VQA: A Visual Question Answering Dataset for Explainable Chest X-Ray Analysis with Multi-Task Learning
by: Nguyen, Dang H., et al.
Published: (2025)

Blur2Blur: Blur Conversion for Unsupervised Image Deblurring on Unknown Domains
by: Pham, Bang-Dang, et al.
Published: (2024)

ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images
by: Pham, Huy Quang, et al.
Published: (2024)

Advanced Machine Learning Approaches for Enhancing Person Re-Identification Performance
by: Pham, Dang H., et al.
Published: (2026)

TinySense: Effective CSI Compression for Scalable and Accurate Wi-Fi Sensing
by: Gian, Toan, et al.
Published: (2026)

Supercharged One-step Text-to-Image Diffusion Models with Negative Prompts
by: Nguyen, Viet, et al.
Published: (2024)

Hierarchical Neural Collapse Detection Transformer for Class Incremental Object Detection
by: Pham, Duc Thanh, et al.
Published: (2025)

An Explainable AI Framework for Artificial Intelligence of Medical Things
by: Amin, Al, et al.
Published: (2024)

ODExAI: A Comprehensive Object Detection Explainable AI Evaluation
by: Nguyen, Loc Phuc Truong, et al.
Published: (2025)

FW-GAN: Frequency-Driven Handwriting Synthesis with Wave-Modulated MLP Generator
by: Khoa, Huynh Tong Dang, et al.
Published: (2025)

More Reliable Pseudo-labels, Better Performance: A Generalized Approach to Single Positive Multi-label Learning
by: Tran, Luong, et al.
Published: (2025)

Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models
by: Nguyen, Manh Duong, et al.
Published: (2025)

UniSemAlign: Text-Prototype Alignment with a Foundation Encoder for Semi-Supervised Histopathology Segmentation
by: Thai, Le-Van, et al.
Published: (2026)

Training Deep Visual Networks Beyond Loss and Accuracy Through a Dynamical Systems Approach
by: La Quang, Hai, et al.
Published: (2026)

MergeSlide: Continual Model Merging and Task-to-Class Prompt-Aligned Inference for Lifelong Learning on Whole Slide Images
by: Bui, Doanh C., et al.
Published: (2025)

Response-Aware Multimodal Learning for Post-Treatment Visual Acuity Forecasting
by: Bui, Phuoc-Nguyen, et al.
Published: (2026)

ZeroSlide: Is Zero-Shot Classification Adequate for Lifelong Learning in Whole-Slide Image Analysis in the Era of Pathology Vision-Language Foundation Models?
by: Bui, Doanh C., et al.
Published: (2025)

CV-Arena: An Open Benchmark for Instructional Computer Vision Problem Solving with Human-AI Collaborative Preferences
by: Lin, Fangzhou, et al.
Published: (2026)

WiCV at CVPR 2025: The Women in Computer Vision Workshop
by: Talavera, Estefania, et al.
Published: (2025)

SpikeCV: Open a Continuous Computer Vision Era
by: Zheng, Yajing, et al.
Published: (2023)

SHREC 2025: Retrieval of Optimal Objects for Multi-modal Enhanced Language and Spatial Assistance (ROOMELSA)
by: Nguyen, Trong-Thuan, et al.
Published: (2025)

Predictive Spectral Calibration for Source-Free Test-Time Regression
by: Kiet, Nguyen Viet Tuan, et al.
Published: (2026)

Vision Language Models are Biased
by: Vo, An, et al.
Published: (2025)

Toward a Vision-Language Foundation Model for Medical Data: Multimodal Dataset and Benchmarks for Vietnamese PET/CT Report Generation
by: Nguyen, Huu Tien, et al.
Published: (2025)

Toward Content-based Indexing and Retrieval of Head and Neck CT with Abscess Segmentation
by: Dao, Thao Thi Phuong, et al.
Published: (2025)

MMAP: A Multi-Magnification and Prototype-Aware Architecture for Predicting Spatial Gene Expression
by: Nguyen, Hai Dang, et al.
Published: (2025)