:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Xu, Yicheng, Chen, Yuxin, Nie, Jiahao, Wang, Yusong, Zhuang, Huiping, Okumura, Manabu
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2406.18868
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

ReFu: Recursive Fusion for Exemplar-Free 3D Class-Incremental Learning
by: Yang, Yi, et al.
Published: (2024)

Closed-Loop Bidirectional Prompting for Adversarial Robustness of Vision Language Models
by: Liu, Xiao, et al.
Published: (2026)

ELIP: Efficient Discriminative Language-Image Pre-training with Fewer Vision Tokens
by: Guo, Yangyang, et al.
Published: (2023)

Color Space Learning for Cross-Color Person Re-Identification
by: Nie, Jiahao, et al.
Published: (2024)

BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis
by: Cui, Shuang, et al.
Published: (2025)

Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning
by: Zhang, Zhenyu, et al.
Published: (2026)

Dynamic Execution Commitment of Vision-Language-Action Models
by: Chen, Feng, et al.
Published: (2026)

FACT: Feature Adaptive Continual-learning Tracker for Multiple Object Tracking
by: Song, Rongzihan, et al.
Published: (2024)

Semantic Shift Estimation via Dual-Projection and Classifier Reconstruction for Exemplar-Free Class-Incremental Learning
by: He, Run, et al.
Published: (2025)

ExpVid: A Benchmark for Experiment Video Understanding & Reasoning
by: Xu, Yicheng, et al.
Published: (2025)

Recent Advances of Continual Learning in Computer Vision: An Overview
by: Qu, Haoxuan, et al.
Published: (2021)

Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners
by: He, Xuehai, et al.
Published: (2023)

GACL: Exemplar-Free Generalized Analytic Continual Learning
by: Zhuang, Huiping, et al.
Published: (2024)

Quantifying Cross-Modality Memorization in Vision-Language Models
by: Wen, Yuxin, et al.
Published: (2025)

AIR: Analytic Imbalance Rectifier for Continual Learning
by: Fang, Di, et al.
Published: (2024)

Enhanced Continual Learning of Vision-Language Models with Model Fusion
by: Gao, Haoyuan, et al.
Published: (2025)

A Navigation Framework Utilizing Vision-Language Models
by: Duan, Yicheng, et al.
Published: (2025)

ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models
by: Li, Jiahao, et al.
Published: (2025)

MMCIG: Multimodal Cover Image Generation for Text-only Documents and Its Dataset Construction via Pseudo-labeling
by: Kim, Hyeyeon, et al.
Published: (2025)

Hierarchical Dual-Subspace Decoupling for Continual Learning in Vision-Language Models
by: Qin, Mengxin, et al.
Published: (2026)

APEX: Learning Adaptive Priorities for Multi-Objective Alignment in Vision-Language Generation
by: Chen, Dongliang, et al.
Published: (2026)

E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching
by: Nie, Jiahao, et al.
Published: (2026)

DIMoE-Adapters: Dynamic Expert Evolution for Continual Learning in Vision-Language Models
by: Qin, Mengxin, et al.
Published: (2026)

Ancestral Mamba: Enhancing Selective Discriminant Space Model with Online Visual Prototype Learning for Efficient and Robust Discriminant Approach
by: Qin, Jiahao, et al.
Published: (2025)

Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
by: Zhou, Shengchao, et al.
Published: (2025)

EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning
by: Sun, Haoran, et al.
Published: (2025)

Causality-based Cross-Modal Representation Learning for Vision-and-Language Navigation
by: Wang, Liuyi, et al.
Published: (2024)

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
by: Yuan, Tianyuan, et al.
Published: (2025)

MGD-SAM2: Multi-view Guided Detail-enhanced Segment Anything Model 2 for High-Resolution Class-agnostic Segmentation
by: Shen, Haoran, et al.
Published: (2025)

Revisiting Continuity of Image Tokens for Cross-domain Few-shot Learning
by: Yi, Shuai, et al.
Published: (2025)

Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation
by: Wang, Zihan, et al.
Published: (2024)

Enhancing Subsequent Video Retrieval via Vision-Language Models (VLMs)
by: Duan, Yicheng, et al.
Published: (2025)

Continual Vision-Language Learning for Remote Sensing: Benchmarking and Analysis
by: Weng, Xingxing, et al.
Published: (2026)

Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention
by: An, Wenbin, et al.
Published: (2024)

Hierarchical Cross-modal Prompt Learning for Vision-Language Models
by: Zheng, Hao, et al.
Published: (2025)

From Abstraction to Instantiation: Learning Behavioral Representation for Vision-Language-Action Model
by: Hu, Bing, et al.
Published: (2026)

Evidence Packing for Cross-Domain Image Deepfake Detection with LVLMs
by: Liu, Yuxin, et al.
Published: (2026)

Adversarial Robustness of Discriminative Self-Supervised Learning in Vision
by: Çağatan, Ömer Veysel, et al.
Published: (2025)

F-OAL: Forward-only Online Analytic Learning with Fast Training and Low Memory Footprint in Class Incremental Learning
by: Zhuang, Huiping, et al.
Published: (2024)

DS-AL: A Dual-Stream Analytic Learning for Exemplar-Free Class-Incremental Learning
by: Zhuang, Huiping, et al.
Published: (2024)