:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Wang, Qijie, Liu, Guandu, Wang, Bin
Format:	Preprint
Publié:	2024
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2405.16591
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

MultiModal Fine-tuning with Synthetic Captions
par: Enomoto, Shohei, et autres
Publié: (2026)

Fine-Grained Scene Image Classification with Modality-Agnostic Adapter
par: Wang, Yiqun, et autres
Publié: (2024)

HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter
par: Zhao, Yumiao, et autres
Publié: (2024)

Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning
par: Chen, Junan, et autres
Publié: (2025)

Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification
par: Ji, Zhong, et autres
Publié: (2025)

ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models
par: Kara, Ozgur, et autres
Publié: (2025)

Sparse-Dense Mixture of Experts Adapter for Multi-Modal Tracking
par: Zhu, Yabin, et autres
Publié: (2026)

TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding
par: Zhang, Zhihao, et autres
Publié: (2024)

SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking
par: Hou, Xiaojun, et autres
Publié: (2024)

LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning
par: Tang, Yolo Yunlong, et autres
Publié: (2023)

Dynamical Adapter Fusion: Constructing A Global Adapter for Pre-Trained Model-based Class-Incremental Learning
par: Liu, Ruiqi, et autres
Publié: (2026)

TPCap: Unlocking Zero-Shot Image Captioning with Trigger-Augmented and Multi-Modal Purification Modules
par: Zhang, Ruoyu, et autres
Publié: (2025)

RMAdapter: Reconstruction-based Multi-Modal Adapter for Vision-Language Models
par: Lin, Xiang, et autres
Publié: (2025)

MultiModal Action Conditioned Video Generation
par: Li, Yichen, et autres
Publié: (2025)

Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation
par: Li, Yongkang, et autres
Publié: (2024)

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter
par: Zhong, Weizhi, et autres
Publié: (2025)

M3: 3D-Spatial MultiModal Memory
par: Zou, Xueyan, et autres
Publié: (2025)

Multi-Modal Adapter for Vision-Language Models
par: Seputis, Dominykas, et autres
Publié: (2024)

Few-Shot-Based Modular Image-to-Video Adapter for Diffusion Models
par: Li, Zhenhao, et autres
Publié: (2025)

Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter
par: Xing, Peng, et autres
Publié: (2024)

Semantic Relation-Enhanced CLIP Adapter for Domain Adaptive Zero-Shot Learning
par: Yu, Jiaao, et autres
Publié: (2025)

MeaCap: Memory-Augmented Zero-shot Image Captioning
par: Zeng, Zequn, et autres
Publié: (2024)

MMA-Diffusion: MultiModal Attack on Diffusion Models
par: Yang, Yijun, et autres
Publié: (2023)

DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection
par: Shao, Rui, et autres
Publié: (2023)

ControlEdit: A MultiModal Local Clothing Image Editing Method
par: Cheng, Di, et autres
Publié: (2024)

Anomaly-Aware Vision-Language Adapters for Zero-Shot Anomaly Detection
par: Aqeel, Muhammad, et autres
Publié: (2026)

AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers
par: Khazem, Salim
Publié: (2026)

MMRPT: MultiModal Reinforcement Pre-Training via Masked Vision-Dependent Reasoning
par: Zheng, Xuhui, et autres
Publié: (2025)

EAD: An EEG Adapter for Automated Classification
par: Singh, Pushapdeep, et autres
Publié: (2025)

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
par: Cheng, Jiaxiang, et autres
Publié: (2024)

Domain-Rectifying Adapter for Cross-Domain Few-Shot Segmentation
par: Su, Jiapeng, et autres
Publié: (2024)

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
par: Hao, Yunzhuo, et autres
Publié: (2025)

Cross-Modal Adapter for Vision-Language Retrieval
par: Jiang, Haojun, et autres
Publié: (2022)

Negative Entity Suppression for Zero-Shot Captioning with Synthetic Images
par: Lu, Zimao, et autres
Publié: (2025)

CLIP-Adapter: Better Vision-Language Models with Feature Adapters
par: Gao, Peng, et autres
Publié: (2021)

Re-M3Dr: Rebalanced MultiModal Mean Deviation Regression
par: Yin, Haojie, et autres
Publié: (2026)

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters
par: Vorster, Chris, et autres
Publié: (2026)

SuperCap: Multi-resolution Superpixel-based Image Captioning
par: Senior, Henry, et autres
Publié: (2025)

Cross Fusion RGB-T Tracking with Bi-directional Adapter
par: Zeng, Zhirong, et autres
Publié: (2024)

I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models
par: Guo, Xun, et autres
Publié: (2023)