Enregistré dans:
| Auteurs principaux: | Wang, Qijie, Liu, Guandu, Wang, Bin |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2405.16591 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
MultiModal Fine-tuning with Synthetic Captions
par: Enomoto, Shohei, et autres
Publié: (2026)
par: Enomoto, Shohei, et autres
Publié: (2026)
Fine-Grained Scene Image Classification with Modality-Agnostic Adapter
par: Wang, Yiqun, et autres
Publié: (2024)
par: Wang, Yiqun, et autres
Publié: (2024)
HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter
par: Zhao, Yumiao, et autres
Publié: (2024)
par: Zhao, Yumiao, et autres
Publié: (2024)
Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning
par: Chen, Junan, et autres
Publié: (2025)
par: Chen, Junan, et autres
Publié: (2025)
Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification
par: Ji, Zhong, et autres
Publié: (2025)
par: Ji, Zhong, et autres
Publié: (2025)
ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models
par: Kara, Ozgur, et autres
Publié: (2025)
par: Kara, Ozgur, et autres
Publié: (2025)
Sparse-Dense Mixture of Experts Adapter for Multi-Modal Tracking
par: Zhu, Yabin, et autres
Publié: (2026)
par: Zhu, Yabin, et autres
Publié: (2026)
TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding
par: Zhang, Zhihao, et autres
Publié: (2024)
par: Zhang, Zhihao, et autres
Publié: (2024)
SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking
par: Hou, Xiaojun, et autres
Publié: (2024)
par: Hou, Xiaojun, et autres
Publié: (2024)
LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning
par: Tang, Yolo Yunlong, et autres
Publié: (2023)
par: Tang, Yolo Yunlong, et autres
Publié: (2023)
Dynamical Adapter Fusion: Constructing A Global Adapter for Pre-Trained Model-based Class-Incremental Learning
par: Liu, Ruiqi, et autres
Publié: (2026)
par: Liu, Ruiqi, et autres
Publié: (2026)
TPCap: Unlocking Zero-Shot Image Captioning with Trigger-Augmented and Multi-Modal Purification Modules
par: Zhang, Ruoyu, et autres
Publié: (2025)
par: Zhang, Ruoyu, et autres
Publié: (2025)
RMAdapter: Reconstruction-based Multi-Modal Adapter for Vision-Language Models
par: Lin, Xiang, et autres
Publié: (2025)
par: Lin, Xiang, et autres
Publié: (2025)
MultiModal Action Conditioned Video Generation
par: Li, Yichen, et autres
Publié: (2025)
par: Li, Yichen, et autres
Publié: (2025)
Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation
par: Li, Yongkang, et autres
Publié: (2024)
par: Li, Yongkang, et autres
Publié: (2024)
Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter
par: Zhong, Weizhi, et autres
Publié: (2025)
par: Zhong, Weizhi, et autres
Publié: (2025)
M3: 3D-Spatial MultiModal Memory
par: Zou, Xueyan, et autres
Publié: (2025)
par: Zou, Xueyan, et autres
Publié: (2025)
Multi-Modal Adapter for Vision-Language Models
par: Seputis, Dominykas, et autres
Publié: (2024)
par: Seputis, Dominykas, et autres
Publié: (2024)
Few-Shot-Based Modular Image-to-Video Adapter for Diffusion Models
par: Li, Zhenhao, et autres
Publié: (2025)
par: Li, Zhenhao, et autres
Publié: (2025)
Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter
par: Xing, Peng, et autres
Publié: (2024)
par: Xing, Peng, et autres
Publié: (2024)
Semantic Relation-Enhanced CLIP Adapter for Domain Adaptive Zero-Shot Learning
par: Yu, Jiaao, et autres
Publié: (2025)
par: Yu, Jiaao, et autres
Publié: (2025)
MeaCap: Memory-Augmented Zero-shot Image Captioning
par: Zeng, Zequn, et autres
Publié: (2024)
par: Zeng, Zequn, et autres
Publié: (2024)
MMA-Diffusion: MultiModal Attack on Diffusion Models
par: Yang, Yijun, et autres
Publié: (2023)
par: Yang, Yijun, et autres
Publié: (2023)
DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection
par: Shao, Rui, et autres
Publié: (2023)
par: Shao, Rui, et autres
Publié: (2023)
ControlEdit: A MultiModal Local Clothing Image Editing Method
par: Cheng, Di, et autres
Publié: (2024)
par: Cheng, Di, et autres
Publié: (2024)
Anomaly-Aware Vision-Language Adapters for Zero-Shot Anomaly Detection
par: Aqeel, Muhammad, et autres
Publié: (2026)
par: Aqeel, Muhammad, et autres
Publié: (2026)
AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers
par: Khazem, Salim
Publié: (2026)
par: Khazem, Salim
Publié: (2026)
MMRPT: MultiModal Reinforcement Pre-Training via Masked Vision-Dependent Reasoning
par: Zheng, Xuhui, et autres
Publié: (2025)
par: Zheng, Xuhui, et autres
Publié: (2025)
EAD: An EEG Adapter for Automated Classification
par: Singh, Pushapdeep, et autres
Publié: (2025)
par: Singh, Pushapdeep, et autres
Publié: (2025)
ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
par: Cheng, Jiaxiang, et autres
Publié: (2024)
par: Cheng, Jiaxiang, et autres
Publié: (2024)
Domain-Rectifying Adapter for Cross-Domain Few-Shot Segmentation
par: Su, Jiapeng, et autres
Publié: (2024)
par: Su, Jiapeng, et autres
Publié: (2024)
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
par: Hao, Yunzhuo, et autres
Publié: (2025)
par: Hao, Yunzhuo, et autres
Publié: (2025)
Cross-Modal Adapter for Vision-Language Retrieval
par: Jiang, Haojun, et autres
Publié: (2022)
par: Jiang, Haojun, et autres
Publié: (2022)
Negative Entity Suppression for Zero-Shot Captioning with Synthetic Images
par: Lu, Zimao, et autres
Publié: (2025)
par: Lu, Zimao, et autres
Publié: (2025)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters
par: Gao, Peng, et autres
Publié: (2021)
par: Gao, Peng, et autres
Publié: (2021)
Re-M3Dr: Rebalanced MultiModal Mean Deviation Regression
par: Yin, Haojie, et autres
Publié: (2026)
par: Yin, Haojie, et autres
Publié: (2026)
Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters
par: Vorster, Chris, et autres
Publié: (2026)
par: Vorster, Chris, et autres
Publié: (2026)
SuperCap: Multi-resolution Superpixel-based Image Captioning
par: Senior, Henry, et autres
Publié: (2025)
par: Senior, Henry, et autres
Publié: (2025)
Cross Fusion RGB-T Tracking with Bi-directional Adapter
par: Zeng, Zhirong, et autres
Publié: (2024)
par: Zeng, Zhirong, et autres
Publié: (2024)
I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models
par: Guo, Xun, et autres
Publié: (2023)
par: Guo, Xun, et autres
Publié: (2023)
Documents similaires
-
MultiModal Fine-tuning with Synthetic Captions
par: Enomoto, Shohei, et autres
Publié: (2026) -
Fine-Grained Scene Image Classification with Modality-Agnostic Adapter
par: Wang, Yiqun, et autres
Publié: (2024) -
HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter
par: Zhao, Yumiao, et autres
Publié: (2024) -
Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning
par: Chen, Junan, et autres
Publié: (2025) -
Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification
par: Ji, Zhong, et autres
Publié: (2025)