:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Kim, Jonghun, Ra, Sinyoung, Park, Hyunjin
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2604.02748
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Privacy-Preserving Chest X-ray Classification in Latent Space with Homomorphically Encrypted Neural Inference
by: Kim, Jonghun, et al.
Published: (2025)

Adaptive Latent Diffusion Model for 3D Medical Image to Image Translation: Multi-modal Magnetic Resonance Imaging Study
by: Kim, Jonghun, et al.
Published: (2023)

Domain Aware Multi-Task Pretraining of 3D Swin Transformer for T1-weighted Brain MRI
by: Kim, Jonghun, et al.
Published: (2024)

Simulating Post-Neoadjuvant Chemotherapy Breast Cancer MRI via Diffusion Model with Prompt Tuning
by: Kim, Jonghun, et al.
Published: (2025)

Radiomics-guided Multimodal Self-attention Network for Predicting Pathological Complete Response in Breast MRI
by: Kim, Jonghun, et al.
Published: (2024)

Tumor Synthesis conditioned on Radiomics
by: Kim, Jonghun, et al.
Published: (2025)

RadiomicsFill-Mammo: Synthetic Mammogram Mass Manipulation with Radiomics Features
by: Na, Inye, et al.
Published: (2024)

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions
by: Lin, Weifeng, et al.
Published: (2024)

PartSTAD: 2D-to-3D Part Segmentation Task Adaptation
by: Kim, Hyunjin, et al.
Published: (2024)

Metropolis-Hastings Sampling for 3D Gaussian Reconstruction
by: Kim, Hyunjin, et al.
Published: (2025)

Maya: An Instruction Finetuned Multilingual Multimodal Model
by: Alam, Nahid, et al.
Published: (2024)

Instruction-Free Tuning of Large Vision Language Models for Medical Instruction Following
by: Kang, Myeongkyun, et al.
Published: (2026)

Two-Stage Approach for Brain MR Image Synthesis: 2D Image Synthesis and 3D Refinement
by: Cho, Jihoon, et al.
Published: (2024)

LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation
by: Lee, Suhyeon, et al.
Published: (2023)

RadiomicsRetrieval: A Customizable Framework for Medical Image Retrieval Using Radiomics Features
by: Na, Inye, et al.
Published: (2025)

From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning
by: Bai, Yang, et al.
Published: (2024)

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters
by: Wang, Weizhi, et al.
Published: (2024)

TB-AVA: Text as a Semantic Bridge for Audio-Visual Parameter Efficient Finetuning
by: Kim, Seongah, et al.
Published: (2026)

VividMed: Vision Language Model with Versatile Visual Grounding for Medicine
by: Luo, Lingxiao, et al.
Published: (2024)

Anchor-based Robust Finetuning of Vision-Language Models
by: Han, Jinwei, et al.
Published: (2024)

Disentangled Multimodal Brain MR Image Translation via Transformer-based Modality Infuser
by: Cho, Jihoon, et al.
Published: (2024)

Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models
by: Jin, Hyundong, et al.
Published: (2025)

VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model
by: Yang, Jinze, et al.
Published: (2024)

Deep Superpixel Generation and Clustering for Weakly Supervised Segmentation of Brain Tumors in MR Images
by: Yoo, Jay J., et al.
Published: (2022)

On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models
by: Seo, Hoigi, et al.
Published: (2025)

GOATex: Geometry & Occlusion-Aware Texturing
by: Kim, Hyunjin, et al.
Published: (2025)

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
by: Zhang, Wenqi, et al.
Published: (2024)

Impact of Clinical Image Quality on Efficient Foundation Model Finetuning
by: Tang, Yucheng, et al.
Published: (2025)

MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model
by: Ren, Ziqi, et al.
Published: (2024)

A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting
by: Zhuang, Junhao, et al.
Published: (2023)

Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning
by: Ma, Qianli, et al.
Published: (2024)

Robust Pedestrian Detection via Constructing Versatile Pedestrian Knowledge Bank
by: Park, Sungjune, et al.
Published: (2024)

VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis
by: Pang, Chao, et al.
Published: (2024)

Learning Brain Tumor Representation in 3D High-Resolution MR Images via Interpretable State Space Models
by: Hu, Qingqiao, et al.
Published: (2024)

Explainability of Deep Neural Networks for Brain Tumor Detection
by: Park, S., et al.
Published: (2024)

Visual Autoregressive Modeling for Instruction-Guided Image Editing
by: Mao, Qingyang, et al.
Published: (2025)

DreamCom: Finetuning Text-guided Inpainting Model for Image Composition
by: Lu, Lingxiao, et al.
Published: (2023)

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing
by: Zhang, Huanyu, et al.
Published: (2026)

Task Matrices: Linear Maps for Cross-Model Finetuning Transfer
by: Brien, Darrin O', et al.
Published: (2025)

Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy
by: Yang, Te, et al.
Published: (2024)