:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Gao, Yuan, Kim, Sangwook, Austin, David E, McIntosh, Chris
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2403.12894
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

ProbMed: A Probabilistic Framework for Medical Multimodal Binding
by: Gao, Yuan, et al.
Published: (2025)

EchoingECG: An Electrocardiogram Cross-Modal Model for Echocardiogram Tasks
by: Gao, Yuan, et al.
Published: (2025)

Multi-Task Learning for Integrated Automated Contouring and Voxel-Based Dose Prediction in Radiotherapy
by: Kim, Sangwook, et al.
Published: (2024)

X2CT-CLIP: Enable Multi-Abnormality Detection in Computed Tomography from Chest Radiography via Tri-Modal Contrastive Learning
by: You, Jianzhong, et al.
Published: (2025)

ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images
by: Kim, Sangwook, et al.
Published: (2025)

BAAF: Universal Transformation of One-Class Classifiers for Unsupervised Image Anomaly Detection
by: McIntosh, Declan, et al.
Published: (2026)

Non-invasive Liver Fibrosis Screening on CT Images using Radiomics
by: Yoo, Jay J., et al.
Published: (2022)

UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings
by: Qin, Jiajun, et al.
Published: (2025)

GenFlow: Generalizable Recurrent Flow for 6D Pose Refinement of Novel Objects
by: Moon, Sungphill, et al.
Published: (2024)

Co-op: Correspondence-based Novel Object Pose Estimation
by: Moon, Sungphill, et al.
Published: (2025)

PixelBytes: Catching Unified Embedding for Multimodal Generation
by: Furfaro, Fabien
Published: (2024)

A Lightweight Large Vision-language Model for Multimodal Medical Images
by: Alsinglawi, Belal, et al.
Published: (2025)

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM
by: Tang, Changli, et al.
Published: (2025)

CheXmix: Unified Generative Pretraining for Vision Language Models in Medical Imaging
by: Kumar, Ashwin, et al.
Published: (2026)

STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation
by: Shen, Ying, et al.
Published: (2026)

Embedding Radiomics into Vision Transformers for Multimodal Medical Image Classification
by: Yang, Zhenyu, et al.
Published: (2025)

InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
by: Wang, Haomin, et al.
Published: (2025)

Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation
by: Mao, Jiawei, et al.
Published: (2025)

Beyond Medical Diagnostics: How Medical Multimodal Large Language Models Think in Space
by: Trinh, Quoc-Huy, et al.
Published: (2026)

Unified Multimodal Models as Auto-Encoders
by: Yan, Zhiyuan, et al.
Published: (2025)

UniNote: A Unified Embedding Model for Multimodal Representation and Ranking
by: Zhao, Jinghan, et al.
Published: (2026)

Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation
by: Jain, Jitesh, et al.
Published: (2024)

UMIT: Unifying Medical Imaging Tasks via Vision-Language Models
by: Yu, Haiyang, et al.
Published: (2025)

Seeking Necessary and Sufficient Information from Multimodal Medical Data
by: Chen, Boyu, et al.
Published: (2026)

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
by: LASA Team, et al.
Published: (2025)

A Medical Multimodal Large Language Model for Pediatric Pneumonia
by: Tian, Weiwei, et al.
Published: (2024)

Train a Unified Multimodal Data Quality Classifier with Synthetic Data
by: Wang, Weizhi, et al.
Published: (2025)

Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models
by: Pham, Tan-Hanh, et al.
Published: (2025)

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation
by: Wang, Xin, et al.
Published: (2025)

CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
by: Xu, Jingwei, et al.
Published: (2024)

ObjEmbed: Towards Universal Multimodal Object Embeddings
by: Fu, Shenghao, et al.
Published: (2026)

Unified Medical Image Pre-training in Language-Guided Common Semantic Space
by: He, Xiaoxuan, et al.
Published: (2023)

Acoustic Field Video for Multimodal Scene Understanding
by: Kim, Daehwa, et al.
Published: (2026)

TNF: Tri-branch Neural Fusion for Multimodal Medical Data Classification
by: Zheng, Tong, et al.
Published: (2024)

RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints
by: Pham, Tan-Hanh, et al.
Published: (2025)

Unreal is all you need: Multimodal ISAC Data Simulation with Only One Engine
by: Huang, Kongwu, et al.
Published: (2025)

FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks
by: Wu, Peiran, et al.
Published: (2024)

Medical Vision Generalist: Unifying Medical Imaging Tasks in Context
by: Ren, Sucheng, et al.
Published: (2024)

Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models
by: Wang, Lehan, et al.
Published: (2025)

Full-scale Representation Guided Network for Retinal Vessel Segmentation
by: Seo, Sunyong, et al.
Published: (2025)