:: Library Catalog

Slika na naslovnici

Shranjeno v:

Bibliografske podrobnosti
Main Authors:	Jiang, Yankai, Lei, Wenhui, Zhang, Xiaofan, Zhang, Shaoting
Format:	Preprint
Izdano:	2024
Teme:	Computer Vision and Pattern Recognition Artificial Intelligence
Online dostop:	https://arxiv.org/abs/2410.15744
Oznake:	Označite Brez oznak, prvi označite!

Podobne knjige/članki

ZePT: Zero-Shot Pan-Tumor Segmentation via Query-Disentangling and Self-Prompting
od: Jiang, Yankai, et al.
Izdano: (2023)

MedLSAM: Localize and Segment Anything Model for 3D CT Images
od: Lei, Wenhui, et al.
Izdano: (2023)

CAT: Coordinating Anatomical-Textual Prompts for Multi-Organ and Tumor Segmentation
od: Huang, Zhongzhen, et al.
Izdano: (2024)

Interactive Segmentation and Report Generation for CT Images
od: Gu, Yannian, et al.
Izdano: (2025)

LesionDiffusion: Towards Text-controlled General Lesion Synthesis
od: Lei, Wenhui, et al.
Izdano: (2025)

GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition
od: Dai, Guangzhao, et al.
Izdano: (2024)

Modality-Aware and Shift Mixer for Multi-modal Brain Tumor Segmentation
od: Huang, Zhongzhen, et al.
Izdano: (2024)

MV3DIS: Multi-View Mask Matching via 3D Guides for Zero-Shot 3D Instance Segmentation
od: Zhao, Yibo, et al.
Izdano: (2026)

Training-Free Zero-Shot Temporal Action Detection with Vision-Language Models
od: Han, Chaolei, et al.
Izdano: (2025)

Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation
od: Li, Yunheng, et al.
Izdano: (2024)

OpenPath: Open-Set Active Learning for Pathology Image Classification via Pre-trained Vision-Language Models
od: Zhong, Lanfeng, et al.
Izdano: (2025)

PVLM: Parsing-Aware Vision Language Model with Dynamic Contrastive Learning for Zero-Shot Deepfake Attribution
od: Zhang, Yaning, et al.
Izdano: (2025)

DeReStainer: H&E to IHC Pathological Image Translation via Decoupled Staining Channels
od: Wei, Linda, et al.
Izdano: (2024)

Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models
od: Wang, Qian, et al.
Izdano: (2024)

Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot Anomaly Localization
od: Deng, Hanqiu, et al.
Izdano: (2023)

Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
od: Yang, Zaiquan, et al.
Izdano: (2025)

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
od: Wei, Zhixiang, et al.
Izdano: (2026)

MedDiff-FM: A Diffusion-based Foundation Model for Versatile Medical Image Applications
od: Yu, Yongrui, et al.
Izdano: (2024)

Unifying Multiple Foundation Models for Advanced Computational Pathology
od: Lei, Wenhui, et al.
Izdano: (2025)

Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment
od: Liu, Kangcheng, et al.
Izdano: (2023)

MaskHOI: Robust 3D Hand-Object Interaction Estimation via Masked Pre-training
od: Xie, Yuechen, et al.
Izdano: (2025)

OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging
od: Tang, Yijie, et al.
Izdano: (2025)

OpenMaskDINO3D : Reasoning 3D Segmentation via Large Language Model
od: Zhang, Kunshen
Izdano: (2025)

MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder
od: Li, Lei, et al.
Izdano: (2024)

STAGE: Segmentation-oriented Industrial Anomaly Synthesis via Graded Diffusion with Explicit Mask Alignment
od: Xu, Xichen, et al.
Izdano: (2025)

LAGO: Language-Guided Adaptive Object-Region Focus for Zero-Shot Visual-Text Alignment
od: Hu, Junyi, et al.
Izdano: (2026)

Unleashing the Potential of Pre-Trained Diffusion Models for Generalizable Person Re-Identification
od: Li, Jiachen, et al.
Izdano: (2025)

MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation
od: Huang, Xun, et al.
Izdano: (2025)

LesionLocator: Zero-Shot Universal Tumor Segmentation and Tracking in 3D Whole-Body Imaging
od: Rokuss, Maximilian, et al.
Izdano: (2025)

A3-TTA: Adaptive Anchor Alignment Test-Time Adaptation for Image Segmentation
od: Wu, Jianghao, et al.
Izdano: (2026)

DeltaDeno: Zero-Shot Anomaly Generation via Delta-Denoising Attribution
od: Xu, Chaoran, et al.
Izdano: (2025)

Zero-Shot 4D Lidar Panoptic Segmentation
od: Zhang, Yushan, et al.
Izdano: (2025)

Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models
od: Yang, Xiaoyu, et al.
Izdano: (2023)

An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training
od: Gao, Jin, et al.
Izdano: (2024)

ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue
od: Li, Zhangpu, et al.
Izdano: (2024)

TSegAgent: Zero-Shot Tooth Segmentation via Geometry-Aware Vision-Language Agents
od: Zhuang, Shaojie, et al.
Izdano: (2026)

TK-Mamba: Marrying KAN With Mamba for Text-Driven 3D Medical Image Segmentation
od: Yang, Haoyu, et al.
Izdano: (2025)

MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining
od: Liu, Yunze, et al.
Izdano: (2024)

MFM-DA: Instance-Aware Adaptor and Hierarchical Alignment for Efficient Domain Adaptation in Medical Foundation Models
od: Jiang, Jia-Xuan, et al.
Izdano: (2025)

FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing
od: Cai, Lingling, et al.
Izdano: (2024)