:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Cai, Kaixin, Ren, Pengzhen, Han, Jianhua, Zhu, Yi, Xu, Hang, Liu, Jianzhuang, Liang, Xiaodan
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2603.19575
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation
par: Cai, Kaixin, et autres
Publié: (2023)

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation
par: Zhang, Kaidong, et autres
Publié: (2024)

LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model
par: Huang, Runhui, et autres
Publié: (2024)

Surfer: Progressive Reasoning with World Models for Robotic Manipulation
par: Ren, Pengzhen, et autres
Publié: (2023)

Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation
par: Lin, Bingqian, et autres
Publié: (2023)

VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation
par: Wen, Youpeng, et autres
Publié: (2024)

Correctable Landmark Discovery via Large Models for Vision-Language Navigation
par: Lin, Bingqian, et autres
Publié: (2024)

Graph Your Way to Inspiration: Integrating Co-Author Graphs with Retrieval-Augmented Generation for Large Language Model Based Scientific Idea Generation
par: Xie, Pengzhen, et autres
Publié: (2025)

Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation
par: Zhang, Zicheng, et autres
Publié: (2024)

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
par: Zhang, Kaidong, et autres
Publié: (2025)

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection
par: Yao, Lewei, et autres
Publié: (2024)

AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models
par: Li, Xingjian, et autres
Publié: (2025)

Semantic Segmentation Prior for Diffusion-Based Real-World Super-Resolution
par: Xiao, Jiahua, et autres
Publié: (2024)

EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation
par: Wang, Cong, et autres
Publié: (2024)

GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D Pretraining from Real-World Data
par: Li, Haoyuan, et autres
Publié: (2024)

MagicEraser: Erasing Any Objects via Semantics-Aware Control
par: Li, Fan, et autres
Publié: (2024)

WOW-Seg: A Word-free Open World Segmentation Model
par: Li, Danyang, et autres
Publié: (2026)

FA-Seg: A Fast and Accurate Diffusion-Based Method for Open-Vocabulary Segmentation
par: Che, Huy, et autres
Publié: (2025)

OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning
par: Han, Zongyan, et autres
Publié: (2025)

UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes
par: Ni, Shuo, et autres
Publié: (2025)

OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion
par: Wang, Hao, et autres
Publié: (2024)

RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment
par: Jiang, Zutao, et autres
Publié: (2023)

SegDebias: Test-Time Bias Mitigation for ViT-Based CLIP via Segmentation
par: Wu, Fangyu, et autres
Publié: (2025)

CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation
par: Liang, Xiwen, et autres
Publié: (2023)

FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models
par: Corradini, Barbara Toniella, et autres
Publié: (2024)

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning
par: Lin, Bingqian, et autres
Publié: (2024)

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs
par: Li, Haoyuan, et autres
Publié: (2025)

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation
par: Chen, Zisheng, et autres
Publié: (2025)

FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
par: Chen, Xi, et autres
Publié: (2024)

Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers
par: Kim, Chaehyun, et autres
Publié: (2025)

HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance
par: Fang, Guian, et autres
Publié: (2024)

Generative Region-Language Pretraining for Open-Ended Object Detection
par: Lin, Chuang, et autres
Publié: (2024)

Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
par: Yao, Yuan, et autres
Publié: (2026)

G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models
par: Zhang, Tianjiao, et autres
Publié: (2025)

Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images
par: Zhu, Qinfeng, et autres
Publié: (2024)

Task-customized Masked AutoEncoder via Mixture of Cluster-conditional Experts
par: Liu, Zhili, et autres
Publié: (2024)

EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation
par: Niu, Hongwei, et autres
Publié: (2024)

PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation
par: Yin, Jianjian, et autres
Publié: (2026)

AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation
par: Ma, Chaofan, et autres
Publié: (2023)

TraDiffusion: Trajectory-Based Training-Free Image Generation
par: Wu, Mingrui, et autres
Publié: (2024)