Enregistré dans:
| Auteurs principaux: | Cai, Kaixin, Ren, Pengzhen, Han, Jianhua, Zhu, Yi, Xu, Hang, Liu, Jianzhuang, Liang, Xiaodan |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2603.19575 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation
par: Cai, Kaixin, et autres
Publié: (2023)
par: Cai, Kaixin, et autres
Publié: (2023)
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation
par: Zhang, Kaidong, et autres
Publié: (2024)
par: Zhang, Kaidong, et autres
Publié: (2024)
LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model
par: Huang, Runhui, et autres
Publié: (2024)
par: Huang, Runhui, et autres
Publié: (2024)
Surfer: Progressive Reasoning with World Models for Robotic Manipulation
par: Ren, Pengzhen, et autres
Publié: (2023)
par: Ren, Pengzhen, et autres
Publié: (2023)
Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation
par: Lin, Bingqian, et autres
Publié: (2023)
par: Lin, Bingqian, et autres
Publié: (2023)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation
par: Wen, Youpeng, et autres
Publié: (2024)
par: Wen, Youpeng, et autres
Publié: (2024)
Correctable Landmark Discovery via Large Models for Vision-Language Navigation
par: Lin, Bingqian, et autres
Publié: (2024)
par: Lin, Bingqian, et autres
Publié: (2024)
Graph Your Way to Inspiration: Integrating Co-Author Graphs with Retrieval-Augmented Generation for Large Language Model Based Scientific Idea Generation
par: Xie, Pengzhen, et autres
Publié: (2025)
par: Xie, Pengzhen, et autres
Publié: (2025)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation
par: Zhang, Zicheng, et autres
Publié: (2024)
par: Zhang, Zicheng, et autres
Publié: (2024)
RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
par: Zhang, Kaidong, et autres
Publié: (2025)
par: Zhang, Kaidong, et autres
Publié: (2025)
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection
par: Yao, Lewei, et autres
Publié: (2024)
par: Yao, Lewei, et autres
Publié: (2024)
AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models
par: Li, Xingjian, et autres
Publié: (2025)
par: Li, Xingjian, et autres
Publié: (2025)
Semantic Segmentation Prior for Diffusion-Based Real-World Super-Resolution
par: Xiao, Jiahua, et autres
Publié: (2024)
par: Xiao, Jiahua, et autres
Publié: (2024)
EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation
par: Wang, Cong, et autres
Publié: (2024)
par: Wang, Cong, et autres
Publié: (2024)
GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D Pretraining from Real-World Data
par: Li, Haoyuan, et autres
Publié: (2024)
par: Li, Haoyuan, et autres
Publié: (2024)
MagicEraser: Erasing Any Objects via Semantics-Aware Control
par: Li, Fan, et autres
Publié: (2024)
par: Li, Fan, et autres
Publié: (2024)
WOW-Seg: A Word-free Open World Segmentation Model
par: Li, Danyang, et autres
Publié: (2026)
par: Li, Danyang, et autres
Publié: (2026)
FA-Seg: A Fast and Accurate Diffusion-Based Method for Open-Vocabulary Segmentation
par: Che, Huy, et autres
Publié: (2025)
par: Che, Huy, et autres
Publié: (2025)
OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning
par: Han, Zongyan, et autres
Publié: (2025)
par: Han, Zongyan, et autres
Publié: (2025)
UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes
par: Ni, Shuo, et autres
Publié: (2025)
par: Ni, Shuo, et autres
Publié: (2025)
OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion
par: Wang, Hao, et autres
Publié: (2024)
par: Wang, Hao, et autres
Publié: (2024)
RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment
par: Jiang, Zutao, et autres
Publié: (2023)
par: Jiang, Zutao, et autres
Publié: (2023)
SegDebias: Test-Time Bias Mitigation for ViT-Based CLIP via Segmentation
par: Wu, Fangyu, et autres
Publié: (2025)
par: Wu, Fangyu, et autres
Publié: (2025)
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation
par: Liang, Xiwen, et autres
Publié: (2023)
par: Liang, Xiwen, et autres
Publié: (2023)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models
par: Corradini, Barbara Toniella, et autres
Publié: (2024)
par: Corradini, Barbara Toniella, et autres
Publié: (2024)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning
par: Lin, Bingqian, et autres
Publié: (2024)
par: Lin, Bingqian, et autres
Publié: (2024)
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs
par: Li, Haoyuan, et autres
Publié: (2025)
par: Li, Haoyuan, et autres
Publié: (2025)
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation
par: Chen, Zisheng, et autres
Publié: (2025)
par: Chen, Zisheng, et autres
Publié: (2025)
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
par: Chen, Xi, et autres
Publié: (2024)
par: Chen, Xi, et autres
Publié: (2024)
Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers
par: Kim, Chaehyun, et autres
Publié: (2025)
par: Kim, Chaehyun, et autres
Publié: (2025)
HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance
par: Fang, Guian, et autres
Publié: (2024)
par: Fang, Guian, et autres
Publié: (2024)
Generative Region-Language Pretraining for Open-Ended Object Detection
par: Lin, Chuang, et autres
Publié: (2024)
par: Lin, Chuang, et autres
Publié: (2024)
Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
par: Yao, Yuan, et autres
Publié: (2026)
par: Yao, Yuan, et autres
Publié: (2026)
G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models
par: Zhang, Tianjiao, et autres
Publié: (2025)
par: Zhang, Tianjiao, et autres
Publié: (2025)
Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images
par: Zhu, Qinfeng, et autres
Publié: (2024)
par: Zhu, Qinfeng, et autres
Publié: (2024)
Task-customized Masked AutoEncoder via Mixture of Cluster-conditional Experts
par: Liu, Zhili, et autres
Publié: (2024)
par: Liu, Zhili, et autres
Publié: (2024)
EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation
par: Niu, Hongwei, et autres
Publié: (2024)
par: Niu, Hongwei, et autres
Publié: (2024)
PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation
par: Yin, Jianjian, et autres
Publié: (2026)
par: Yin, Jianjian, et autres
Publié: (2026)
AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation
par: Ma, Chaofan, et autres
Publié: (2023)
par: Ma, Chaofan, et autres
Publié: (2023)
TraDiffusion: Trajectory-Based Training-Free Image Generation
par: Wu, Mingrui, et autres
Publié: (2024)
par: Wu, Mingrui, et autres
Publié: (2024)
Documents similaires
-
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation
par: Cai, Kaixin, et autres
Publié: (2023) -
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation
par: Zhang, Kaidong, et autres
Publié: (2024) -
LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model
par: Huang, Runhui, et autres
Publié: (2024) -
Surfer: Progressive Reasoning with World Models for Robotic Manipulation
par: Ren, Pengzhen, et autres
Publié: (2023) -
Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation
par: Lin, Bingqian, et autres
Publié: (2023)