Gespeichert in:
| Hauptverfasser: | Hsieh, Patterson, Yeh, Jerry, He, Mao-Chi, Hsieh, Wen-Han, Hsieh, Elvis |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2510.18751 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
ZonUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding
von: Hsieh, ZongHan, et al.
Veröffentlicht: (2025)
von: Hsieh, ZongHan, et al.
Veröffentlicht: (2025)
Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation
von: Hao, Chao, et al.
Veröffentlicht: (2026)
von: Hao, Chao, et al.
Veröffentlicht: (2026)
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
von: Bai, Zechen, et al.
Veröffentlicht: (2024)
von: Bai, Zechen, et al.
Veröffentlicht: (2024)
SegLLM: Multi-round Reasoning Segmentation
von: Wang, XuDong, et al.
Veröffentlicht: (2024)
von: Wang, XuDong, et al.
Veröffentlicht: (2024)
Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval
von: Shen, Li-Cheng, et al.
Veröffentlicht: (2025)
von: Shen, Li-Cheng, et al.
Veröffentlicht: (2025)
Construction Site Scaffolding Completeness Detection Based on Mask R-CNN and Hough Transform
von: Lin, Pei-Hsin, et al.
Veröffentlicht: (2025)
von: Lin, Pei-Hsin, et al.
Veröffentlicht: (2025)
One-Forcing: Towards Stable One-Step Autoregressive Video Generation
von: Feng, Jiaqi, et al.
Veröffentlicht: (2026)
von: Feng, Jiaqi, et al.
Veröffentlicht: (2026)
WeatherReasonSeg: A Benchmark for Weather-Aware Reasoning Segmentation in Visual Language Models
von: Du, Wanjun, et al.
Veröffentlicht: (2026)
von: Du, Wanjun, et al.
Veröffentlicht: (2026)
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
von: Bigverdi, Mahtab, et al.
Veröffentlicht: (2024)
von: Bigverdi, Mahtab, et al.
Veröffentlicht: (2024)
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
von: Hsieh, Yu-Guan, et al.
Veröffentlicht: (2024)
von: Hsieh, Yu-Guan, et al.
Veröffentlicht: (2024)
Text is All You Need for Vision-Language Model Jailbreaking
von: Chen, Yihang, et al.
Veröffentlicht: (2026)
von: Chen, Yihang, et al.
Veröffentlicht: (2026)
Very Efficient Listwise Multimodal Reranking for Long Documents
von: Sun, Yiqun, et al.
Veröffentlicht: (2026)
von: Sun, Yiqun, et al.
Veröffentlicht: (2026)
QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models
von: Kao, Kuei-Chun, et al.
Veröffentlicht: (2025)
von: Kao, Kuei-Chun, et al.
Veröffentlicht: (2025)
Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition
von: Yeh, Chun-Hsiao, et al.
Veröffentlicht: (2024)
von: Yeh, Chun-Hsiao, et al.
Veröffentlicht: (2024)
Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder
von: Jisheng, Dang, et al.
Veröffentlicht: (2025)
von: Jisheng, Dang, et al.
Veröffentlicht: (2025)
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
von: Zhou, Hengguang, et al.
Veröffentlicht: (2025)
von: Zhou, Hengguang, et al.
Veröffentlicht: (2025)
Mitigating Bias in Dataset Distillation
von: Cui, Justin, et al.
Veröffentlicht: (2024)
von: Cui, Justin, et al.
Veröffentlicht: (2024)
TinyFormer: Preserving Tiny Objects in YOLO-DETR Hybrid Real-time Detectors
von: Hsieh, Jun-Wei, et al.
Veröffentlicht: (2026)
von: Hsieh, Jun-Wei, et al.
Veröffentlicht: (2026)
DiffSeg: A Segmentation Model for Skin Lesions Based on Diffusion Difference
von: Shuai, Zhihao, et al.
Veröffentlicht: (2024)
von: Shuai, Zhihao, et al.
Veröffentlicht: (2024)
GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery
von: Jiang, Lifan, et al.
Veröffentlicht: (2026)
von: Jiang, Lifan, et al.
Veröffentlicht: (2026)
CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning
von: Xie, Yuxin, et al.
Veröffentlicht: (2026)
von: Xie, Yuxin, et al.
Veröffentlicht: (2026)
The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise
von: Ban, Yuanhao, et al.
Veröffentlicht: (2024)
von: Ban, Yuanhao, et al.
Veröffentlicht: (2024)
AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment
von: Kao, Kuei-Chun, et al.
Veröffentlicht: (2026)
von: Kao, Kuei-Chun, et al.
Veröffentlicht: (2026)
Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation
von: Yeh, Shih-Ying, et al.
Veröffentlicht: (2023)
von: Yeh, Shih-Ying, et al.
Veröffentlicht: (2023)
IRIS: Intrinsic Reward Image Synthesis
von: Chen, Yihang, et al.
Veröffentlicht: (2025)
von: Chen, Yihang, et al.
Veröffentlicht: (2025)
Adaptive Diagnostic Reasoning Framework for Pathology with Multimodal Large Language Models
von: Hong, Yunqi, et al.
Veröffentlicht: (2025)
von: Hong, Yunqi, et al.
Veröffentlicht: (2025)
LarvSeg: Exploring Image Classification Data For Large Vocabulary Semantic Segmentation via Category-wise Attentive Classifier
von: Yu, Haojun, et al.
Veröffentlicht: (2025)
von: Yu, Haojun, et al.
Veröffentlicht: (2025)
TAO-Amodal: A Benchmark for Tracking Any Object Amodally
von: Hsieh, Cheng-Yen, et al.
Veröffentlicht: (2023)
von: Hsieh, Cheng-Yen, et al.
Veröffentlicht: (2023)
Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
von: Zhang, Jielu, et al.
Veröffentlicht: (2023)
von: Zhang, Jielu, et al.
Veröffentlicht: (2023)
Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs
von: Hong, Yunqi, et al.
Veröffentlicht: (2025)
von: Hong, Yunqi, et al.
Veröffentlicht: (2025)
R$^{2}$Seg: Training-Free OOD Medical Tumor Segmentation via Anatomical Reasoning and Statistical Rejection
von: Shen, Shuaike, et al.
Veröffentlicht: (2025)
von: Shen, Shuaike, et al.
Veröffentlicht: (2025)
Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
von: Yao, Yuan, et al.
Veröffentlicht: (2026)
von: Yao, Yuan, et al.
Veröffentlicht: (2026)
Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs
von: Wang, Hao, et al.
Veröffentlicht: (2026)
von: Wang, Hao, et al.
Veröffentlicht: (2026)
Uncertainty-Guided Selective Adaptation Enables Cross-Platform Predictive Fluorescence Microscopy
von: Yang, Kai-Wen K., et al.
Veröffentlicht: (2025)
von: Yang, Kai-Wen K., et al.
Veröffentlicht: (2025)
On Discrete Prompt Optimization for Diffusion Models
von: Wang, Ruochen, et al.
Veröffentlicht: (2024)
von: Wang, Ruochen, et al.
Veröffentlicht: (2024)
GenSeg-R1: RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation
von: Hegde, Sandesh, et al.
Veröffentlicht: (2026)
von: Hegde, Sandesh, et al.
Veröffentlicht: (2026)
MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?
von: Li, Xirui, et al.
Veröffentlicht: (2024)
von: Li, Xirui, et al.
Veröffentlicht: (2024)
CSAD: Unsupervised Component Segmentation for Logical Anomaly Detection
von: Hsieh, Yu-Hsuan, et al.
Veröffentlicht: (2024)
von: Hsieh, Yu-Hsuan, et al.
Veröffentlicht: (2024)
Neural Network-Based Tracking and 3D Reconstruction of Baseball Pitch Trajectories from Single-View 2D Video
von: Hsieh, Jhen
Veröffentlicht: (2024)
von: Hsieh, Jhen
Veröffentlicht: (2024)
MatchSeg: Towards Better Segmentation via Reference Image Matching
von: Huo, Jiayu, et al.
Veröffentlicht: (2024)
von: Huo, Jiayu, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
ZonUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding
von: Hsieh, ZongHan, et al.
Veröffentlicht: (2025) -
Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation
von: Hao, Chao, et al.
Veröffentlicht: (2026) -
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
von: Bai, Zechen, et al.
Veröffentlicht: (2024) -
SegLLM: Multi-round Reasoning Segmentation
von: Wang, XuDong, et al.
Veröffentlicht: (2024) -
Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval
von: Shen, Li-Cheng, et al.
Veröffentlicht: (2025)