:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Hsieh, Patterson, Yeh, Jerry, He, Mao-Chi, Hsieh, Wen-Han, Hsieh, Elvis
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Artificial Intelligence Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2510.18751
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

ZonUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding
von: Hsieh, ZongHan, et al.
Veröffentlicht: (2025)

Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation
von: Hao, Chao, et al.
Veröffentlicht: (2026)

One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
von: Bai, Zechen, et al.
Veröffentlicht: (2024)

SegLLM: Multi-round Reasoning Segmentation
von: Wang, XuDong, et al.
Veröffentlicht: (2024)

Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval
von: Shen, Li-Cheng, et al.
Veröffentlicht: (2025)

Construction Site Scaffolding Completeness Detection Based on Mask R-CNN and Hough Transform
von: Lin, Pei-Hsin, et al.
Veröffentlicht: (2025)

One-Forcing: Towards Stable One-Step Autoregressive Video Generation
von: Feng, Jiaqi, et al.
Veröffentlicht: (2026)

WeatherReasonSeg: A Benchmark for Weather-Aware Reasoning Segmentation in Visual Language Models
von: Du, Wanjun, et al.
Veröffentlicht: (2026)

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
von: Bigverdi, Mahtab, et al.
Veröffentlicht: (2024)

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
von: Hsieh, Yu-Guan, et al.
Veröffentlicht: (2024)

Text is All You Need for Vision-Language Model Jailbreaking
von: Chen, Yihang, et al.
Veröffentlicht: (2026)

Very Efficient Listwise Multimodal Reranking for Long Documents
von: Sun, Yiqun, et al.
Veröffentlicht: (2026)

QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models
von: Kao, Kuei-Chun, et al.
Veröffentlicht: (2025)

Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition
von: Yeh, Chun-Hsiao, et al.
Veröffentlicht: (2024)

Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder
von: Jisheng, Dang, et al.
Veröffentlicht: (2025)

R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
von: Zhou, Hengguang, et al.
Veröffentlicht: (2025)

Mitigating Bias in Dataset Distillation
von: Cui, Justin, et al.
Veröffentlicht: (2024)

TinyFormer: Preserving Tiny Objects in YOLO-DETR Hybrid Real-time Detectors
von: Hsieh, Jun-Wei, et al.
Veröffentlicht: (2026)

DiffSeg: A Segmentation Model for Skin Lesions Based on Diffusion Difference
von: Shuai, Zhihao, et al.
Veröffentlicht: (2024)

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery
von: Jiang, Lifan, et al.
Veröffentlicht: (2026)

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning
von: Xie, Yuxin, et al.
Veröffentlicht: (2026)

The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise
von: Ban, Yuanhao, et al.
Veröffentlicht: (2024)

AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment
von: Kao, Kuei-Chun, et al.
Veröffentlicht: (2026)

Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation
von: Yeh, Shih-Ying, et al.
Veröffentlicht: (2023)

IRIS: Intrinsic Reward Image Synthesis
von: Chen, Yihang, et al.
Veröffentlicht: (2025)

Adaptive Diagnostic Reasoning Framework for Pathology with Multimodal Large Language Models
von: Hong, Yunqi, et al.
Veröffentlicht: (2025)

LarvSeg: Exploring Image Classification Data For Large Vocabulary Semantic Segmentation via Category-wise Attentive Classifier
von: Yu, Haojun, et al.
Veröffentlicht: (2025)

TAO-Amodal: A Benchmark for Tracking Any Object Amodally
von: Hsieh, Cheng-Yen, et al.
Veröffentlicht: (2023)

Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
von: Zhang, Jielu, et al.
Veröffentlicht: (2023)

Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs
von: Hong, Yunqi, et al.
Veröffentlicht: (2025)

R$^{2}$Seg: Training-Free OOD Medical Tumor Segmentation via Anatomical Reasoning and Statistical Rejection
von: Shen, Shuaike, et al.
Veröffentlicht: (2025)

Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
von: Yao, Yuan, et al.
Veröffentlicht: (2026)

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs
von: Wang, Hao, et al.
Veröffentlicht: (2026)

Uncertainty-Guided Selective Adaptation Enables Cross-Platform Predictive Fluorescence Microscopy
von: Yang, Kai-Wen K., et al.
Veröffentlicht: (2025)

On Discrete Prompt Optimization for Diffusion Models
von: Wang, Ruochen, et al.
Veröffentlicht: (2024)

GenSeg-R1: RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation
von: Hegde, Sandesh, et al.
Veröffentlicht: (2026)

MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?
von: Li, Xirui, et al.
Veröffentlicht: (2024)

CSAD: Unsupervised Component Segmentation for Logical Anomaly Detection
von: Hsieh, Yu-Hsuan, et al.
Veröffentlicht: (2024)

Neural Network-Based Tracking and 3D Reconstruction of Baseball Pitch Trajectories from Single-View 2D Video
von: Hsieh, Jhen
Veröffentlicht: (2024)

MatchSeg: Towards Better Segmentation via Reference Image Matching
von: Huo, Jiayu, et al.
Veröffentlicht: (2024)