:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Liu, Qin, Cho, Jaemin, Bansal, Mohit, Niethammer, Marc
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2404.00741
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
von: Lin, Han, et al.
Veröffentlicht: (2024)

RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
von: Niu, Tianyi, et al.
Veröffentlicht: (2025)

CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval
von: Wan, David, et al.
Veröffentlicht: (2025)

Self-Correcting Text-to-Video Generation with Misalignment Detection and Localized Refinement
von: Lee, Daeun, et al.
Veröffentlicht: (2024)

Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
von: Lee, Daeun, et al.
Veröffentlicht: (2025)

On The Robustness of Foundational 3D Medical Image Segmentation Models Against Imprecise Visual Prompts
von: Chattopadhyay, Soumitri, et al.
Veröffentlicht: (2026)

DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning
von: Zala, Abhay, et al.
Veröffentlicht: (2023)

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
von: Lin, Han, et al.
Veröffentlicht: (2023)

CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
von: Pothiraj, Atin, et al.
Veröffentlicht: (2025)

Exploring Cycle Consistency Learning in Interactive Volume Segmentation
von: Liu, Qin, et al.
Veröffentlicht: (2023)

Zero-shot Domain Generalization of Foundational Models for 3D Medical Image Segmentation: An Experimental Study
von: Chattopadhyay, Soumitri, et al.
Veröffentlicht: (2025)

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data
von: Li, Jialu, et al.
Veröffentlicht: (2024)

M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
von: Cho, Jaemin, et al.
Veröffentlicht: (2024)

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
von: Lin, Han, et al.
Veröffentlicht: (2025)

Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
von: Wan, David, et al.
Veröffentlicht: (2024)

Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation
von: Cho, Jaemin, et al.
Veröffentlicht: (2023)

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
von: Wang, Zun, et al.
Veröffentlicht: (2026)

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
von: Li, Jialu, et al.
Veröffentlicht: (2025)

LiVOS: Light Video Object Segmentation with Gated Linear Matching
von: Liu, Qin, et al.
Veröffentlicht: (2024)

EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance
von: Wang, Zun, et al.
Veröffentlicht: (2025)

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising
von: Lin, Han, et al.
Veröffentlicht: (2026)

Investigating Demographic Bias in Brain MRI Segmentation: A Comparative Study of Deep-Learning and Non-Deep-Learning Methods
von: Danaee, Ghazal, et al.
Veröffentlicht: (2025)

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation
von: Chowdhury, Prithwijit, et al.
Veröffentlicht: (2026)

PicoSAM2: Low-Latency Segmentation In-Sensor for Edge Vision Applications
von: Bonazzi, Pietro, et al.
Veröffentlicht: (2025)

Semantic Prompting with Image-Token for Continual Learning
von: Han, Jisu, et al.
Veröffentlicht: (2024)

Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation
von: Cho, Jaemin, et al.
Veröffentlicht: (2023)

VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
von: Lee, Daeun, et al.
Veröffentlicht: (2026)

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
von: Lin, Ci-Siang, et al.
Veröffentlicht: (2025)

PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation
von: Huang, Yidong, et al.
Veröffentlicht: (2026)

SPT: Sequence Prompt Transformer for Interactive Image Segmentation
von: Cheng, Senlin, et al.
Veröffentlicht: (2024)

A Unified Model for Longitudinal Multi-Modal Multi-View Prediction with Missingness
von: Chen, Boqi, et al.
Veröffentlicht: (2024)

ESAM++: Efficient Online 3D Perception on the Edge
von: Liu, Qin, et al.
Veröffentlicht: (2026)

Guiding Registration with Emergent Similarity from Pre-Trained Diffusion Models
von: Tursynbek, Nurislam, et al.
Veröffentlicht: (2025)

$\texttt{NePhi}$: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration
von: Tian, Lin, et al.
Veröffentlicht: (2023)

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration
von: Mandal, Debabrata, et al.
Veröffentlicht: (2026)

PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation
von: Xie, Zhaozhi, et al.
Veröffentlicht: (2024)

Benchmarking Human and Automated Prompting in the Segment Anything Model
von: Quesada, Jorge, et al.
Veröffentlicht: (2024)

NFL-BA: Near-Field Light Bundle Adjustment for SLAM in Dynamic Lighting
von: Beltran, Andrea Dunn, et al.
Veröffentlicht: (2024)

CARL: A Framework for Equivariant Image Registration
von: Greer, Hastings, et al.
Veröffentlicht: (2024)

PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts
von: Chen, Zewen, et al.
Veröffentlicht: (2024)