Gespeichert in:
| Hauptverfasser: | Liu, Qin, Cho, Jaemin, Bansal, Mohit, Niethammer, Marc |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2404.00741 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
von: Lin, Han, et al.
Veröffentlicht: (2024)
von: Lin, Han, et al.
Veröffentlicht: (2024)
RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
von: Niu, Tianyi, et al.
Veröffentlicht: (2025)
von: Niu, Tianyi, et al.
Veröffentlicht: (2025)
CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval
von: Wan, David, et al.
Veröffentlicht: (2025)
von: Wan, David, et al.
Veröffentlicht: (2025)
Self-Correcting Text-to-Video Generation with Misalignment Detection and Localized Refinement
von: Lee, Daeun, et al.
Veröffentlicht: (2024)
von: Lee, Daeun, et al.
Veröffentlicht: (2024)
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
von: Lee, Daeun, et al.
Veröffentlicht: (2025)
von: Lee, Daeun, et al.
Veröffentlicht: (2025)
On The Robustness of Foundational 3D Medical Image Segmentation Models Against Imprecise Visual Prompts
von: Chattopadhyay, Soumitri, et al.
Veröffentlicht: (2026)
von: Chattopadhyay, Soumitri, et al.
Veröffentlicht: (2026)
DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning
von: Zala, Abhay, et al.
Veröffentlicht: (2023)
von: Zala, Abhay, et al.
Veröffentlicht: (2023)
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
von: Lin, Han, et al.
Veröffentlicht: (2023)
von: Lin, Han, et al.
Veröffentlicht: (2023)
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
von: Pothiraj, Atin, et al.
Veröffentlicht: (2025)
von: Pothiraj, Atin, et al.
Veröffentlicht: (2025)
Exploring Cycle Consistency Learning in Interactive Volume Segmentation
von: Liu, Qin, et al.
Veröffentlicht: (2023)
von: Liu, Qin, et al.
Veröffentlicht: (2023)
Zero-shot Domain Generalization of Foundational Models for 3D Medical Image Segmentation: An Experimental Study
von: Chattopadhyay, Soumitri, et al.
Veröffentlicht: (2025)
von: Chattopadhyay, Soumitri, et al.
Veröffentlicht: (2025)
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data
von: Li, Jialu, et al.
Veröffentlicht: (2024)
von: Li, Jialu, et al.
Veröffentlicht: (2024)
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
von: Cho, Jaemin, et al.
Veröffentlicht: (2024)
von: Cho, Jaemin, et al.
Veröffentlicht: (2024)
Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
von: Lin, Han, et al.
Veröffentlicht: (2025)
von: Lin, Han, et al.
Veröffentlicht: (2025)
Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
von: Wan, David, et al.
Veröffentlicht: (2024)
von: Wan, David, et al.
Veröffentlicht: (2024)
Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation
von: Cho, Jaemin, et al.
Veröffentlicht: (2023)
von: Cho, Jaemin, et al.
Veröffentlicht: (2023)
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
von: Wang, Zun, et al.
Veröffentlicht: (2026)
von: Wang, Zun, et al.
Veröffentlicht: (2026)
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
von: Li, Jialu, et al.
Veröffentlicht: (2025)
von: Li, Jialu, et al.
Veröffentlicht: (2025)
LiVOS: Light Video Object Segmentation with Gated Linear Matching
von: Liu, Qin, et al.
Veröffentlicht: (2024)
von: Liu, Qin, et al.
Veröffentlicht: (2024)
EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance
von: Wang, Zun, et al.
Veröffentlicht: (2025)
von: Wang, Zun, et al.
Veröffentlicht: (2025)
V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising
von: Lin, Han, et al.
Veröffentlicht: (2026)
von: Lin, Han, et al.
Veröffentlicht: (2026)
Investigating Demographic Bias in Brain MRI Segmentation: A Comparative Study of Deep-Learning and Non-Deep-Learning Methods
von: Danaee, Ghazal, et al.
Veröffentlicht: (2025)
von: Danaee, Ghazal, et al.
Veröffentlicht: (2025)
BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation
von: Chowdhury, Prithwijit, et al.
Veröffentlicht: (2026)
von: Chowdhury, Prithwijit, et al.
Veröffentlicht: (2026)
PicoSAM2: Low-Latency Segmentation In-Sensor for Edge Vision Applications
von: Bonazzi, Pietro, et al.
Veröffentlicht: (2025)
von: Bonazzi, Pietro, et al.
Veröffentlicht: (2025)
Semantic Prompting with Image-Token for Continual Learning
von: Han, Jisu, et al.
Veröffentlicht: (2024)
von: Han, Jisu, et al.
Veröffentlicht: (2024)
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation
von: Cho, Jaemin, et al.
Veröffentlicht: (2023)
von: Cho, Jaemin, et al.
Veröffentlicht: (2023)
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
von: Lee, Daeun, et al.
Veröffentlicht: (2026)
von: Lee, Daeun, et al.
Veröffentlicht: (2026)
Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
von: Lin, Ci-Siang, et al.
Veröffentlicht: (2025)
von: Lin, Ci-Siang, et al.
Veröffentlicht: (2025)
PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation
von: Huang, Yidong, et al.
Veröffentlicht: (2026)
von: Huang, Yidong, et al.
Veröffentlicht: (2026)
SPT: Sequence Prompt Transformer for Interactive Image Segmentation
von: Cheng, Senlin, et al.
Veröffentlicht: (2024)
von: Cheng, Senlin, et al.
Veröffentlicht: (2024)
A Unified Model for Longitudinal Multi-Modal Multi-View Prediction with Missingness
von: Chen, Boqi, et al.
Veröffentlicht: (2024)
von: Chen, Boqi, et al.
Veröffentlicht: (2024)
ESAM++: Efficient Online 3D Perception on the Edge
von: Liu, Qin, et al.
Veröffentlicht: (2026)
von: Liu, Qin, et al.
Veröffentlicht: (2026)
Guiding Registration with Emergent Similarity from Pre-Trained Diffusion Models
von: Tursynbek, Nurislam, et al.
Veröffentlicht: (2025)
von: Tursynbek, Nurislam, et al.
Veröffentlicht: (2025)
$\texttt{NePhi}$: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration
von: Tian, Lin, et al.
Veröffentlicht: (2023)
von: Tian, Lin, et al.
Veröffentlicht: (2023)
UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration
von: Mandal, Debabrata, et al.
Veröffentlicht: (2026)
von: Mandal, Debabrata, et al.
Veröffentlicht: (2026)
PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation
von: Xie, Zhaozhi, et al.
Veröffentlicht: (2024)
von: Xie, Zhaozhi, et al.
Veröffentlicht: (2024)
Benchmarking Human and Automated Prompting in the Segment Anything Model
von: Quesada, Jorge, et al.
Veröffentlicht: (2024)
von: Quesada, Jorge, et al.
Veröffentlicht: (2024)
NFL-BA: Near-Field Light Bundle Adjustment for SLAM in Dynamic Lighting
von: Beltran, Andrea Dunn, et al.
Veröffentlicht: (2024)
von: Beltran, Andrea Dunn, et al.
Veröffentlicht: (2024)
CARL: A Framework for Equivariant Image Registration
von: Greer, Hastings, et al.
Veröffentlicht: (2024)
von: Greer, Hastings, et al.
Veröffentlicht: (2024)
PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts
von: Chen, Zewen, et al.
Veröffentlicht: (2024)
von: Chen, Zewen, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
von: Lin, Han, et al.
Veröffentlicht: (2024) -
RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
von: Niu, Tianyi, et al.
Veröffentlicht: (2025) -
CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval
von: Wan, David, et al.
Veröffentlicht: (2025) -
Self-Correcting Text-to-Video Generation with Misalignment Detection and Localized Refinement
von: Lee, Daeun, et al.
Veröffentlicht: (2024) -
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
von: Lee, Daeun, et al.
Veröffentlicht: (2025)