:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Yariv, Guy, Schwartz, Idan, Adi, Yossi, Benaim, Sagie
Format:	Preprint
Published:	2024
Subjects:	Computation and Language Computer Vision and Pattern Recognition Machine Learning
Online Access:	https://arxiv.org/abs/2406.13621
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
by: Issachar, Noam, et al.
Published: (2025)

RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling
by: Chachy, Itay, et al.
Published: (2025)

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation
by: Yariv, Guy, et al.
Published: (2025)

LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction
by: Du, Penghui, et al.
Published: (2024)

Generating Intermediate Representations for Compositional Text-To-Image Generation
by: Galun, Ran, et al.
Published: (2024)

Discriminative Class Tokens for Text-to-Image Diffusion Models
by: Schwartz, Idan, et al.
Published: (2023)

RAD: Retrieval-Augmented Monocular Metric Depth Estimation for Underrepresented Classes
by: Baltaxe, Michael, et al.
Published: (2026)

MV-RAG: Retrieval Augmented Multiview Diffusion
by: Dayani, Yosef, et al.
Published: (2025)

Colored Noise Diffusion Sampling
by: Davidson, Hadar, et al.
Published: (2026)

Lang3D-XL: Language Embedded 3D Gaussians for Large-scale Scenes
by: Krakovsky, Shai, et al.
Published: (2025)

Let it Snow! Animating 3D Gaussian Scenes with Dynamic Weather Effects via Physics-Guided Score Distillation
by: Fiebelman, Gal, et al.
Published: (2025)

Splat and Distill: Augmenting Teachers with Feed-Forward 3D Reconstruction For 3D-Aware Distillation
by: Shavin, David, et al.
Published: (2026)

PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions
by: Benishu, Omer, et al.
Published: (2026)

SemanticMoments: Training-Free Motion Similarity via Third Moment Features
by: Huberman, Saar, et al.
Published: (2026)

DGD: Dynamic 3D Gaussians Distillation
by: Labe, Isaac, et al.
Published: (2024)

Structurally Disentangled Feature Fields Distillation for 3D Understanding and Editing
by: Levy, Yoel, et al.
Published: (2025)

Designing a Conditional Prior Distribution for Flow-Based Generative Models
by: Issachar, Noam, et al.
Published: (2025)

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
by: Itkin, Roni, et al.
Published: (2026)

ReMI: A Dataset for Reasoning with Multiple Images
by: Kazemi, Mehran, et al.
Published: (2024)

Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models
by: Bitton-Guetta, Nitzan, et al.
Published: (2024)

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models
by: Yoshida, Haruto, et al.
Published: (2026)

Assessing Neural Network Robustness via Adversarial Pivotal Tuning
by: Christensen, Peter Ebert, et al.
Published: (2022)

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models
by: Villa, Andrés, et al.
Published: (2023)

Error-Driven Scene Editing for 3D Grounding in Large Language Models
by: Zhang, Yue, et al.
Published: (2025)

MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models
by: Wu, Siwei, et al.
Published: (2024)

GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation
by: Cai, Shihao, et al.
Published: (2024)

The Impact of Image Resolution on Biomedical Multimodal Large Language Models
by: Chen, Liangyu, et al.
Published: (2025)

Benchmarking Large Language Models for Image Classification of Marine Mammals
by: Qi, Yijiashun, et al.
Published: (2024)

The Minimum Information about CLinical Artificial Intelligence Checklist for Generative Modeling Research (MI-CLAIM-GEN)
by: Miao, Brenda Y., et al.
Published: (2024)

Beyond Vision: How Large Language Models Interpret Facial Expressions from Valence-Arousal Values
by: Mehra, Vaibhav, et al.
Published: (2025)

Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction
by: Teng, Matthew Kit Khinn, et al.
Published: (2025)

DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception
by: Luo, Run, et al.
Published: (2024)

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
by: Xu, Runsen, et al.
Published: (2025)

Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance
by: Zhao, Haozhe, et al.
Published: (2024)

Enhancing Large Vision Language Models with Self-Training on Image Comprehension
by: Deng, Yihe, et al.
Published: (2024)

Kosmos-G: Generating Images in Context with Multimodal Large Language Models
by: Pan, Xichen, et al.
Published: (2023)

Single Image Iterative Subject-driven Generation and Editing
by: Shpitzer, Yair, et al.
Published: (2025)

Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment
by: Gordon, Brian, et al.
Published: (2023)

Growing a Multi-head Twig via Distillation and Reinforcement Learning to Accelerate Large Vision-Language Models
by: Shao, Zhenwei, et al.
Published: (2025)

SignBind-LLM: Multi-Stage Modality Fusion for Sign Language Translation
by: Thomas, Marshall, et al.
Published: (2025)