:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Makarov, Vladislav, Gizetdinov, Mark, Yudin, Dmitry
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2605.13667
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
by: Zemskova, Tatiana, et al.
Published: (2024)

DyGEnc: Encoding a Sequence of Textual Scene Graphs to Reason and Answer Questions in Dynamic Scenes
by: Linok, Sergey, et al.
Published: (2025)

Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models
by: Berman, Nimrod, et al.
Published: (2025)

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models
by: Li, Rongjie, et al.
Published: (2024)

Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph
by: Linok, Sergey, et al.
Published: (2024)

VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation
by: Zhou, Zijian, et al.
Published: (2023)

Open World Scene Graph Generation using Vision Language Models
by: Dutta, Amartya, et al.
Published: (2025)

Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement
by: Wang, Yuxuan, et al.
Published: (2024)

SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation
by: Zhang, Hang, et al.
Published: (2024)

VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation
by: Sugandhika, Chinthani, et al.
Published: (2025)

HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation
by: Nguyen, Trong-Thuan, et al.
Published: (2024)

M3DMap: Object-aware Multimodal 3D Mapping for Dynamic Environments
by: Yudin, Dmitry
Published: (2025)

RE-VLM: Event-Augmented Vision-Language Model for Scene Understanding
by: Liu, Hanqing, et al.
Published: (2026)

Weakly Supervised Video Scene Graph Generation via Natural Language Supervision
by: Kim, Kibum, et al.
Published: (2025)

HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding
by: Nguyen, Trong-Thuan, et al.
Published: (2023)

Universal Scene Graph Generation
by: Wu, Shengqiong, et al.
Published: (2025)

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering
by: Zemskova, Tatiana, et al.
Published: (2026)

Supplementing Missing Visions via Dialog for Scene Graph Generations
by: Zhao, Zhenghao, et al.
Published: (2022)

DDS: Decoupled Dynamic Scene-Graph Generation Network
by: Iftekhar, A S M, et al.
Published: (2023)

FIHA: Autonomous Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs
by: Yan, Bowen, et al.
Published: (2024)

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models
by: Qi, Zhangyang, et al.
Published: (2025)

DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation
by: Chen, Mu, et al.
Published: (2025)

Generalized Unbiased Scene Graph Generation
by: Lyu, Xinyu, et al.
Published: (2023)

Adaptive Visual Scene Understanding: Incremental Scene Graph Generation
by: Khandelwal, Naitik, et al.
Published: (2023)

FDSG: Forecasting Dynamic Scene Graphs
by: Yang, Yi, et al.
Published: (2025)

CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion
by: Zhai, Guangyao, et al.
Published: (2023)

Scene Graph Generation with Role-Playing Large Language Models
by: Chen, Guikun, et al.
Published: (2024)

3D Scene Graph Guided Vision-Language Pre-training
by: Liu, Hao, et al.
Published: (2024)

SAMJAM: Zero-Shot Video Scene Graph Generation for Egocentric Kitchen Videos
by: Li, Joshua, et al.
Published: (2025)

GeoSceneGraph: Geometric Scene Graph Diffusion Model for Text-guided 3D Indoor Scene Synthesis
by: Ruiz, Antonio, et al.
Published: (2025)

Location-Free Scene Graph Generation
by: Özsoy, Ege, et al.
Published: (2023)

Controllable 3D Outdoor Scene Generation via Scene Graphs
by: Liu, Yuheng, et al.
Published: (2025)

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
by: Ju, Yuanchen, et al.
Published: (2025)

Frequency-guided Multi-level Reasoning for Scene Graph Generation in Video
by: Li, Chenxing, et al.
Published: (2026)

GraphVLM: Benchmarking Vision Language Models for Multimodal Graph Learning
by: Liu, Jiajin, et al.
Published: (2026)

Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos
by: Peddi, Rohith, et al.
Published: (2026)

GaussianGraph: 3D Gaussian-based Scene Graph Generation for Open-world Scene Understanding
by: Wang, Xihan, et al.
Published: (2025)

Multiview Scene Graph
by: Zhang, Juexiao, et al.
Published: (2024)

SceneLinker: Compositional 3D Scene Generation via Semantic Scene Graph from RGB Sequences
by: Kim, Seok-Young, et al.
Published: (2026)

Enhancing Vision-Language Models with Scene Graphs for Traffic Accident Understanding
by: Lohner, Aaron, et al.
Published: (2024)