:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Park, Jinho, Kim, Youbin, Park, Hogun, Park, Eunbyung
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2605.22570
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
par: Kim, Youbin, et autres
Publié: (2026)

Gather-Scatter Mamba: Accelerating Propagation with Efficient State Space Model
par: Ko, Hyun-kyu, et autres
Publié: (2025)

MAMS: Model-Agnostic Module Selection Framework for Video Captioning
par: Lee, Sangho, et autres
Publié: (2025)

JUDO: A Juxtaposed Domain-Oriented Multimodal Reasoner for Industrial Anomaly QA
par: Kang, Hyunju, et autres
Publié: (2026)

Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid for 3D Object Detection
par: Park, Konyul, et autres
Publié: (2024)

CompMarkGS: Robust Watermarking for Compressed 3D Gaussian Splatting
par: In, Sumin, et autres
Publié: (2025)

EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting
par: Lee, Dong In, et autres
Publié: (2024)

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving
par: Kim, Seo Hyun, et autres
Publié: (2026)

DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing
par: Jeong, Hyeonho, et autres
Publié: (2024)

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?
par: Kim, Minkyu, et autres
Publié: (2026)

TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
par: Cai, Mu, et autres
Publié: (2024)

Revisiting Reliability in the Reasoning-based Pose Estimation Benchmark
par: Kim, Junsu, et autres
Publié: (2025)

ToG-Bench: Task-Oriented Spatio-Temporal Grounding in Egocentric Videos
par: Xu, Qi'ao, et autres
Publié: (2025)

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
par: Park, Jinyoung, et autres
Publié: (2025)

See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis
par: Park, Jaehyun, et autres
Publié: (2026)

V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models
par: Kim, Jisoo, et autres
Publié: (2025)

Leveraging Textual Compositional Reasoning for Robust Change Captioning
par: Park, Kyu Ri, et autres
Publié: (2025)

TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs
par: Li, Baiqi, et autres
Publié: (2026)

Task-Agnostic Noisy Label Detection via Standardized Loss Aggregation
par: Park, Inhyuk, et autres
Publié: (2026)

Agentic Spatio-Temporal Grounding via Collaborative Reasoning
par: Zhao, Heng, et autres
Publié: (2026)

REPrune: Channel Pruning via Kernel Representative Selection
par: Park, Mincheol, et autres
Publié: (2024)

CaST-Bench: Benchmarking Causal Chain-Grounded Spatio-Temporal Reasoning for Video Question Answering
par: Zhang, Mingfang, et autres
Publié: (2026)

360 in the Wild: Dataset for Depth Prediction and View Synthesis
par: Park, Kibaek, et autres
Publié: (2024)

ViTA-PAR: Visual and Textual Attribute Alignment with Attribute Prompting for Pedestrian Attribute Recognition
par: Park, Minjeong, et autres
Publié: (2025)

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
par: Hong, Yining, et autres
Publié: (2024)

Bridging Implicit and Explicit Geometric Transformation for Single-Image View Synthesis
par: Park, Byeongjun, et autres
Publié: (2022)

CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs
par: Kim, Jiwan, et autres
Publié: (2025)

Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench
par: Hu, Lanxiang, et autres
Publié: (2025)

SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models
par: Deng, Andong, et autres
Publié: (2025)

Jailbreaking on Text-to-Video Models via Scene Splitting Strategy
par: Lee, Wonjun, et autres
Publié: (2025)

Open-o3-Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
par: Meng, Jiahao, et autres
Publié: (2025)

TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation
par: Feng, Weixi, et autres
Publié: (2024)

SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning
par: Kong, Fanqi, et autres
Publié: (2025)

ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving
par: Sha, Lin, et autres
Publié: (2026)

Generative Physical AI in Vision: A Survey
par: Liu, Daochang, et autres
Publié: (2025)

DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance
par: Kim, Younghyun, et autres
Publié: (2024)

VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG
par: Fu, Honghao, et autres
Publié: (2026)

DETACH : Decomposed Spatio-Temporal Alignment for Exocentric Video and Ambient Sensors with Staged Learning
par: Yoon, Junho, et autres
Publié: (2025)

Think as Needed: Geometry-Driven Adaptive Perception for Autonomous Driving
par: Kim, Donghyun, et autres
Publié: (2026)

MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity
par: Choi, Kanghyun, et autres
Publié: (2024)