Enregistré dans:
| Auteurs principaux: | Park, Jinho, Kim, Youbin, Park, Hogun, Park, Eunbyung |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2605.22570 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
par: Kim, Youbin, et autres
Publié: (2026)
par: Kim, Youbin, et autres
Publié: (2026)
Gather-Scatter Mamba: Accelerating Propagation with Efficient State Space Model
par: Ko, Hyun-kyu, et autres
Publié: (2025)
par: Ko, Hyun-kyu, et autres
Publié: (2025)
MAMS: Model-Agnostic Module Selection Framework for Video Captioning
par: Lee, Sangho, et autres
Publié: (2025)
par: Lee, Sangho, et autres
Publié: (2025)
JUDO: A Juxtaposed Domain-Oriented Multimodal Reasoner for Industrial Anomaly QA
par: Kang, Hyunju, et autres
Publié: (2026)
par: Kang, Hyunju, et autres
Publié: (2026)
Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid for 3D Object Detection
par: Park, Konyul, et autres
Publié: (2024)
par: Park, Konyul, et autres
Publié: (2024)
CompMarkGS: Robust Watermarking for Compressed 3D Gaussian Splatting
par: In, Sumin, et autres
Publié: (2025)
par: In, Sumin, et autres
Publié: (2025)
EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting
par: Lee, Dong In, et autres
Publié: (2024)
par: Lee, Dong In, et autres
Publié: (2024)
SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving
par: Kim, Seo Hyun, et autres
Publié: (2026)
par: Kim, Seo Hyun, et autres
Publié: (2026)
DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing
par: Jeong, Hyeonho, et autres
Publié: (2024)
par: Jeong, Hyeonho, et autres
Publié: (2024)
VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?
par: Kim, Minkyu, et autres
Publié: (2026)
par: Kim, Minkyu, et autres
Publié: (2026)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
par: Cai, Mu, et autres
Publié: (2024)
par: Cai, Mu, et autres
Publié: (2024)
Revisiting Reliability in the Reasoning-based Pose Estimation Benchmark
par: Kim, Junsu, et autres
Publié: (2025)
par: Kim, Junsu, et autres
Publié: (2025)
ToG-Bench: Task-Oriented Spatio-Temporal Grounding in Egocentric Videos
par: Xu, Qi'ao, et autres
Publié: (2025)
par: Xu, Qi'ao, et autres
Publié: (2025)
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
par: Park, Jinyoung, et autres
Publié: (2025)
par: Park, Jinyoung, et autres
Publié: (2025)
See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis
par: Park, Jaehyun, et autres
Publié: (2026)
par: Park, Jaehyun, et autres
Publié: (2026)
V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models
par: Kim, Jisoo, et autres
Publié: (2025)
par: Kim, Jisoo, et autres
Publié: (2025)
Leveraging Textual Compositional Reasoning for Robust Change Captioning
par: Park, Kyu Ri, et autres
Publié: (2025)
par: Park, Kyu Ri, et autres
Publié: (2025)
TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs
par: Li, Baiqi, et autres
Publié: (2026)
par: Li, Baiqi, et autres
Publié: (2026)
Task-Agnostic Noisy Label Detection via Standardized Loss Aggregation
par: Park, Inhyuk, et autres
Publié: (2026)
par: Park, Inhyuk, et autres
Publié: (2026)
Agentic Spatio-Temporal Grounding via Collaborative Reasoning
par: Zhao, Heng, et autres
Publié: (2026)
par: Zhao, Heng, et autres
Publié: (2026)
REPrune: Channel Pruning via Kernel Representative Selection
par: Park, Mincheol, et autres
Publié: (2024)
par: Park, Mincheol, et autres
Publié: (2024)
CaST-Bench: Benchmarking Causal Chain-Grounded Spatio-Temporal Reasoning for Video Question Answering
par: Zhang, Mingfang, et autres
Publié: (2026)
par: Zhang, Mingfang, et autres
Publié: (2026)
360 in the Wild: Dataset for Depth Prediction and View Synthesis
par: Park, Kibaek, et autres
Publié: (2024)
par: Park, Kibaek, et autres
Publié: (2024)
ViTA-PAR: Visual and Textual Attribute Alignment with Attribute Prompting for Pedestrian Attribute Recognition
par: Park, Minjeong, et autres
Publié: (2025)
par: Park, Minjeong, et autres
Publié: (2025)
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
par: Hong, Yining, et autres
Publié: (2024)
par: Hong, Yining, et autres
Publié: (2024)
Bridging Implicit and Explicit Geometric Transformation for Single-Image View Synthesis
par: Park, Byeongjun, et autres
Publié: (2022)
par: Park, Byeongjun, et autres
Publié: (2022)
CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs
par: Kim, Jiwan, et autres
Publié: (2025)
par: Kim, Jiwan, et autres
Publié: (2025)
Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench
par: Hu, Lanxiang, et autres
Publié: (2025)
par: Hu, Lanxiang, et autres
Publié: (2025)
SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models
par: Deng, Andong, et autres
Publié: (2025)
par: Deng, Andong, et autres
Publié: (2025)
Jailbreaking on Text-to-Video Models via Scene Splitting Strategy
par: Lee, Wonjun, et autres
Publié: (2025)
par: Lee, Wonjun, et autres
Publié: (2025)
Open-o3-Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
par: Meng, Jiahao, et autres
Publié: (2025)
par: Meng, Jiahao, et autres
Publié: (2025)
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation
par: Feng, Weixi, et autres
Publié: (2024)
par: Feng, Weixi, et autres
Publié: (2024)
SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning
par: Kong, Fanqi, et autres
Publié: (2025)
par: Kong, Fanqi, et autres
Publié: (2025)
ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving
par: Sha, Lin, et autres
Publié: (2026)
par: Sha, Lin, et autres
Publié: (2026)
Generative Physical AI in Vision: A Survey
par: Liu, Daochang, et autres
Publié: (2025)
par: Liu, Daochang, et autres
Publié: (2025)
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance
par: Kim, Younghyun, et autres
Publié: (2024)
par: Kim, Younghyun, et autres
Publié: (2024)
VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG
par: Fu, Honghao, et autres
Publié: (2026)
par: Fu, Honghao, et autres
Publié: (2026)
DETACH : Decomposed Spatio-Temporal Alignment for Exocentric Video and Ambient Sensors with Staged Learning
par: Yoon, Junho, et autres
Publié: (2025)
par: Yoon, Junho, et autres
Publié: (2025)
Think as Needed: Geometry-Driven Adaptive Perception for Autonomous Driving
par: Kim, Donghyun, et autres
Publié: (2026)
par: Kim, Donghyun, et autres
Publié: (2026)
MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity
par: Choi, Kanghyun, et autres
Publié: (2024)
par: Choi, Kanghyun, et autres
Publié: (2024)
Documents similaires
-
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
par: Kim, Youbin, et autres
Publié: (2026) -
Gather-Scatter Mamba: Accelerating Propagation with Efficient State Space Model
par: Ko, Hyun-kyu, et autres
Publié: (2025) -
MAMS: Model-Agnostic Module Selection Framework for Video Captioning
par: Lee, Sangho, et autres
Publié: (2025) -
JUDO: A Juxtaposed Domain-Oriented Multimodal Reasoner for Industrial Anomaly QA
par: Kang, Hyunju, et autres
Publié: (2026) -
Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid for 3D Object Detection
par: Park, Konyul, et autres
Publié: (2024)