:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Shen, Yiqing, Li, Chenjia, Unberath, Mathias
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2511.14100
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Reasoning Text-to-Video Retrieval via Digital Twin Video Representations and Large Language Models
par: Shen, Yiqing, et autres
Publié: (2025)

Constructing and Interpreting Digital Twin Representations for Visual Reasoning via Reinforcement Learning
par: Shen, Yiqing, et autres
Publié: (2025)

Counterfactual World Models via Digital Twin-conditioned Video Diffusion
par: Shen, Yiqing, et autres
Publié: (2025)

Online Reasoning Video Segmentation with Just-in-Time Digital Twins
par: Shen, Yiqing, et autres
Publié: (2025)

Temporally-Constrained Video Reasoning Segmentation and Automated Benchmark Construction
par: Shen, Yiqing, et autres
Publié: (2025)

Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins
par: Shen, Yiqing, et autres
Publié: (2025)

RVTBench: A Benchmark for Visual Reasoning Tasks
par: Shen, Yiqing, et autres
Publié: (2025)

Fast Reasoning Segmentation for Images and Videos
par: Shen, Yiqing, et autres
Publié: (2025)

Reasoning Segmentation for Images and Videos: A Survey
par: Shen, Yiqing, et autres
Publié: (2025)

Memorizing SAM: 3D Medical Segment Anything Model with Memorizing Transformer
par: Shao, Xinyuan, et autres
Publié: (2024)

TwinOR: Photorealistic Digital Twins of Dynamic Operating Rooms for Embodied AI Research
par: Zhang, Han, et autres
Publié: (2025)

Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations
par: Li, Yizhen, et autres
Publié: (2025)

Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin Representation
par: Ding, Hao, et autres
Publié: (2024)

Understanding the Implicit User Intention via Reasoning with Large Language Model for Image Editing
par: Wang, Yijia, et autres
Publié: (2025)

A Causal Framework for Aligning Image Quality Metrics and Deep Neural Network Robustness
par: Drenkow, Nathan, et autres
Publié: (2025)

FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images
par: Shen, Yiqing, et autres
Publié: (2024)

MoSFormer: Augmenting Temporal Context with Memory of Surgery for Surgical Phase Recognition
par: Ding, Hao, et autres
Publié: (2025)

An Intrinsically Explainable Approach to Detecting Vertebral Compression Fractures in CT Scans via Neurosymbolic Modeling
par: Inigo, Blanca, et autres
Publié: (2024)

Causality-Driven Audits of Model Robustness
par: Drenkow, Nathan, et autres
Publié: (2024)

Intelligent Control of Robotic X-ray Devices using a Language-promptable Digital Twin
par: Killeen, Benjamin D., et autres
Publié: (2024)

Privacy-Preserving Operating Room Workflow Analysis using Digital Twins
par: Perez, Alejandra, et autres
Publié: (2025)

VideoDirector: Precise Video Editing via Text-to-Video Models
par: Wang, Yukun, et autres
Publié: (2024)

AudioScenic: Audio-Driven Video Scene Editing
par: Shen, Kaixin, et autres
Publié: (2024)

DualNeRF: Text-Driven 3D Scene Editing via Dual-Field Representation
par: Xiong, Yuxuan, et autres
Publié: (2025)

ReasonEdit: Towards Interpretable Image Editing Evaluation via Reinforcement Learning
par: Chen, Honghua, et autres
Publié: (2026)

TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs
par: Wang, Juntong, et autres
Publié: (2025)

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing
par: Couairon, Paul, et autres
Publié: (2023)

VideoSeg-R1:Reasoning Video Object Segmentation via Reinforcement Learning
par: Xu, Zishan, et autres
Publié: (2025)

Reasoning to Align: Implicit Reasoning in Diffusion Transformers for Video Editing
par: Li, Yan, et autres
Publié: (2026)

AffordTissue: Dense Affordance Prediction for Tool-Action Specific Tissue Interaction
par: Maksutova, Aiza, et autres
Publié: (2026)

DDA-Thinker: Decoupled Dual-Atomic Reinforcement Learning for Reasoning-Driven Image Editing
par: Yang, Hanqing, et autres
Publié: (2026)

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
par: Tang, Yolo Y., et autres
Publié: (2025)

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval
par: Zhao, Ruixiang, et autres
Publié: (2026)

From Generalization to Precision: Exploring SAM for Tool Segmentation in Surgical Environments
par: Oguine, Kanyifeechukwu J., et autres
Publié: (2024)

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing
par: Li, Hengjia, et autres
Publié: (2026)

VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment
par: Sun, Shangkun, et autres
Publié: (2024)

HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning
par: Yang, Yiqing, et autres
Publié: (2025)

Behavior-Grounded Lane Representation Learning for Multi-Task Traffic Digital Twins
par: Tamaru, Rei, et autres
Publié: (2026)

Edit3K: Universal Representation Learning for Video Editing Components
par: Gu, Xin, et autres
Publié: (2024)

Learning Action and Reasoning-Centric Image Editing from Videos and Simulations
par: Krojer, Benno, et autres
Publié: (2024)