Enregistré dans:
| Auteurs principaux: | Shen, Yiqing, Li, Chenjia, Unberath, Mathias |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2511.14100 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Reasoning Text-to-Video Retrieval via Digital Twin Video Representations and Large Language Models
par: Shen, Yiqing, et autres
Publié: (2025)
par: Shen, Yiqing, et autres
Publié: (2025)
Constructing and Interpreting Digital Twin Representations for Visual Reasoning via Reinforcement Learning
par: Shen, Yiqing, et autres
Publié: (2025)
par: Shen, Yiqing, et autres
Publié: (2025)
Counterfactual World Models via Digital Twin-conditioned Video Diffusion
par: Shen, Yiqing, et autres
Publié: (2025)
par: Shen, Yiqing, et autres
Publié: (2025)
Online Reasoning Video Segmentation with Just-in-Time Digital Twins
par: Shen, Yiqing, et autres
Publié: (2025)
par: Shen, Yiqing, et autres
Publié: (2025)
Temporally-Constrained Video Reasoning Segmentation and Automated Benchmark Construction
par: Shen, Yiqing, et autres
Publié: (2025)
par: Shen, Yiqing, et autres
Publié: (2025)
Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins
par: Shen, Yiqing, et autres
Publié: (2025)
par: Shen, Yiqing, et autres
Publié: (2025)
RVTBench: A Benchmark for Visual Reasoning Tasks
par: Shen, Yiqing, et autres
Publié: (2025)
par: Shen, Yiqing, et autres
Publié: (2025)
Fast Reasoning Segmentation for Images and Videos
par: Shen, Yiqing, et autres
Publié: (2025)
par: Shen, Yiqing, et autres
Publié: (2025)
Reasoning Segmentation for Images and Videos: A Survey
par: Shen, Yiqing, et autres
Publié: (2025)
par: Shen, Yiqing, et autres
Publié: (2025)
Memorizing SAM: 3D Medical Segment Anything Model with Memorizing Transformer
par: Shao, Xinyuan, et autres
Publié: (2024)
par: Shao, Xinyuan, et autres
Publié: (2024)
TwinOR: Photorealistic Digital Twins of Dynamic Operating Rooms for Embodied AI Research
par: Zhang, Han, et autres
Publié: (2025)
par: Zhang, Han, et autres
Publié: (2025)
Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations
par: Li, Yizhen, et autres
Publié: (2025)
par: Li, Yizhen, et autres
Publié: (2025)
Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin Representation
par: Ding, Hao, et autres
Publié: (2024)
par: Ding, Hao, et autres
Publié: (2024)
Understanding the Implicit User Intention via Reasoning with Large Language Model for Image Editing
par: Wang, Yijia, et autres
Publié: (2025)
par: Wang, Yijia, et autres
Publié: (2025)
A Causal Framework for Aligning Image Quality Metrics and Deep Neural Network Robustness
par: Drenkow, Nathan, et autres
Publié: (2025)
par: Drenkow, Nathan, et autres
Publié: (2025)
FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images
par: Shen, Yiqing, et autres
Publié: (2024)
par: Shen, Yiqing, et autres
Publié: (2024)
MoSFormer: Augmenting Temporal Context with Memory of Surgery for Surgical Phase Recognition
par: Ding, Hao, et autres
Publié: (2025)
par: Ding, Hao, et autres
Publié: (2025)
An Intrinsically Explainable Approach to Detecting Vertebral Compression Fractures in CT Scans via Neurosymbolic Modeling
par: Inigo, Blanca, et autres
Publié: (2024)
par: Inigo, Blanca, et autres
Publié: (2024)
Causality-Driven Audits of Model Robustness
par: Drenkow, Nathan, et autres
Publié: (2024)
par: Drenkow, Nathan, et autres
Publié: (2024)
Intelligent Control of Robotic X-ray Devices using a Language-promptable Digital Twin
par: Killeen, Benjamin D., et autres
Publié: (2024)
par: Killeen, Benjamin D., et autres
Publié: (2024)
Privacy-Preserving Operating Room Workflow Analysis using Digital Twins
par: Perez, Alejandra, et autres
Publié: (2025)
par: Perez, Alejandra, et autres
Publié: (2025)
VideoDirector: Precise Video Editing via Text-to-Video Models
par: Wang, Yukun, et autres
Publié: (2024)
par: Wang, Yukun, et autres
Publié: (2024)
AudioScenic: Audio-Driven Video Scene Editing
par: Shen, Kaixin, et autres
Publié: (2024)
par: Shen, Kaixin, et autres
Publié: (2024)
DualNeRF: Text-Driven 3D Scene Editing via Dual-Field Representation
par: Xiong, Yuxuan, et autres
Publié: (2025)
par: Xiong, Yuxuan, et autres
Publié: (2025)
ReasonEdit: Towards Interpretable Image Editing Evaluation via Reinforcement Learning
par: Chen, Honghua, et autres
Publié: (2026)
par: Chen, Honghua, et autres
Publié: (2026)
TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs
par: Wang, Juntong, et autres
Publié: (2025)
par: Wang, Juntong, et autres
Publié: (2025)
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing
par: Couairon, Paul, et autres
Publié: (2023)
par: Couairon, Paul, et autres
Publié: (2023)
VideoSeg-R1:Reasoning Video Object Segmentation via Reinforcement Learning
par: Xu, Zishan, et autres
Publié: (2025)
par: Xu, Zishan, et autres
Publié: (2025)
Reasoning to Align: Implicit Reasoning in Diffusion Transformers for Video Editing
par: Li, Yan, et autres
Publié: (2026)
par: Li, Yan, et autres
Publié: (2026)
AffordTissue: Dense Affordance Prediction for Tool-Action Specific Tissue Interaction
par: Maksutova, Aiza, et autres
Publié: (2026)
par: Maksutova, Aiza, et autres
Publié: (2026)
DDA-Thinker: Decoupled Dual-Atomic Reinforcement Learning for Reasoning-Driven Image Editing
par: Yang, Hanqing, et autres
Publié: (2026)
par: Yang, Hanqing, et autres
Publié: (2026)
Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
par: Tang, Yolo Y., et autres
Publié: (2025)
par: Tang, Yolo Y., et autres
Publié: (2025)
SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval
par: Zhao, Ruixiang, et autres
Publié: (2026)
par: Zhao, Ruixiang, et autres
Publié: (2026)
From Generalization to Precision: Exploring SAM for Tool Segmentation in Surgical Environments
par: Oguine, Kanyifeechukwu J., et autres
Publié: (2024)
par: Oguine, Kanyifeechukwu J., et autres
Publié: (2024)
ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing
par: Li, Hengjia, et autres
Publié: (2026)
par: Li, Hengjia, et autres
Publié: (2026)
VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment
par: Sun, Shangkun, et autres
Publié: (2024)
par: Sun, Shangkun, et autres
Publié: (2024)
HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning
par: Yang, Yiqing, et autres
Publié: (2025)
par: Yang, Yiqing, et autres
Publié: (2025)
Behavior-Grounded Lane Representation Learning for Multi-Task Traffic Digital Twins
par: Tamaru, Rei, et autres
Publié: (2026)
par: Tamaru, Rei, et autres
Publié: (2026)
Edit3K: Universal Representation Learning for Video Editing Components
par: Gu, Xin, et autres
Publié: (2024)
par: Gu, Xin, et autres
Publié: (2024)
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations
par: Krojer, Benno, et autres
Publié: (2024)
par: Krojer, Benno, et autres
Publié: (2024)
Documents similaires
-
Reasoning Text-to-Video Retrieval via Digital Twin Video Representations and Large Language Models
par: Shen, Yiqing, et autres
Publié: (2025) -
Constructing and Interpreting Digital Twin Representations for Visual Reasoning via Reinforcement Learning
par: Shen, Yiqing, et autres
Publié: (2025) -
Counterfactual World Models via Digital Twin-conditioned Video Diffusion
par: Shen, Yiqing, et autres
Publié: (2025) -
Online Reasoning Video Segmentation with Just-in-Time Digital Twins
par: Shen, Yiqing, et autres
Publié: (2025) -
Temporally-Constrained Video Reasoning Segmentation and Automated Benchmark Construction
par: Shen, Yiqing, et autres
Publié: (2025)