Salvato in:
| Autori principali: | Yu, Heyang, Han, Yinan, Zhang, Xiangyu, Yin, Baiqiao, Chang, Bowen, Han, Xiangyu, Liu, Xinhao, Zhang, Jing, Pavone, Marco, Feng, Chen, Xie, Saining, Li, Yiming |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2511.20351 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Beyond Thinking: Imagining in 360$^\circ$ for Humanoid Visual Search
di: Zhang, Jingdong, et al.
Pubblicazione: (2026)
di: Zhang, Jingdong, et al.
Pubblicazione: (2026)
VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception
di: Yan, Ziang, et al.
Pubblicazione: (2025)
di: Yan, Ziang, et al.
Pubblicazione: (2025)
Adversarial Exploitation of Data Diversity Improves Visual Localization
di: Li, Sihang, et al.
Pubblicazione: (2024)
di: Li, Sihang, et al.
Pubblicazione: (2024)
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
di: Yang, Jihan, et al.
Pubblicazione: (2024)
di: Yang, Jihan, et al.
Pubblicazione: (2024)
Extrapolated Urban View Synthesis Benchmark
di: Han, Xiangyu, et al.
Pubblicazione: (2024)
di: Han, Xiangyu, et al.
Pubblicazione: (2024)
MindCube: Spatial Mental Modeling from Limited Views
di: Wang, Qineng, et al.
Pubblicazione: (2025)
di: Wang, Qineng, et al.
Pubblicazione: (2025)
From Web to Pixels: Bringing Agentic Search into Visual Perception
di: Yang, Bokang, et al.
Pubblicazione: (2026)
di: Yang, Bokang, et al.
Pubblicazione: (2026)
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
di: Zhang, Zhixin, et al.
Pubblicazione: (2024)
di: Zhang, Zhixin, et al.
Pubblicazione: (2024)
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
di: Li, Xinhao, et al.
Pubblicazione: (2025)
di: Li, Xinhao, et al.
Pubblicazione: (2025)
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
di: Fan, Kaixuan, et al.
Pubblicazione: (2025)
di: Fan, Kaixuan, et al.
Pubblicazione: (2025)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think
di: Yu, Sihyun, et al.
Pubblicazione: (2024)
di: Yu, Sihyun, et al.
Pubblicazione: (2024)
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?
di: Ni, Jinhong, et al.
Pubblicazione: (2025)
di: Ni, Jinhong, et al.
Pubblicazione: (2025)
Boosting Adversarial Training via Fisher-Rao Norm-based Regularization
di: Yin, Xiangyu, et al.
Pubblicazione: (2024)
di: Yin, Xiangyu, et al.
Pubblicazione: (2024)
Multimodal Long Video Modeling Based on Temporal Dynamic Context
di: Hao, Haoran, et al.
Pubblicazione: (2025)
di: Hao, Haoran, et al.
Pubblicazione: (2025)
TurboTalk: Progressive Distillation for One-Step Audio-Driven Talking Avatar Generation
di: Liu, Xiangyu, et al.
Pubblicazione: (2026)
di: Liu, Xiangyu, et al.
Pubblicazione: (2026)
Institutional Design, Outside Director Effectiveness, and Stock Price Crash Risk: Evidence from Japan's 2015 Hybrid Board Reform*
di: Baiqiao Yin
Pubblicazione: (2026)
di: Baiqiao Yin
Pubblicazione: (2026)
Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
di: Li, Chengqi, et al.
Pubblicazione: (2025)
di: Li, Chengqi, et al.
Pubblicazione: (2025)
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
di: Chen, Jiacheng, et al.
Pubblicazione: (2025)
di: Chen, Jiacheng, et al.
Pubblicazione: (2025)
Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
di: Brown, Ellis, et al.
Pubblicazione: (2025)
di: Brown, Ellis, et al.
Pubblicazione: (2025)
Self-Supervised Visual Preference Alignment
di: Zhu, Ke, et al.
Pubblicazione: (2024)
di: Zhu, Ke, et al.
Pubblicazione: (2024)
RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models
di: Hao, Haoran, et al.
Pubblicazione: (2024)
di: Hao, Haoran, et al.
Pubblicazione: (2024)
Falcon: Fractional Alternating Cut with Overcoming Minima in Unsupervised Segmentation
di: Zhang, Xiao, et al.
Pubblicazione: (2025)
di: Zhang, Xiao, et al.
Pubblicazione: (2025)
Multimodal Latent Reasoning via Hierarchical Visual Cues Injection
di: Zhang, Yiming, et al.
Pubblicazione: (2026)
di: Zhang, Yiming, et al.
Pubblicazione: (2026)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment
di: Yan, Ziang, et al.
Pubblicazione: (2024)
di: Yan, Ziang, et al.
Pubblicazione: (2024)
WildCap: Facial Albedo Capture in the Wild via Hybrid Inverse Rendering
di: Han, Yuxuan, et al.
Pubblicazione: (2025)
di: Han, Yuxuan, et al.
Pubblicazione: (2025)
Small Object Tracking in LiDAR Point Cloud: Learning the Target-awareness Prototype and Fine-grained Search Region
di: Tian, Shengjing, et al.
Pubblicazione: (2024)
di: Tian, Shengjing, et al.
Pubblicazione: (2024)
Renormalization Group Guided Tensor Network Structure Search
di: Wang, Maolin, et al.
Pubblicazione: (2025)
di: Wang, Maolin, et al.
Pubblicazione: (2025)
WildOS: Open-Vocabulary Object Search in the Wild
di: Shah, Hardik, et al.
Pubblicazione: (2026)
di: Shah, Hardik, et al.
Pubblicazione: (2026)
360 in the Wild: Dataset for Depth Prediction and View Synthesis
di: Park, Kibaek, et al.
Pubblicazione: (2024)
di: Park, Kibaek, et al.
Pubblicazione: (2024)
SkyLink: A Large Vision-Language Model Driven Re-ranking Framework for Cross-View UAV geolocalization
di: Liu, Bowen, et al.
Pubblicazione: (2026)
di: Liu, Bowen, et al.
Pubblicazione: (2026)
Controllable Shape Modeling with Neural Generalized Cylinder
di: Zhu, Xiangyu, et al.
Pubblicazione: (2024)
di: Zhu, Xiangyu, et al.
Pubblicazione: (2024)
MVBoost: Boost 3D Reconstruction with Multi-View Refinement
di: Liu, Xiangyu, et al.
Pubblicazione: (2024)
di: Liu, Xiangyu, et al.
Pubblicazione: (2024)
CUBE360: Learning Cubic Field Representation for Monocular 360 Depth Estimation for Virtual Reality
di: Chang, Wenjie, et al.
Pubblicazione: (2024)
di: Chang, Wenjie, et al.
Pubblicazione: (2024)
Structure Over Scale: Learning Visual Reasoning from Pedagogical Video
di: Galoaa, Bishoy, et al.
Pubblicazione: (2026)
di: Galoaa, Bishoy, et al.
Pubblicazione: (2026)
Spike-NVPT: Learning Robust Visual Prompts via Bio-Inspired Temporal Filtering and Discretization
di: Zhan, Qiugang, et al.
Pubblicazione: (2026)
di: Zhan, Qiugang, et al.
Pubblicazione: (2026)
Duoduo CLIP: Efficient 3D Understanding with Multi-View Images
di: Lee, Han-Hung, et al.
Pubblicazione: (2024)
di: Lee, Han-Hung, et al.
Pubblicazione: (2024)
VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation
di: Yin, Shaofeng, et al.
Pubblicazione: (2025)
di: Yin, Shaofeng, et al.
Pubblicazione: (2025)
Depth Anything in $360^\circ$: Towards Scale Invariance in the Wild
di: Jiang, Hualie, et al.
Pubblicazione: (2025)
di: Jiang, Hualie, et al.
Pubblicazione: (2025)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework
di: Han, Xiao, et al.
Pubblicazione: (2024)
di: Han, Xiao, et al.
Pubblicazione: (2024)
Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration
di: Ding, Pengxiang, et al.
Pubblicazione: (2025)
di: Ding, Pengxiang, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Beyond Thinking: Imagining in 360$^\circ$ for Humanoid Visual Search
di: Zhang, Jingdong, et al.
Pubblicazione: (2026) -
VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception
di: Yan, Ziang, et al.
Pubblicazione: (2025) -
Adversarial Exploitation of Data Diversity Improves Visual Localization
di: Li, Sihang, et al.
Pubblicazione: (2024) -
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
di: Yang, Jihan, et al.
Pubblicazione: (2024) -
Extrapolated Urban View Synthesis Benchmark
di: Han, Xiangyu, et al.
Pubblicazione: (2024)