:: Library Catalog

Salvato in:

Dettagli Bibliografici
Autori principali:	Yu, Heyang, Han, Yinan, Zhang, Xiangyu, Yin, Baiqiao, Chang, Bowen, Han, Xiangyu, Liu, Xinhao, Zhang, Jing, Pavone, Marco, Feng, Chen, Xie, Saining, Li, Yiming
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2511.20351
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Beyond Thinking: Imagining in 360$^\circ$ for Humanoid Visual Search
di: Zhang, Jingdong, et al.
Pubblicazione: (2026)

VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception
di: Yan, Ziang, et al.
Pubblicazione: (2025)

Adversarial Exploitation of Data Diversity Improves Visual Localization
di: Li, Sihang, et al.
Pubblicazione: (2024)

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
di: Yang, Jihan, et al.
Pubblicazione: (2024)

Extrapolated Urban View Synthesis Benchmark
di: Han, Xiangyu, et al.
Pubblicazione: (2024)

MindCube: Spatial Mental Modeling from Limited Views
di: Wang, Qineng, et al.
Pubblicazione: (2025)

From Web to Pixels: Bringing Agentic Search into Visual Perception
di: Yang, Bokang, et al.
Pubblicazione: (2026)

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
di: Zhang, Zhixin, et al.
Pubblicazione: (2024)

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
di: Li, Xinhao, et al.
Pubblicazione: (2025)

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
di: Fan, Kaixuan, et al.
Pubblicazione: (2025)

Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think
di: Yu, Sihyun, et al.
Pubblicazione: (2024)

What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?
di: Ni, Jinhong, et al.
Pubblicazione: (2025)

Boosting Adversarial Training via Fisher-Rao Norm-based Regularization
di: Yin, Xiangyu, et al.
Pubblicazione: (2024)

Multimodal Long Video Modeling Based on Temporal Dynamic Context
di: Hao, Haoran, et al.
Pubblicazione: (2025)

TurboTalk: Progressive Distillation for One-Step Audio-Driven Talking Avatar Generation
di: Liu, Xiangyu, et al.
Pubblicazione: (2026)

Institutional Design, Outside Director Effectiveness, and Stock Price Crash Risk: Evidence from Japan's 2015 Hybrid Board Reform*
di: Baiqiao Yin
Pubblicazione: (2026)

Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
di: Li, Chengqi, et al.
Pubblicazione: (2025)

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
di: Chen, Jiacheng, et al.
Pubblicazione: (2025)

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
di: Brown, Ellis, et al.
Pubblicazione: (2025)

Self-Supervised Visual Preference Alignment
di: Zhu, Ke, et al.
Pubblicazione: (2024)

RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models
di: Hao, Haoran, et al.
Pubblicazione: (2024)

Falcon: Fractional Alternating Cut with Overcoming Minima in Unsupervised Segmentation
di: Zhang, Xiao, et al.
Pubblicazione: (2025)

Multimodal Latent Reasoning via Hierarchical Visual Cues Injection
di: Zhang, Yiming, et al.
Pubblicazione: (2026)

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment
di: Yan, Ziang, et al.
Pubblicazione: (2024)

WildCap: Facial Albedo Capture in the Wild via Hybrid Inverse Rendering
di: Han, Yuxuan, et al.
Pubblicazione: (2025)

Small Object Tracking in LiDAR Point Cloud: Learning the Target-awareness Prototype and Fine-grained Search Region
di: Tian, Shengjing, et al.
Pubblicazione: (2024)

Renormalization Group Guided Tensor Network Structure Search
di: Wang, Maolin, et al.
Pubblicazione: (2025)

WildOS: Open-Vocabulary Object Search in the Wild
di: Shah, Hardik, et al.
Pubblicazione: (2026)

360 in the Wild: Dataset for Depth Prediction and View Synthesis
di: Park, Kibaek, et al.
Pubblicazione: (2024)

SkyLink: A Large Vision-Language Model Driven Re-ranking Framework for Cross-View UAV geolocalization
di: Liu, Bowen, et al.
Pubblicazione: (2026)

Controllable Shape Modeling with Neural Generalized Cylinder
di: Zhu, Xiangyu, et al.
Pubblicazione: (2024)

MVBoost: Boost 3D Reconstruction with Multi-View Refinement
di: Liu, Xiangyu, et al.
Pubblicazione: (2024)

CUBE360: Learning Cubic Field Representation for Monocular 360 Depth Estimation for Virtual Reality
di: Chang, Wenjie, et al.
Pubblicazione: (2024)

Structure Over Scale: Learning Visual Reasoning from Pedagogical Video
di: Galoaa, Bishoy, et al.
Pubblicazione: (2026)

Spike-NVPT: Learning Robust Visual Prompts via Bio-Inspired Temporal Filtering and Discretization
di: Zhan, Qiugang, et al.
Pubblicazione: (2026)

Duoduo CLIP: Efficient 3D Understanding with Multi-View Images
di: Lee, Han-Hung, et al.
Pubblicazione: (2024)

VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation
di: Yin, Shaofeng, et al.
Pubblicazione: (2025)

Depth Anything in $360^\circ$: Towards Scale Invariance in the Wild
di: Jiang, Hualie, et al.
Pubblicazione: (2025)

Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework
di: Han, Xiao, et al.
Pubblicazione: (2024)

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration
di: Ding, Pengxiang, et al.
Pubblicazione: (2025)