Salvato in:
| Autori principali: | Ye, Jiaojiao, Zhong, Jiaxing, Xie, Qian, Zhou, Yuzhou, Trigoni, Niki, Markham, Andrew |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2510.05722 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Manydepth2: Motion-Aware Self-Supervised Monocular Depth Estimation in Dynamic Scenes
di: Zhou, Kaichen, et al.
Pubblicazione: (2023)
di: Zhou, Kaichen, et al.
Pubblicazione: (2023)
WSCLoc: Weakly-Supervised Sparse-View Camera Relocalization
di: Wang, Jialu, et al.
Pubblicazione: (2024)
di: Wang, Jialu, et al.
Pubblicazione: (2024)
MambaLoc: Efficient Camera Localisation via State Space Model
di: Wang, Jialu, et al.
Pubblicazione: (2024)
di: Wang, Jialu, et al.
Pubblicazione: (2024)
Spherical Mask: Coarse-to-Fine 3D Point Cloud Instance Segmentation with Spherical Representation
di: Shin, Sangyun, et al.
Pubblicazione: (2023)
di: Shin, Sangyun, et al.
Pubblicazione: (2023)
SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors
di: Ma, Chenyang, et al.
Pubblicazione: (2024)
di: Ma, Chenyang, et al.
Pubblicazione: (2024)
ZeST: Zero-Shot Material Transfer from a Single Image
di: Cheng, Ta-Ying, et al.
Pubblicazione: (2024)
di: Cheng, Ta-Ying, et al.
Pubblicazione: (2024)
Dusk Till Dawn: Self-supervised Nighttime Stereo Depth Estimation using Visual Foundation Models
di: Vankadari, Madhu, et al.
Pubblicazione: (2024)
di: Vankadari, Madhu, et al.
Pubblicazione: (2024)
DynPoint: Dynamic Neural Point For View Synthesis
di: Zhou, Kaichen, et al.
Pubblicazione: (2023)
di: Zhou, Kaichen, et al.
Pubblicazione: (2023)
SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera
di: He, Yuhang, et al.
Pubblicazione: (2024)
di: He, Yuhang, et al.
Pubblicazione: (2024)
VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization
di: Zhou, Kaichen, et al.
Pubblicazione: (2020)
di: Zhou, Kaichen, et al.
Pubblicazione: (2020)
Learning Continuous 3D Words for Text-to-Image Generation
di: Cheng, Ta-Ying, et al.
Pubblicazione: (2024)
di: Cheng, Ta-Ying, et al.
Pubblicazione: (2024)
Towards Multi-Modal Animal Pose Estimation: A Survey and In-Depth Analysis
di: Deng, Qianyi, et al.
Pubblicazione: (2024)
di: Deng, Qianyi, et al.
Pubblicazione: (2024)
Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition
di: Yeh, Chun-Hsiao, et al.
Pubblicazione: (2024)
di: Yeh, Chun-Hsiao, et al.
Pubblicazione: (2024)
Graph Convolutional Long Short-Term Memory Attention Network for Post-Stroke Compensatory Movement Detection Based on Skeleton Data
di: Fan, Jiaxing, et al.
Pubblicazione: (2025)
di: Fan, Jiaxing, et al.
Pubblicazione: (2025)
LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors
di: Jin, Sheng, et al.
Pubblicazione: (2024)
di: Jin, Sheng, et al.
Pubblicazione: (2024)
Constructing Concept-based Models to Mitigate Spurious Correlations with Minimal Human Effort
di: Kim, Jeeyung, et al.
Pubblicazione: (2024)
di: Kim, Jeeyung, et al.
Pubblicazione: (2024)
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use
di: Toubal, Imad Eddine, et al.
Pubblicazione: (2024)
di: Toubal, Imad Eddine, et al.
Pubblicazione: (2024)
CountGD++: Generalized Prompting for Open-World Counting
di: Amini-Naieni, Niki, et al.
Pubblicazione: (2025)
di: Amini-Naieni, Niki, et al.
Pubblicazione: (2025)
Age-Inclusive 3D Human Mesh Recovery for Action-Preserving Data Anonymization
di: Chatzichristodoulou, Georgios, et al.
Pubblicazione: (2025)
di: Chatzichristodoulou, Georgios, et al.
Pubblicazione: (2025)
Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models
di: Markham, Georgia, et al.
Pubblicazione: (2024)
di: Markham, Georgia, et al.
Pubblicazione: (2024)
S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs
di: Ji, Yuzhou, et al.
Pubblicazione: (2026)
di: Ji, Yuzhou, et al.
Pubblicazione: (2026)
CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario
di: Duan, Zhizhao, et al.
Pubblicazione: (2024)
di: Duan, Zhizhao, et al.
Pubblicazione: (2024)
Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation
di: Qian, Haotian, et al.
Pubblicazione: (2024)
di: Qian, Haotian, et al.
Pubblicazione: (2024)
VisualActBench: Can VLMs See and Act like a Human?
di: Zhang, Daoan, et al.
Pubblicazione: (2025)
di: Zhang, Daoan, et al.
Pubblicazione: (2025)
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring
di: Xu, Mingjie, et al.
Pubblicazione: (2025)
di: Xu, Mingjie, et al.
Pubblicazione: (2025)
Should VLMs be Pre-trained with Image Data?
di: Keh, Sedrick, et al.
Pubblicazione: (2025)
di: Keh, Sedrick, et al.
Pubblicazione: (2025)
CountGD: Multi-Modal Open-World Counting
di: Amini-Naieni, Niki, et al.
Pubblicazione: (2024)
di: Amini-Naieni, Niki, et al.
Pubblicazione: (2024)
Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports
di: Yang, Yuchen, et al.
Pubblicazione: (2026)
di: Yang, Yuchen, et al.
Pubblicazione: (2026)
Open-World Object Counting in Videos
di: Amini-Naieni, Niki, et al.
Pubblicazione: (2025)
di: Amini-Naieni, Niki, et al.
Pubblicazione: (2025)
MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs
di: Dong, Sixun, et al.
Pubblicazione: (2025)
di: Dong, Sixun, et al.
Pubblicazione: (2025)
How Auxiliary Reasoning Unleashes GUI Grounding in VLMs
di: Li, Weiming, et al.
Pubblicazione: (2025)
di: Li, Weiming, et al.
Pubblicazione: (2025)
Fact-checking based fake news detection: a review
di: Yang, Yuzhou, et al.
Pubblicazione: (2024)
di: Yang, Yuzhou, et al.
Pubblicazione: (2024)
FMLGS: Fast Multilevel Language Embedded Gaussians for Part-level Interactive Agents
di: Tan, Xin, et al.
Pubblicazione: (2025)
di: Tan, Xin, et al.
Pubblicazione: (2025)
EMA: Effort Metric Attention for Anatomical Effort-Guided Human Motion Diffusion
di: Siy, Joshua, et al.
Pubblicazione: (2026)
di: Siy, Joshua, et al.
Pubblicazione: (2026)
A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning
di: Foteinopoulou, Niki Maria, et al.
Pubblicazione: (2024)
di: Foteinopoulou, Niki Maria, et al.
Pubblicazione: (2024)
SynCellFactory: Generative Data Augmentation for Cell Tracking
di: Sturm, Moritz, et al.
Pubblicazione: (2024)
di: Sturm, Moritz, et al.
Pubblicazione: (2024)
Spotlight: Identifying and Localizing Video Generation Errors Using VLMs
di: Chinchure, Aditya, et al.
Pubblicazione: (2025)
di: Chinchure, Aditya, et al.
Pubblicazione: (2025)
TIR-Flow: Active Video Search and Reasoning with Frozen VLMs
di: Jin, Hongbo, et al.
Pubblicazione: (2026)
di: Jin, Hongbo, et al.
Pubblicazione: (2026)
VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs
di: Khezresmaeilzadeh, Tina, et al.
Pubblicazione: (2026)
di: Khezresmaeilzadeh, Tina, et al.
Pubblicazione: (2026)
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
di: Xie, Shaoyuan, et al.
Pubblicazione: (2025)
di: Xie, Shaoyuan, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Manydepth2: Motion-Aware Self-Supervised Monocular Depth Estimation in Dynamic Scenes
di: Zhou, Kaichen, et al.
Pubblicazione: (2023) -
WSCLoc: Weakly-Supervised Sparse-View Camera Relocalization
di: Wang, Jialu, et al.
Pubblicazione: (2024) -
MambaLoc: Efficient Camera Localisation via State Space Model
di: Wang, Jialu, et al.
Pubblicazione: (2024) -
Spherical Mask: Coarse-to-Fine 3D Point Cloud Instance Segmentation with Spherical Representation
di: Shin, Sangyun, et al.
Pubblicazione: (2023) -
SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors
di: Ma, Chenyang, et al.
Pubblicazione: (2024)