:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Ye, Jiaojiao, Zhong, Jiaxing, Xie, Qian, Zhou, Yuzhou, Trigoni, Niki, Markham, Andrew
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2510.05722
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Manydepth2: Motion-Aware Self-Supervised Monocular Depth Estimation in Dynamic Scenes
di: Zhou, Kaichen, et al.
Pubblicazione: (2023)

WSCLoc: Weakly-Supervised Sparse-View Camera Relocalization
di: Wang, Jialu, et al.
Pubblicazione: (2024)

MambaLoc: Efficient Camera Localisation via State Space Model
di: Wang, Jialu, et al.
Pubblicazione: (2024)

Spherical Mask: Coarse-to-Fine 3D Point Cloud Instance Segmentation with Spherical Representation
di: Shin, Sangyun, et al.
Pubblicazione: (2023)

SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors
di: Ma, Chenyang, et al.
Pubblicazione: (2024)

ZeST: Zero-Shot Material Transfer from a Single Image
di: Cheng, Ta-Ying, et al.
Pubblicazione: (2024)

Dusk Till Dawn: Self-supervised Nighttime Stereo Depth Estimation using Visual Foundation Models
di: Vankadari, Madhu, et al.
Pubblicazione: (2024)

DynPoint: Dynamic Neural Point For View Synthesis
di: Zhou, Kaichen, et al.
Pubblicazione: (2023)

SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera
di: He, Yuhang, et al.
Pubblicazione: (2024)

VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization
di: Zhou, Kaichen, et al.
Pubblicazione: (2020)

Learning Continuous 3D Words for Text-to-Image Generation
di: Cheng, Ta-Ying, et al.
Pubblicazione: (2024)

Towards Multi-Modal Animal Pose Estimation: A Survey and In-Depth Analysis
di: Deng, Qianyi, et al.
Pubblicazione: (2024)

Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition
di: Yeh, Chun-Hsiao, et al.
Pubblicazione: (2024)

Graph Convolutional Long Short-Term Memory Attention Network for Post-Stroke Compensatory Movement Detection Based on Skeleton Data
di: Fan, Jiaxing, et al.
Pubblicazione: (2025)

LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors
di: Jin, Sheng, et al.
Pubblicazione: (2024)

Constructing Concept-based Models to Mitigate Spurious Correlations with Minimal Human Effort
di: Kim, Jeeyung, et al.
Pubblicazione: (2024)

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use
di: Toubal, Imad Eddine, et al.
Pubblicazione: (2024)

CountGD++: Generalized Prompting for Open-World Counting
di: Amini-Naieni, Niki, et al.
Pubblicazione: (2025)

Age-Inclusive 3D Human Mesh Recovery for Action-Preserving Data Anonymization
di: Chatzichristodoulou, Georgios, et al.
Pubblicazione: (2025)

Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models
di: Markham, Georgia, et al.
Pubblicazione: (2024)

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs
di: Ji, Yuzhou, et al.
Pubblicazione: (2026)

CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario
di: Duan, Zhizhao, et al.
Pubblicazione: (2024)

Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation
di: Qian, Haotian, et al.
Pubblicazione: (2024)

VisualActBench: Can VLMs See and Act like a Human?
di: Zhang, Daoan, et al.
Pubblicazione: (2025)

Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring
di: Xu, Mingjie, et al.
Pubblicazione: (2025)

Should VLMs be Pre-trained with Image Data?
di: Keh, Sedrick, et al.
Pubblicazione: (2025)

CountGD: Multi-Modal Open-World Counting
di: Amini-Naieni, Niki, et al.
Pubblicazione: (2024)

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports
di: Yang, Yuchen, et al.
Pubblicazione: (2026)

Open-World Object Counting in Videos
di: Amini-Naieni, Niki, et al.
Pubblicazione: (2025)

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs
di: Dong, Sixun, et al.
Pubblicazione: (2025)

How Auxiliary Reasoning Unleashes GUI Grounding in VLMs
di: Li, Weiming, et al.
Pubblicazione: (2025)

Fact-checking based fake news detection: a review
di: Yang, Yuzhou, et al.
Pubblicazione: (2024)

FMLGS: Fast Multilevel Language Embedded Gaussians for Part-level Interactive Agents
di: Tan, Xin, et al.
Pubblicazione: (2025)

EMA: Effort Metric Attention for Anatomical Effort-Guided Human Motion Diffusion
di: Siy, Joshua, et al.
Pubblicazione: (2026)

A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning
di: Foteinopoulou, Niki Maria, et al.
Pubblicazione: (2024)

SynCellFactory: Generative Data Augmentation for Cell Tracking
di: Sturm, Moritz, et al.
Pubblicazione: (2024)

Spotlight: Identifying and Localizing Video Generation Errors Using VLMs
di: Chinchure, Aditya, et al.
Pubblicazione: (2025)

TIR-Flow: Active Video Search and Reasoning with Frozen VLMs
di: Jin, Hongbo, et al.
Pubblicazione: (2026)

VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs
di: Khezresmaeilzadeh, Tina, et al.
Pubblicazione: (2026)

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
di: Xie, Shaoyuan, et al.
Pubblicazione: (2025)