:: Library Catalog

Salvato in:

Dettagli Bibliografici
Autori principali:	Song, Tianhui, Lu, Haoyu, Yang, Hao, Sui, Lin, Wu, Haoning, Zhou, Zaida, Huang, Zhiqi, Bao, Yiping, Charles, Y., Zhou, Xinyu, Wang, Limin
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2601.19228
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
di: Zhou, Runjie, et al.
Pubblicazione: (2026)

TurboTrain: Towards Efficient and Balanced Multi-Task Learning for Multi-Agent Perception and Prediction
di: Zhou, Zewei, et al.
Pubblicazione: (2025)

VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
di: Liu, Yuanxin, et al.
Pubblicazione: (2025)

Randomized Iterative Solver as Iterative Refinement: A Simple Fix Towards Backward Stability
di: Xu, Ruihan, et al.
Pubblicazione: (2024)

MixFormerV2: Efficient Fully Transformer Tracking
di: Cui, Yutao, et al.
Pubblicazione: (2023)

Toward an Integrated Cross-Urban Accident Prevention System: A Multi-Task Spatial-Temporal Learning Framework for Urban Safety Management
di: Fang, Jiayu, et al.
Pubblicazione: (2026)

Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search
di: Li, Haochen, et al.
Pubblicazione: (2024)

Towards Pixel-Level Prediction for Gaze Following: Benchmark and Approach
di: Liu, Feiyang, et al.
Pubblicazione: (2024)

PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding
di: Wang, Nan, et al.
Pubblicazione: (2026)

Explicit Compression Degradation Estimations for Low‐Sampling Single‐Pixel Imaging using Hadamard Basis
di: Haoyu Zhang, et al.
Pubblicazione: (2025)

Towards Point Cloud Compression for Machine Perception: A Simple and Strong Baseline by Learning the Octree Depth Level Predictor
di: Liu, Lei, et al.
Pubblicazione: (2024)

A Prediction-as-Perception Framework for 3D Object Detection
di: Zhang, Song, et al.
Pubblicazione: (2026)

User Prompting Strategies and ChatGPT Contextual Adaptation Shape Conversational Information-Seeking Experiences
di: Xue, Haoning, et al.
Pubblicazione: (2025)

Photoacoustic Imaging in Inflammatory Orthopedic Diseases: Progress toward Precise Diagnostics and Predictive Regulation
di: Mengyi Huang, et al.
Pubblicazione: (2025)

Rethinking VLM Representation for VLA Initialization
di: Lin, Weifeng, et al.
Pubblicazione: (2026)

CPPO: Contrastive Perception Policy Optimization for VLM Agents
di: Rezaei, Ahmad, et al.
Pubblicazione: (2026)

V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction
di: Zhou, Zewei, et al.
Pubblicazione: (2024)

PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction
di: Meng, Ziqiao, et al.
Pubblicazione: (2025)

PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction
di: Meng, Ziqiao, et al.
Pubblicazione: (2025)

ST-Mamba: Spatial-Temporal Selective State Space Model for Traffic Flow Prediction
di: Shao, Zhiqi, et al.
Pubblicazione: (2024)

City-VLM: Towards Multidomain Perception Scene Understanding via Multimodal Incomplete Learning
di: Sun, Penglei, et al.
Pubblicazione: (2025)

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
di: Chen, Liang, et al.
Pubblicazione: (2025)

Dragging with Geometry: From Pixels to Geometry-Guided Image Editing
di: Pu, Xinyu, et al.
Pubblicazione: (2025)

Evaluating the Effect of Retrieval Augmentation on Social Biases
di: Zhang, Tianhui, et al.
Pubblicazione: (2025)

STLLM-DF: A Spatial-Temporal Large Language Model with Diffusion for Enhanced Multi-Mode Traffic System Forecasting
di: Shao, Zhiqi, et al.
Pubblicazione: (2024)

Accelerating Image Generation with Sub-path Linear Approximation Model
di: Xu, Chen, et al.
Pubblicazione: (2024)

FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution
di: Wang, Shuai, et al.
Pubblicazione: (2024)

DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
di: Song, Tianhui, et al.
Pubblicazione: (2025)

Artificial Intelligence-Assisted Visualized Microspheres for Biochemical Analysis: From Encoding to Decoding.
di: Zhou, Yang, et al.
Pubblicazione: (2025)

Aperiodic intermittent containment consensus control for uncertain multi‐agent systems based on disturbance observer and input saturation
di: Beining Bao, et al.
Pubblicazione: (2025)

Optimizing Predictive AI in Physical Design Flows with Mini Pixel Batch Gradient Descent
di: Yang, Haoyu, et al.
Pubblicazione: (2024)

DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models
di: Zhou, Xirui, et al.
Pubblicazione: (2025)

Collaboration! Towards Robust Neural Methods for Routing Problems
di: Zhou, Jianan, et al.
Pubblicazione: (2024)

Prediction-Powered Conditional Inference
di: Sui, Yang, et al.
Pubblicazione: (2026)

UPOCR: Towards Unified Pixel-Level OCR Interface
di: Peng, Dezhi, et al.
Pubblicazione: (2023)

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering
di: Shang, Xinyi, et al.
Pubblicazione: (2026)

DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception
di: Deng, Pei, et al.
Pubblicazione: (2025)

V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality
di: Xiang, Hao, et al.
Pubblicazione: (2025)

SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving
di: Zheng, Peiru, et al.
Pubblicazione: (2025)

BMIP: Bi-directional Modality Interaction Prompt Learning for VLM
di: Lv, Song-Lin, et al.
Pubblicazione: (2025)