Salvato in:
| Autori principali: | Song, Tianhui, Lu, Haoyu, Yang, Hao, Sui, Lin, Wu, Haoning, Zhou, Zaida, Huang, Zhiqi, Bao, Yiping, Charles, Y., Zhou, Xinyu, Wang, Limin |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2601.19228 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
di: Zhou, Runjie, et al.
Pubblicazione: (2026)
di: Zhou, Runjie, et al.
Pubblicazione: (2026)
TurboTrain: Towards Efficient and Balanced Multi-Task Learning for Multi-Agent Perception and Prediction
di: Zhou, Zewei, et al.
Pubblicazione: (2025)
di: Zhou, Zewei, et al.
Pubblicazione: (2025)
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
di: Liu, Yuanxin, et al.
Pubblicazione: (2025)
di: Liu, Yuanxin, et al.
Pubblicazione: (2025)
Randomized Iterative Solver as Iterative Refinement: A Simple Fix Towards Backward Stability
di: Xu, Ruihan, et al.
Pubblicazione: (2024)
di: Xu, Ruihan, et al.
Pubblicazione: (2024)
MixFormerV2: Efficient Fully Transformer Tracking
di: Cui, Yutao, et al.
Pubblicazione: (2023)
di: Cui, Yutao, et al.
Pubblicazione: (2023)
Toward an Integrated Cross-Urban Accident Prevention System: A Multi-Task Spatial-Temporal Learning Framework for Urban Safety Management
di: Fang, Jiayu, et al.
Pubblicazione: (2026)
di: Fang, Jiayu, et al.
Pubblicazione: (2026)
Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search
di: Li, Haochen, et al.
Pubblicazione: (2024)
di: Li, Haochen, et al.
Pubblicazione: (2024)
Towards Pixel-Level Prediction for Gaze Following: Benchmark and Approach
di: Liu, Feiyang, et al.
Pubblicazione: (2024)
di: Liu, Feiyang, et al.
Pubblicazione: (2024)
PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding
di: Wang, Nan, et al.
Pubblicazione: (2026)
di: Wang, Nan, et al.
Pubblicazione: (2026)
Explicit Compression Degradation Estimations for Low‐Sampling Single‐Pixel Imaging using Hadamard Basis
di: Haoyu Zhang, et al.
Pubblicazione: (2025)
di: Haoyu Zhang, et al.
Pubblicazione: (2025)
Towards Point Cloud Compression for Machine Perception: A Simple and Strong Baseline by Learning the Octree Depth Level Predictor
di: Liu, Lei, et al.
Pubblicazione: (2024)
di: Liu, Lei, et al.
Pubblicazione: (2024)
A Prediction-as-Perception Framework for 3D Object Detection
di: Zhang, Song, et al.
Pubblicazione: (2026)
di: Zhang, Song, et al.
Pubblicazione: (2026)
User Prompting Strategies and ChatGPT Contextual Adaptation Shape Conversational Information-Seeking Experiences
di: Xue, Haoning, et al.
Pubblicazione: (2025)
di: Xue, Haoning, et al.
Pubblicazione: (2025)
Photoacoustic Imaging in Inflammatory Orthopedic Diseases: Progress toward Precise Diagnostics and Predictive Regulation
di: Mengyi Huang, et al.
Pubblicazione: (2025)
di: Mengyi Huang, et al.
Pubblicazione: (2025)
Rethinking VLM Representation for VLA Initialization
di: Lin, Weifeng, et al.
Pubblicazione: (2026)
di: Lin, Weifeng, et al.
Pubblicazione: (2026)
CPPO: Contrastive Perception Policy Optimization for VLM Agents
di: Rezaei, Ahmad, et al.
Pubblicazione: (2026)
di: Rezaei, Ahmad, et al.
Pubblicazione: (2026)
V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction
di: Zhou, Zewei, et al.
Pubblicazione: (2024)
di: Zhou, Zewei, et al.
Pubblicazione: (2024)
PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction
di: Meng, Ziqiao, et al.
Pubblicazione: (2025)
di: Meng, Ziqiao, et al.
Pubblicazione: (2025)
PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction
di: Meng, Ziqiao, et al.
Pubblicazione: (2025)
di: Meng, Ziqiao, et al.
Pubblicazione: (2025)
ST-Mamba: Spatial-Temporal Selective State Space Model for Traffic Flow Prediction
di: Shao, Zhiqi, et al.
Pubblicazione: (2024)
di: Shao, Zhiqi, et al.
Pubblicazione: (2024)
City-VLM: Towards Multidomain Perception Scene Understanding via Multimodal Incomplete Learning
di: Sun, Penglei, et al.
Pubblicazione: (2025)
di: Sun, Penglei, et al.
Pubblicazione: (2025)
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
di: Chen, Liang, et al.
Pubblicazione: (2025)
di: Chen, Liang, et al.
Pubblicazione: (2025)
Dragging with Geometry: From Pixels to Geometry-Guided Image Editing
di: Pu, Xinyu, et al.
Pubblicazione: (2025)
di: Pu, Xinyu, et al.
Pubblicazione: (2025)
Evaluating the Effect of Retrieval Augmentation on Social Biases
di: Zhang, Tianhui, et al.
Pubblicazione: (2025)
di: Zhang, Tianhui, et al.
Pubblicazione: (2025)
STLLM-DF: A Spatial-Temporal Large Language Model with Diffusion for Enhanced Multi-Mode Traffic System Forecasting
di: Shao, Zhiqi, et al.
Pubblicazione: (2024)
di: Shao, Zhiqi, et al.
Pubblicazione: (2024)
Accelerating Image Generation with Sub-path Linear Approximation Model
di: Xu, Chen, et al.
Pubblicazione: (2024)
di: Xu, Chen, et al.
Pubblicazione: (2024)
FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution
di: Wang, Shuai, et al.
Pubblicazione: (2024)
di: Wang, Shuai, et al.
Pubblicazione: (2024)
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
di: Song, Tianhui, et al.
Pubblicazione: (2025)
di: Song, Tianhui, et al.
Pubblicazione: (2025)
Artificial Intelligence-Assisted Visualized Microspheres for Biochemical Analysis: From Encoding to Decoding.
di: Zhou, Yang, et al.
Pubblicazione: (2025)
di: Zhou, Yang, et al.
Pubblicazione: (2025)
Aperiodic intermittent containment consensus control for uncertain multi‐agent systems based on disturbance observer and input saturation
di: Beining Bao, et al.
Pubblicazione: (2025)
di: Beining Bao, et al.
Pubblicazione: (2025)
Optimizing Predictive AI in Physical Design Flows with Mini Pixel Batch Gradient Descent
di: Yang, Haoyu, et al.
Pubblicazione: (2024)
di: Yang, Haoyu, et al.
Pubblicazione: (2024)
DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models
di: Zhou, Xirui, et al.
Pubblicazione: (2025)
di: Zhou, Xirui, et al.
Pubblicazione: (2025)
Collaboration! Towards Robust Neural Methods for Routing Problems
di: Zhou, Jianan, et al.
Pubblicazione: (2024)
di: Zhou, Jianan, et al.
Pubblicazione: (2024)
Prediction-Powered Conditional Inference
di: Sui, Yang, et al.
Pubblicazione: (2026)
di: Sui, Yang, et al.
Pubblicazione: (2026)
UPOCR: Towards Unified Pixel-Level OCR Interface
di: Peng, Dezhi, et al.
Pubblicazione: (2023)
di: Peng, Dezhi, et al.
Pubblicazione: (2023)
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering
di: Shang, Xinyi, et al.
Pubblicazione: (2026)
di: Shang, Xinyi, et al.
Pubblicazione: (2026)
DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception
di: Deng, Pei, et al.
Pubblicazione: (2025)
di: Deng, Pei, et al.
Pubblicazione: (2025)
V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality
di: Xiang, Hao, et al.
Pubblicazione: (2025)
di: Xiang, Hao, et al.
Pubblicazione: (2025)
SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving
di: Zheng, Peiru, et al.
Pubblicazione: (2025)
di: Zheng, Peiru, et al.
Pubblicazione: (2025)
BMIP: Bi-directional Modality Interaction Prompt Learning for VLM
di: Lv, Song-Lin, et al.
Pubblicazione: (2025)
di: Lv, Song-Lin, et al.
Pubblicazione: (2025)
Documenti analoghi
-
WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
di: Zhou, Runjie, et al.
Pubblicazione: (2026) -
TurboTrain: Towards Efficient and Balanced Multi-Task Learning for Multi-Agent Perception and Prediction
di: Zhou, Zewei, et al.
Pubblicazione: (2025) -
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
di: Liu, Yuanxin, et al.
Pubblicazione: (2025) -
Randomized Iterative Solver as Iterative Refinement: A Simple Fix Towards Backward Stability
di: Xu, Ruihan, et al.
Pubblicazione: (2024) -
MixFormerV2: Efficient Fully Transformer Tracking
di: Cui, Yutao, et al.
Pubblicazione: (2023)