:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Gao, Yonghan, Chen, Zehong, Xu, Lijian, Chen, Jingzhi, Guan, Jingwei, Zeng, Xingyu
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2603.11846
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Multimodal Model for Computational Pathology:Representation Learning and Image Compression
von: Wu, Peihang, et al.
Veröffentlicht: (2026)

From Snapshots to Symphonies: The Evolution of Protein Prediction from Static Structures to Generative Dynamics and Multimodal Interactions
von: Chen, Jingzhi, et al.
Veröffentlicht: (2026)

Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning
von: Young, Shawn, et al.
Veröffentlicht: (2025)

Feed-Forward 3D Gaussian Splatting Compression with Long-Context Modeling
von: Liu, Zhening, et al.
Veröffentlicht: (2025)

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning
von: Chen, Zhuo, et al.
Veröffentlicht: (2026)

Efficient Multi-modal Long Context Learning for Training-free Adaptation
von: Ma, Zehong, et al.
Veröffentlicht: (2025)

LumiTex: Towards High-Fidelity PBR Texture Generation with Illumination Context
von: Bao, Jingzhi, et al.
Veröffentlicht: (2025)

VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?
von: Zhao, Hongbo, et al.
Veröffentlicht: (2025)

Token Pruning for In-Context Generation in Diffusion Transformers
von: Lin, Junqing, et al.
Veröffentlicht: (2026)

Long Context Transfer from Language to Vision
von: Zhang, Peiyuan, et al.
Veröffentlicht: (2024)

Beyond Surrogate Gradients: Fully Differentiable Token Pruning for Vision-Language Models
von: He, Landi, et al.
Veröffentlicht: (2026)

Inst4DGS: Instance-Decomposed 4D Gaussian Splatting with Multi-Video Label Permutation Learning
von: Lee, Yonghan, et al.
Veröffentlicht: (2026)

Can Vision-Language Models Handle Long-Context Code? An Empirical Study on Visual Compression
von: Zhong, Jianping, et al.
Veröffentlicht: (2026)

Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models
von: Bao, Jingzhi, et al.
Veröffentlicht: (2024)

Multi-modal Reference Learning for Fine-grained Text-to-Image Retrieval
von: Ma, Zehong, et al.
Veröffentlicht: (2025)

XrayClaw: Cooperative-Competitive Multi-Agent Alignment for Trustworthy Chest X-ray Diagnosis
von: Young, Shawn, et al.
Veröffentlicht: (2026)

Invertible Diffusion Models for Compressed Sensing
von: Chen, Bin, et al.
Veröffentlicht: (2024)

Towards Realistic Long-tailed Semi-supervised Learning in an Open World
von: He, Yuanpeng, et al.
Veröffentlicht: (2024)

VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling
von: Li, Xinhao, et al.
Veröffentlicht: (2024)

PIR: Photometric Inverse Rendering with Shading Cues Modeling and Surface Reflectance Regularization
von: Bao, Jingzhi, et al.
Veröffentlicht: (2024)

GI-GS: Global Illumination Decomposition on Gaussian Splatting for Inverse Rendering
von: Chen, Hongze, et al.
Veröffentlicht: (2024)

LoViC: Efficient Long Video Generation with Context Compression
von: Jiang, Jiaxiu, et al.
Veröffentlicht: (2025)

Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models
von: Yang, Xiaoyu, et al.
Veröffentlicht: (2023)

Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot Anomaly Localization
von: Deng, Hanqiu, et al.
Veröffentlicht: (2023)

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities
von: Zhou, Yiyun, et al.
Veröffentlicht: (2025)

Training-Free Image Editing with Visual Context Integration and Concept Alignment
von: Song, Rui, et al.
Veröffentlicht: (2026)

UniCompress: Token Compression for Unified Vision-Language Understanding and Generation
von: Wang, Ziyao, et al.
Veröffentlicht: (2026)

An Efficient Adaptive Compression Method for Human Perception and Machine Vision Tasks
von: Liu, Lei, et al.
Veröffentlicht: (2025)

Spatio-Temporal Difference Guided Motion Deblurring with the Complementary Vision Sensor
von: Meng, Yapeng, et al.
Veröffentlicht: (2026)

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
von: Liu, Fan, et al.
Veröffentlicht: (2023)

LET-US: Long Event-Text Understanding of Scenes
von: Chen, Rui, et al.
Veröffentlicht: (2025)

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning
von: Feng, Wangyu, et al.
Veröffentlicht: (2026)

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating
von: He, Landi, et al.
Veröffentlicht: (2026)

PVLM: Parsing-Aware Vision Language Model with Dynamic Contrastive Learning for Zero-Shot Deepfake Attribution
von: Zhang, Yaning, et al.
Veröffentlicht: (2025)

$R^3$: 3D Reconstruction via Relative Regression
von: Xu, Congrong, et al.
Veröffentlicht: (2026)

End-to-end Video Gaze Estimation via Capturing Head-face-eye Spatial-temporal Interaction Context
von: Guan, Yiran, et al.
Veröffentlicht: (2023)

Viewport-based Neural 360° Image Compression
von: Liao, Jingwei, et al.
Veröffentlicht: (2026)

AERR-Nav: Adaptive Exploration-Recovery-Reminiscing Strategy for Zero-Shot Object Navigation
von: Huang, Jingzhi, et al.
Veröffentlicht: (2026)

SyncTrack4D: Cross-Video Motion Alignment and Video Synchronization for Multi-Video 4D Gaussian Splatting
von: Lee, Yonghan, et al.
Veröffentlicht: (2025)

Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting
von: Zhu, Xingyu, et al.
Veröffentlicht: (2024)