Gespeichert in:
| Hauptverfasser: | Gao, Yonghan, Chen, Zehong, Xu, Lijian, Chen, Jingzhi, Guan, Jingwei, Zeng, Xingyu |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2603.11846 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Multimodal Model for Computational Pathology:Representation Learning and Image Compression
von: Wu, Peihang, et al.
Veröffentlicht: (2026)
von: Wu, Peihang, et al.
Veröffentlicht: (2026)
From Snapshots to Symphonies: The Evolution of Protein Prediction from Static Structures to Generative Dynamics and Multimodal Interactions
von: Chen, Jingzhi, et al.
Veröffentlicht: (2026)
von: Chen, Jingzhi, et al.
Veröffentlicht: (2026)
Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning
von: Young, Shawn, et al.
Veröffentlicht: (2025)
von: Young, Shawn, et al.
Veröffentlicht: (2025)
Feed-Forward 3D Gaussian Splatting Compression with Long-Context Modeling
von: Liu, Zhening, et al.
Veröffentlicht: (2025)
von: Liu, Zhening, et al.
Veröffentlicht: (2025)
TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning
von: Chen, Zhuo, et al.
Veröffentlicht: (2026)
von: Chen, Zhuo, et al.
Veröffentlicht: (2026)
Efficient Multi-modal Long Context Learning for Training-free Adaptation
von: Ma, Zehong, et al.
Veröffentlicht: (2025)
von: Ma, Zehong, et al.
Veröffentlicht: (2025)
LumiTex: Towards High-Fidelity PBR Texture Generation with Illumination Context
von: Bao, Jingzhi, et al.
Veröffentlicht: (2025)
von: Bao, Jingzhi, et al.
Veröffentlicht: (2025)
VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?
von: Zhao, Hongbo, et al.
Veröffentlicht: (2025)
von: Zhao, Hongbo, et al.
Veröffentlicht: (2025)
Token Pruning for In-Context Generation in Diffusion Transformers
von: Lin, Junqing, et al.
Veröffentlicht: (2026)
von: Lin, Junqing, et al.
Veröffentlicht: (2026)
Long Context Transfer from Language to Vision
von: Zhang, Peiyuan, et al.
Veröffentlicht: (2024)
von: Zhang, Peiyuan, et al.
Veröffentlicht: (2024)
Beyond Surrogate Gradients: Fully Differentiable Token Pruning for Vision-Language Models
von: He, Landi, et al.
Veröffentlicht: (2026)
von: He, Landi, et al.
Veröffentlicht: (2026)
Inst4DGS: Instance-Decomposed 4D Gaussian Splatting with Multi-Video Label Permutation Learning
von: Lee, Yonghan, et al.
Veröffentlicht: (2026)
von: Lee, Yonghan, et al.
Veröffentlicht: (2026)
Can Vision-Language Models Handle Long-Context Code? An Empirical Study on Visual Compression
von: Zhong, Jianping, et al.
Veröffentlicht: (2026)
von: Zhong, Jianping, et al.
Veröffentlicht: (2026)
Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models
von: Bao, Jingzhi, et al.
Veröffentlicht: (2024)
von: Bao, Jingzhi, et al.
Veröffentlicht: (2024)
Multi-modal Reference Learning for Fine-grained Text-to-Image Retrieval
von: Ma, Zehong, et al.
Veröffentlicht: (2025)
von: Ma, Zehong, et al.
Veröffentlicht: (2025)
XrayClaw: Cooperative-Competitive Multi-Agent Alignment for Trustworthy Chest X-ray Diagnosis
von: Young, Shawn, et al.
Veröffentlicht: (2026)
von: Young, Shawn, et al.
Veröffentlicht: (2026)
Invertible Diffusion Models for Compressed Sensing
von: Chen, Bin, et al.
Veröffentlicht: (2024)
von: Chen, Bin, et al.
Veröffentlicht: (2024)
Towards Realistic Long-tailed Semi-supervised Learning in an Open World
von: He, Yuanpeng, et al.
Veröffentlicht: (2024)
von: He, Yuanpeng, et al.
Veröffentlicht: (2024)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling
von: Li, Xinhao, et al.
Veröffentlicht: (2024)
von: Li, Xinhao, et al.
Veröffentlicht: (2024)
PIR: Photometric Inverse Rendering with Shading Cues Modeling and Surface Reflectance Regularization
von: Bao, Jingzhi, et al.
Veröffentlicht: (2024)
von: Bao, Jingzhi, et al.
Veröffentlicht: (2024)
GI-GS: Global Illumination Decomposition on Gaussian Splatting for Inverse Rendering
von: Chen, Hongze, et al.
Veröffentlicht: (2024)
von: Chen, Hongze, et al.
Veröffentlicht: (2024)
LoViC: Efficient Long Video Generation with Context Compression
von: Jiang, Jiaxiu, et al.
Veröffentlicht: (2025)
von: Jiang, Jiaxiu, et al.
Veröffentlicht: (2025)
Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models
von: Yang, Xiaoyu, et al.
Veröffentlicht: (2023)
von: Yang, Xiaoyu, et al.
Veröffentlicht: (2023)
Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot Anomaly Localization
von: Deng, Hanqiu, et al.
Veröffentlicht: (2023)
von: Deng, Hanqiu, et al.
Veröffentlicht: (2023)
Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities
von: Zhou, Yiyun, et al.
Veröffentlicht: (2025)
von: Zhou, Yiyun, et al.
Veröffentlicht: (2025)
Training-Free Image Editing with Visual Context Integration and Concept Alignment
von: Song, Rui, et al.
Veröffentlicht: (2026)
von: Song, Rui, et al.
Veröffentlicht: (2026)
UniCompress: Token Compression for Unified Vision-Language Understanding and Generation
von: Wang, Ziyao, et al.
Veröffentlicht: (2026)
von: Wang, Ziyao, et al.
Veröffentlicht: (2026)
An Efficient Adaptive Compression Method for Human Perception and Machine Vision Tasks
von: Liu, Lei, et al.
Veröffentlicht: (2025)
von: Liu, Lei, et al.
Veröffentlicht: (2025)
Spatio-Temporal Difference Guided Motion Deblurring with the Complementary Vision Sensor
von: Meng, Yapeng, et al.
Veröffentlicht: (2026)
von: Meng, Yapeng, et al.
Veröffentlicht: (2026)
RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
von: Liu, Fan, et al.
Veröffentlicht: (2023)
von: Liu, Fan, et al.
Veröffentlicht: (2023)
LET-US: Long Event-Text Understanding of Scenes
von: Chen, Rui, et al.
Veröffentlicht: (2025)
von: Chen, Rui, et al.
Veröffentlicht: (2025)
Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning
von: Feng, Wangyu, et al.
Veröffentlicht: (2026)
von: Feng, Wangyu, et al.
Veröffentlicht: (2026)
The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating
von: He, Landi, et al.
Veröffentlicht: (2026)
von: He, Landi, et al.
Veröffentlicht: (2026)
PVLM: Parsing-Aware Vision Language Model with Dynamic Contrastive Learning for Zero-Shot Deepfake Attribution
von: Zhang, Yaning, et al.
Veröffentlicht: (2025)
von: Zhang, Yaning, et al.
Veröffentlicht: (2025)
$R^3$: 3D Reconstruction via Relative Regression
von: Xu, Congrong, et al.
Veröffentlicht: (2026)
von: Xu, Congrong, et al.
Veröffentlicht: (2026)
End-to-end Video Gaze Estimation via Capturing Head-face-eye Spatial-temporal Interaction Context
von: Guan, Yiran, et al.
Veröffentlicht: (2023)
von: Guan, Yiran, et al.
Veröffentlicht: (2023)
Viewport-based Neural 360° Image Compression
von: Liao, Jingwei, et al.
Veröffentlicht: (2026)
von: Liao, Jingwei, et al.
Veröffentlicht: (2026)
AERR-Nav: Adaptive Exploration-Recovery-Reminiscing Strategy for Zero-Shot Object Navigation
von: Huang, Jingzhi, et al.
Veröffentlicht: (2026)
von: Huang, Jingzhi, et al.
Veröffentlicht: (2026)
SyncTrack4D: Cross-Video Motion Alignment and Video Synchronization for Multi-Video 4D Gaussian Splatting
von: Lee, Yonghan, et al.
Veröffentlicht: (2025)
von: Lee, Yonghan, et al.
Veröffentlicht: (2025)
Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting
von: Zhu, Xingyu, et al.
Veröffentlicht: (2024)
von: Zhu, Xingyu, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Multimodal Model for Computational Pathology:Representation Learning and Image Compression
von: Wu, Peihang, et al.
Veröffentlicht: (2026) -
From Snapshots to Symphonies: The Evolution of Protein Prediction from Static Structures to Generative Dynamics and Multimodal Interactions
von: Chen, Jingzhi, et al.
Veröffentlicht: (2026) -
Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning
von: Young, Shawn, et al.
Veröffentlicht: (2025) -
Feed-Forward 3D Gaussian Splatting Compression with Long-Context Modeling
von: Liu, Zhening, et al.
Veröffentlicht: (2025) -
TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning
von: Chen, Zhuo, et al.
Veröffentlicht: (2026)