Enregistré dans:
| Auteurs principaux: | Shen, Yudong, Wu, Wenyu, Mao, Jiali, Tong, Yixiao, Liu, Guoping, Wang, Chaoya |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2509.11731 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Mitigating Visual Context Degradation in Large Multimodal Models: A Training-Free Decoupled Agentic Framework
par: Jia, Hongrui, et autres
Publié: (2025)
par: Jia, Hongrui, et autres
Publié: (2025)
What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
par: Fan, Yingqi, et autres
Publié: (2026)
par: Fan, Yingqi, et autres
Publié: (2026)
Mapping the Vanishing and Transformation of Urban Villages in China
par: Zhang, Wenyu, et autres
Publié: (2025)
par: Zhang, Wenyu, et autres
Publié: (2025)
RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs
par: Li, Hongliang, et autres
Publié: (2025)
par: Li, Hongliang, et autres
Publié: (2025)
Bridging the Gap: Fusing CNNs and Transformers to Decode the Elegance of Handwritten Arabic Script
par: Boufenar, Chaouki, et autres
Publié: (2025)
par: Boufenar, Chaouki, et autres
Publié: (2025)
Bridging the Gap Between End-to-End and Two-Step Text Spotting
par: Huang, Mingxin, et autres
Publié: (2024)
par: Huang, Mingxin, et autres
Publié: (2024)
Image Intrinsic Scale Assessment: Bridging the Gap Between Quality and Resolution
par: Hosu, Vlad, et autres
Publié: (2025)
par: Hosu, Vlad, et autres
Publié: (2025)
Bridging Supervision Gaps: A Unified Framework for Remote Sensing Change Detection
par: Jiang, Kaixuan, et autres
Publié: (2026)
par: Jiang, Kaixuan, et autres
Publié: (2026)
Multi-Modal LLM based Image Captioning in ICT: Bridging the Gap Between General and Industry Domain
par: Chao, Lianying, et autres
Publié: (2026)
par: Chao, Lianying, et autres
Publié: (2026)
Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD
par: Wu, Qinxin, et autres
Publié: (2026)
par: Wu, Qinxin, et autres
Publié: (2026)
TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder
par: Meng, Qinghao, et autres
Publié: (2025)
par: Meng, Qinghao, et autres
Publié: (2025)
A Dual-Branch Local-Global Framework for Cross-Resolution Land Cover Mapping
par: Gao, Peng, et autres
Publié: (2025)
par: Gao, Peng, et autres
Publié: (2025)
VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs
par: Liu, Peng, et autres
Publié: (2025)
par: Liu, Peng, et autres
Publié: (2025)
Fast and Controllable Post-training Sparsity: Learning Optimal Sparsity Allocation with Global Constraint in Minutes
par: Gong, Ruihao, et autres
Publié: (2024)
par: Gong, Ruihao, et autres
Publié: (2024)
ViM-Disparity: Bridging the Gap of Speed, Accuracy and Memory for Disparity Map Generation
par: Bora, Maheswar, et autres
Publié: (2024)
par: Bora, Maheswar, et autres
Publié: (2024)
Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation
par: Guo, Xiaoqing, et autres
Publié: (2025)
par: Guo, Xiaoqing, et autres
Publié: (2025)
BridgeTA: Bridging the Representation Gap in Knowledge Distillation via Teacher Assistant for Bird's Eye View Map Segmentation
par: Kim, Beomjun, et autres
Publié: (2025)
par: Kim, Beomjun, et autres
Publié: (2025)
CSMapping: Scalable Crowdsourced Semantic Mapping and Topology Inference for Autonomous Driving
par: Qiao, Zhijian, et autres
Publié: (2025)
par: Qiao, Zhijian, et autres
Publié: (2025)
Bridge the Gap between SNN and ANN for Image Restoration
par: Su, Xin, et autres
Publié: (2025)
par: Su, Xin, et autres
Publié: (2025)
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization
par: Jia, Hongrui, et autres
Publié: (2024)
par: Jia, Hongrui, et autres
Publié: (2024)
LGmap: Local-to-Global Mapping Network for Online Long-Range Vectorized HD Map Construction
par: Wu, Kuang, et autres
Publié: (2024)
par: Wu, Kuang, et autres
Publié: (2024)
VLMs-in-the-Wild: Bridging the Gap Between Academic Benchmarks and Enterprise Reality
par: Bandraupalli, Srihari, et autres
Publié: (2025)
par: Bandraupalli, Srihari, et autres
Publié: (2025)
Bridging the Gap Between Saliency Prediction and Image Quality Assessment
par: Alexey, Kirillov, et autres
Publié: (2024)
par: Alexey, Kirillov, et autres
Publié: (2024)
Dual-Latent Collaborative Decoding for Fidelity-Perception Balanced Image Compression
par: Mao, Qi, et autres
Publié: (2026)
par: Mao, Qi, et autres
Publié: (2026)
Bridging the RGB-IR Gap: Consensus and Discrepancy Modeling for Text-Guided Multispectral Detection
par: Wu, Jiaqi, et autres
Publié: (2026)
par: Wu, Jiaqi, et autres
Publié: (2026)
YOLO-World: Real-Time Open-Vocabulary Object Detection
par: Cheng, Tianheng, et autres
Publié: (2024)
par: Cheng, Tianheng, et autres
Publié: (2024)
SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference
par: Khaki, Samir, et autres
Publié: (2025)
par: Khaki, Samir, et autres
Publié: (2025)
From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models
par: Jia, Hongrui, et autres
Publié: (2026)
par: Jia, Hongrui, et autres
Publié: (2026)
Bridging the Semantic-Action Gap in Visual Token Pruning for Efficient VLA Inference
par: Liu, Ziyan, et autres
Publié: (2025)
par: Liu, Ziyan, et autres
Publié: (2025)
Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation
par: Jin, Kaiming, et autres
Publié: (2026)
par: Jin, Kaiming, et autres
Publié: (2026)
MapTRv2: An End-to-End Framework for Online Vectorized HD Map Construction
par: Liao, Bencheng, et autres
Publié: (2023)
par: Liao, Bencheng, et autres
Publié: (2023)
RadSimReal: Bridging the Gap Between Synthetic and Real Data in Radar Object Detection With Simulation
par: Bialer, Oded, et autres
Publié: (2024)
par: Bialer, Oded, et autres
Publié: (2024)
Multi-clue Consistency Learning to Bridge Gaps Between General and Oriented Object in Semi-supervised Detection
par: Wang, Chenxu, et autres
Publié: (2024)
par: Wang, Chenxu, et autres
Publié: (2024)
Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns
par: Rekanar, Kaavya, et autres
Publié: (2024)
par: Rekanar, Kaavya, et autres
Publié: (2024)
Rethinking Model Redundancy for Low-light Image Enhancement
par: Li, Tong, et autres
Publié: (2024)
par: Li, Tong, et autres
Publié: (2024)
Empowering Bridge Digital Twins by Bridging the Data Gap with a Unified Synthesis Framework
par: Wang, Wang, et autres
Publié: (2025)
par: Wang, Wang, et autres
Publié: (2025)
FreeInit: Bridging Initialization Gap in Video Diffusion Models
par: Wu, Tianxing, et autres
Publié: (2023)
par: Wu, Tianxing, et autres
Publié: (2023)
Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior
par: Wu, Haitao, et autres
Publié: (2025)
par: Wu, Haitao, et autres
Publié: (2025)
Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding
par: Liu, Keliang, et autres
Publié: (2025)
par: Liu, Keliang, et autres
Publié: (2025)
Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment
par: Liu, Henglin, et autres
Publié: (2025)
par: Liu, Henglin, et autres
Publié: (2025)
Documents similaires
-
Mitigating Visual Context Degradation in Large Multimodal Models: A Training-Free Decoupled Agentic Framework
par: Jia, Hongrui, et autres
Publié: (2025) -
What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
par: Fan, Yingqi, et autres
Publié: (2026) -
Mapping the Vanishing and Transformation of Urban Villages in China
par: Zhang, Wenyu, et autres
Publié: (2025) -
RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs
par: Li, Hongliang, et autres
Publié: (2025) -
Bridging the Gap: Fusing CNNs and Transformers to Decode the Elegance of Handwritten Arabic Script
par: Boufenar, Chaouki, et autres
Publié: (2025)