:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Wang, Fei, Shen, Li, Ding, Liang, Xue, Chao, Liu, Ye, Ding, Changxing
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition Machine Learning
Online Access:	https://arxiv.org/abs/2510.15304
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Universally Empowering Zeroth-Order Optimization via Adaptive Layer-wise Sampling
by: Wang, Fei, et al.
Published: (2026)

Effortless Active Labeling for Long-Term Test-Time Adaptation
by: Wang, Guowei, et al.
Published: (2025)

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models
by: Li, Xu, et al.
Published: (2024)

LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging
by: Kim, Jinuk, et al.
Published: (2024)

Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models
by: Wang, Fei, et al.
Published: (2024)

SGLP: A Similarity Guided Fast Layer Partition Pruning for Compressing Large Deep Models
by: Li, Yuqi, et al.
Published: (2024)

Till the Layers Collapse: Compressing a Deep Neural Network through the Lenses of Batch Normalization Layers
by: Liao, Zhu, et al.
Published: (2024)

One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression
by: Miwa, Keita, et al.
Published: (2025)

FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning
by: Xia, Guoyang, et al.
Published: (2025)

TroL: Traversal of Layers for Large Language and Vision Models
by: Lee, Byung-Kwan, et al.
Published: (2024)

Reducing Bias and Variance: Generative Semantic Guidance and Bi-Layer Ensemble for Image Clustering
by: Li, Feijiang, et al.
Published: (2026)

Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models
by: Tang, Kai, et al.
Published: (2025)

Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models
by: Wang, Enguang, et al.
Published: (2026)

LayerSync: Self-aligning Intermediate Layers
by: Haghighi, Yasaman, et al.
Published: (2025)

AgentCompress: Task-Aware Compression for Affordable Large Language Model Agents
by: Taha, Zuhair Ahmed Khan, et al.
Published: (2026)

DarkLLM: Learning Language-Driven Adversarial Attacks with Large Language Models
by: Sun, Ye, et al.
Published: (2026)

LARV: Data-Free Layer-wise Adaptive Rescaling Veneer for Model Merging
by: Wang, Xinyu, et al.
Published: (2026)

HalluRNN: Mitigating Hallucinations via Recurrent Cross-Layer Reasoning in Large Vision-Language Models
by: Yu, Le, et al.
Published: (2025)

Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks
by: Ding, Yuhe, et al.
Published: (2024)

Do Language Models Understand Time?
by: Ding, Xi, et al.
Published: (2024)

DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models
by: Tao, Keda, et al.
Published: (2024)

EvoComp: Learning Visual Token Compression for Multimodal Large Language Models via Semantic-Guided Evolutionary Labeling
by: Song, Jiafei, et al.
Published: (2026)

Integrating Intermediate Layer Optimization and Projected Gradient Descent for Solving Inverse Problems with Diffusion Models
by: Zheng, Yang, et al.
Published: (2025)

Differentiable Gaussianization Layers for Inverse Problems Regularized by Deep Generative Models
by: Li, Dongzhuo
Published: (2021)

Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models
by: Wu, Junfei, et al.
Published: (2024)

Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers
by: You, Haoran, et al.
Published: (2024)

Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger
by: Yang, Qi, et al.
Published: (2025)

Inference Attacks Against Face Recognition Model without Classification Layers
by: Huang, Yuanqing, et al.
Published: (2024)

Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration
by: He, Jinghan, et al.
Published: (2026)

Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models
by: Ahrens, Kyra, et al.
Published: (2023)

Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint
by: Lee, Heekyung, et al.
Published: (2025)

What's on Your Plate? Inferring Chinese Cuisine Intake from Wearable IMUs
by: Yin, Jiaxi, et al.
Published: (2025)

PuzzleGPT: Emulating Human Puzzle-Solving Ability for Time and Location Prediction
by: Ayyubi, Hammad, et al.
Published: (2025)

Window Token Concatenation for Efficient Visual Large Language Models
by: Li, Yifan, et al.
Published: (2025)

TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models
by: Ding, Zheng, et al.
Published: (2025)

BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning
by: Li, Lan, et al.
Published: (2025)

SimAvatar: Simulation-Ready Avatars with Layered Hair and Clothing
by: Li, Xueting, et al.
Published: (2024)

Variational Bayesian Last Layers
by: Harrison, James, et al.
Published: (2024)

Visual-Guided Key-Token Regularization for Multimodal Large Language Model Unlearning
by: Cai, Chengyi, et al.
Published: (2026)

Bridging Compressed Image Latents and Multimodal Large Language Models
by: Kao, Chia-Hao, et al.
Published: (2024)