Salvato in:
| Autori principali: | Choi, Euntae, Song, Sumin, Yoo, Sungjoo |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2605.08755 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer
di: Choi, Euntae, et al.
Pubblicazione: (2025)
di: Choi, Euntae, et al.
Pubblicazione: (2025)
Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free
di: Choi, Euntae, et al.
Pubblicazione: (2025)
di: Choi, Euntae, et al.
Pubblicazione: (2025)
NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache
di: Son, Donghyun, et al.
Pubblicazione: (2025)
di: Son, Donghyun, et al.
Pubblicazione: (2025)
Phys3DGS: Physically-based 3D Gaussian Splatting for Inverse Rendering
di: Choi, Euntae, et al.
Pubblicazione: (2024)
di: Choi, Euntae, et al.
Pubblicazione: (2024)
Gaussian Weight Sampling for Scalable, Efficient and Stable Pseudo-Quantization Training
di: Ahn, Myeonghwan, et al.
Pubblicazione: (2025)
di: Ahn, Myeonghwan, et al.
Pubblicazione: (2025)
Baking Relightable NeRF for Real-time Direct/Indirect Illumination Rendering
di: Choi, Euntae, et al.
Pubblicazione: (2024)
di: Choi, Euntae, et al.
Pubblicazione: (2024)
Layer-wise Quantization for Quantized Optimistic Dual Averaging
di: Nguyen, Anh Duc, et al.
Pubblicazione: (2025)
di: Nguyen, Anh Duc, et al.
Pubblicazione: (2025)
MetaMix: Meta-state Precision Searcher for Mixed-precision Activation Quantization
di: Kim, Han-Byul, et al.
Pubblicazione: (2023)
di: Kim, Han-Byul, et al.
Pubblicazione: (2023)
LoaQ: Layer-wise Output Approximation Quantization
di: Lin, Li, et al.
Pubblicazione: (2025)
di: Lin, Li, et al.
Pubblicazione: (2025)
On the Effect of Uncertainty on Layer-wise Inference Dynamics
di: Kim, Sunwoo, et al.
Pubblicazione: (2025)
di: Kim, Sunwoo, et al.
Pubblicazione: (2025)
Scaling Speculative Decoding with Lookahead Reasoning
di: Fu, Yichao, et al.
Pubblicazione: (2025)
di: Fu, Yichao, et al.
Pubblicazione: (2025)
Causal Attention with Lookahead Keys
di: Song, Zhuoqing, et al.
Pubblicazione: (2025)
di: Song, Zhuoqing, et al.
Pubblicazione: (2025)
Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models
di: Xiao, He, et al.
Pubblicazione: (2025)
di: Xiao, He, et al.
Pubblicazione: (2025)
R2 Loss: Range Restriction Loss for Model Compression and Quantization
di: Kundu, Arnav, et al.
Pubblicazione: (2023)
di: Kundu, Arnav, et al.
Pubblicazione: (2023)
Lookahead Drifting Model
di: Zhang, Guoqiang, et al.
Pubblicazione: (2026)
di: Zhang, Guoqiang, et al.
Pubblicazione: (2026)
A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection
di: Yun, Sanggeon, et al.
Pubblicazione: (2025)
di: Yun, Sanggeon, et al.
Pubblicazione: (2025)
Activation by Interval-wise Dropout: A Simple Way to Prevent Neural Networks from Plasticity Loss
di: Park, Sangyeon, et al.
Pubblicazione: (2025)
di: Park, Sangyeon, et al.
Pubblicazione: (2025)
GuidedQuant: Large Language Model Quantization via Exploiting End Loss Guidance
di: Kim, Jinuk, et al.
Pubblicazione: (2025)
di: Kim, Jinuk, et al.
Pubblicazione: (2025)
Next-Depth Lookahead Tree
di: Lee, Jaeho, et al.
Pubblicazione: (2025)
di: Lee, Jaeho, et al.
Pubblicazione: (2025)
Reinforcement Learning with Lookahead Information
di: Merlis, Nadav
Pubblicazione: (2024)
di: Merlis, Nadav
Pubblicazione: (2024)
Generalization and Optimization of SGD with Lookahead
di: Li, Kangcheng, et al.
Pubblicazione: (2025)
di: Li, Kangcheng, et al.
Pubblicazione: (2025)
Iterative Layer-wise Distillation for Efficient Compression of Large Language Models
di: Kovalev, Grigory, et al.
Pubblicazione: (2025)
di: Kovalev, Grigory, et al.
Pubblicazione: (2025)
Lookahead Counterfactual Fairness
di: Zuo, Zhiqun, et al.
Pubblicazione: (2024)
di: Zuo, Zhiqun, et al.
Pubblicazione: (2024)
MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration
di: Wang, Jinguang, et al.
Pubblicazione: (2025)
di: Wang, Jinguang, et al.
Pubblicazione: (2025)
Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis
di: Fartale, Harshwardhan, et al.
Pubblicazione: (2025)
di: Fartale, Harshwardhan, et al.
Pubblicazione: (2025)
Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective
di: Huang, Weizhong, et al.
Pubblicazione: (2025)
di: Huang, Weizhong, et al.
Pubblicazione: (2025)
QTALE: Quantization-Robust Token-Adaptive Layer Execution for LLMs
di: Noh, Kanghyun, et al.
Pubblicazione: (2026)
di: Noh, Kanghyun, et al.
Pubblicazione: (2026)
Low-Complexity Semantic Packet Aggregation for Token Communication via Lookahead Search
di: Lee, Seunghun, et al.
Pubblicazione: (2025)
di: Lee, Seunghun, et al.
Pubblicazione: (2025)
The Impact of Quantization on Large Reasoning Model Reinforcement Learning
di: Kumar, Medha, et al.
Pubblicazione: (2025)
di: Kumar, Medha, et al.
Pubblicazione: (2025)
Scalable Model Merging with Progressive Layer-wise Distillation
di: Xu, Jing, et al.
Pubblicazione: (2025)
di: Xu, Jing, et al.
Pubblicazione: (2025)
The Value of Reward Lookahead in Reinforcement Learning
di: Merlis, Nadav, et al.
Pubblicazione: (2024)
di: Merlis, Nadav, et al.
Pubblicazione: (2024)
Policy Mirror Descent with Lookahead
di: Protopapas, Kimon, et al.
Pubblicazione: (2024)
di: Protopapas, Kimon, et al.
Pubblicazione: (2024)
QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead
di: Zandieh, Amir, et al.
Pubblicazione: (2024)
di: Zandieh, Amir, et al.
Pubblicazione: (2024)
Layer-wise Derivative Controlled Networks
di: Martnishn, Rowan, et al.
Pubblicazione: (2026)
di: Martnishn, Rowan, et al.
Pubblicazione: (2026)
A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models
di: Zhao, Pengxiang, et al.
Pubblicazione: (2024)
di: Zhao, Pengxiang, et al.
Pubblicazione: (2024)
Layer-wise Linear Mode Connectivity
di: Adilova, Linara, et al.
Pubblicazione: (2023)
di: Adilova, Linara, et al.
Pubblicazione: (2023)
Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy
di: Zhao, Yao, et al.
Pubblicazione: (2023)
di: Zhao, Yao, et al.
Pubblicazione: (2023)
Rethinking Layer-wise Model Merging through Chain of Merges
di: Buzzega, Pietro, et al.
Pubblicazione: (2025)
di: Buzzega, Pietro, et al.
Pubblicazione: (2025)
Tequila: Trapping-free Ternary Quantization for Large Language Models
di: Huang, Hong, et al.
Pubblicazione: (2025)
di: Huang, Hong, et al.
Pubblicazione: (2025)
SiLQ: Simple Large Language Model Quantization-Aware Training
di: Esser, Steven K., et al.
Pubblicazione: (2025)
di: Esser, Steven K., et al.
Pubblicazione: (2025)
Documenti analoghi
-
Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer
di: Choi, Euntae, et al.
Pubblicazione: (2025) -
Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free
di: Choi, Euntae, et al.
Pubblicazione: (2025) -
NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache
di: Son, Donghyun, et al.
Pubblicazione: (2025) -
Phys3DGS: Physically-based 3D Gaussian Splatting for Inverse Rendering
di: Choi, Euntae, et al.
Pubblicazione: (2024) -
Gaussian Weight Sampling for Scalable, Efficient and Stable Pseudo-Quantization Training
di: Ahn, Myeonghwan, et al.
Pubblicazione: (2025)