Gespeichert in:
| Hauptverfasser: | Hu, Chengming, Wu, Haolun, Li, Xuan, Ma, Chen, Chen, Xi, Yan, Jun, Wang, Boyu, Liu, Xue |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2023
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2312.15112 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Dual-Forward Path Teacher Knowledge Distillation: Bridging the Capacity Gap Between Teacher and Student
von: Li, Tong, et al.
Veröffentlicht: (2025)
von: Li, Tong, et al.
Veröffentlicht: (2025)
Multi-Teacher Knowledge Distillation via Teacher-Informed Mixture Priors
von: Fang, Luyang, et al.
Veröffentlicht: (2026)
von: Fang, Luyang, et al.
Veröffentlicht: (2026)
When Less is More: The LLM Scaling Paradox in Context Compression
von: Guo, Ruishan, et al.
Veröffentlicht: (2026)
von: Guo, Ruishan, et al.
Veröffentlicht: (2026)
An Overview of Machine Learning-Enabled Optimization for Reconfigurable Intelligent Surfaces-Aided 6G Networks: From Reinforcement Learning to Large Language Models
von: Zhou, Hao, et al.
Veröffentlicht: (2024)
von: Zhou, Hao, et al.
Veröffentlicht: (2024)
Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding
von: Shen, Yuhao, et al.
Veröffentlicht: (2026)
von: Shen, Yuhao, et al.
Veröffentlicht: (2026)
Knowledge Distillation with Adapted Weight
von: Wu, Sirong, et al.
Veröffentlicht: (2025)
von: Wu, Sirong, et al.
Veröffentlicht: (2025)
Less is More: Denoising Knowledge Graphs For Retrieval Augmented Generation
von: Zheng, Yilun, et al.
Veröffentlicht: (2025)
von: Zheng, Yilun, et al.
Veröffentlicht: (2025)
Quantize What Counts: More for Keys, Less for Values
von: Hariri, Mohsen, et al.
Veröffentlicht: (2025)
von: Hariri, Mohsen, et al.
Veröffentlicht: (2025)
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
von: Li, Hui, et al.
Veröffentlicht: (2025)
von: Li, Hui, et al.
Veröffentlicht: (2025)
A Teacher-Free Graph Knowledge Distillation Framework with Dual Self-Distillation
von: Wu, Lirong, et al.
Veröffentlicht: (2024)
von: Wu, Lirong, et al.
Veröffentlicht: (2024)
How to Backdoor the Knowledge Distillation
von: Wu, Chen, et al.
Veröffentlicht: (2025)
von: Wu, Chen, et al.
Veröffentlicht: (2025)
Large Language Model (LLM) for Telecommunications: A Comprehensive Survey on Principles, Key Techniques, and Opportunities
von: Zhou, Hao, et al.
Veröffentlicht: (2024)
von: Zhou, Hao, et al.
Veröffentlicht: (2024)
Cut Less, Fold More: Model Compression through the Lens of Projection Geometry
von: Saukh, Olga, et al.
Veröffentlicht: (2026)
von: Saukh, Olga, et al.
Veröffentlicht: (2026)
Transformer Multivariate Forecasting: Less is More?
von: Xu, Jingjing, et al.
Veröffentlicht: (2023)
von: Xu, Jingjing, et al.
Veröffentlicht: (2023)
Less is More: Towards Simple Graph Contrastive Learning
von: Zhao, Yanan, et al.
Veröffentlicht: (2025)
von: Zhao, Yanan, et al.
Veröffentlicht: (2025)
Moirai 2.0: When Less Is More for Time Series Forecasting
von: Liu, Chenghao, et al.
Veröffentlicht: (2025)
von: Liu, Chenghao, et al.
Veröffentlicht: (2025)
Less-to-More Generalization: Unlocking More Controllability by In-Context Generation
von: Wu, Shaojin, et al.
Veröffentlicht: (2025)
von: Wu, Shaojin, et al.
Veröffentlicht: (2025)
Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias
von: Li, Chao, et al.
Veröffentlicht: (2025)
von: Li, Chao, et al.
Veröffentlicht: (2025)
In Good GRACEs: Principled Teacher Selection for Knowledge Distillation
von: Panigrahi, Abhishek, et al.
Veröffentlicht: (2025)
von: Panigrahi, Abhishek, et al.
Veröffentlicht: (2025)
Making Recommender Systems More Knowledgeable: A Framework to Incorporate Side Information
von: Jiang, Yukun, et al.
Veröffentlicht: (2024)
von: Jiang, Yukun, et al.
Veröffentlicht: (2024)
ViRN: Variational Inference and Distribution Trilateration for Long-Tailed Continual Representation Learning
von: Dai, Hao, et al.
Veröffentlicht: (2025)
von: Dai, Hao, et al.
Veröffentlicht: (2025)
Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data
von: Arunan, Anushiya, et al.
Veröffentlicht: (2025)
von: Arunan, Anushiya, et al.
Veröffentlicht: (2025)
How to Train the Teacher Model for Effective Knowledge Distillation
von: Hamidi, Shayan Mohajer, et al.
Veröffentlicht: (2024)
von: Hamidi, Shayan Mohajer, et al.
Veröffentlicht: (2024)
Toward Student-Oriented Teacher Network Training For Knowledge Distillation
von: Dong, Chengyu, et al.
Veröffentlicht: (2022)
von: Dong, Chengyu, et al.
Veröffentlicht: (2022)
Generalizing Teacher Networks for Effective Knowledge Distillation Across Student Architectures
von: Binici, Kuluhan, et al.
Veröffentlicht: (2024)
von: Binici, Kuluhan, et al.
Veröffentlicht: (2024)
Less is More: Unlocking Specialization of Time Series Foundation Models via Structured Pruning
von: Zhao, Lifan, et al.
Veröffentlicht: (2025)
von: Zhao, Lifan, et al.
Veröffentlicht: (2025)
Edit Less, Achieve More: Dynamic Sparse Neuron Masking for Lifelong Knowledge Editing in LLMs
von: Liu, Jinzhe, et al.
Veröffentlicht: (2025)
von: Liu, Jinzhe, et al.
Veröffentlicht: (2025)
LIMR: Less is More for RL Scaling
von: Li, Xuefeng, et al.
Veröffentlicht: (2025)
von: Li, Xuefeng, et al.
Veröffentlicht: (2025)
Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks
von: Ma, Haokai, et al.
Veröffentlicht: (2026)
von: Ma, Haokai, et al.
Veröffentlicht: (2026)
Less is More: Efficient Weight Farcasting with 1-Layer Neural Network
von: Shou, Xiao, et al.
Veröffentlicht: (2025)
von: Shou, Xiao, et al.
Veröffentlicht: (2025)
Robust Knowledge Distillation Based on Feature Variance Against Backdoored Teacher Model
von: Chen, Jinyin, et al.
Veröffentlicht: (2024)
von: Chen, Jinyin, et al.
Veröffentlicht: (2024)
Support-Proximity Augmented Diffusion Estimation for Offline Black-Box Optimization
von: Yang, Yonghan, et al.
Veröffentlicht: (2026)
von: Yang, Yonghan, et al.
Veröffentlicht: (2026)
A Generalization Theory of Cross-Modality Distillation with Contrastive Learning
von: Lin, Hangyu, et al.
Veröffentlicht: (2024)
von: Lin, Hangyu, et al.
Veröffentlicht: (2024)
SGD-Based Knowledge Distillation with Bayesian Teachers: Theory and Guidelines
von: Morad, Itai, et al.
Veröffentlicht: (2026)
von: Morad, Itai, et al.
Veröffentlicht: (2026)
Diffusion Models as Dataset Distillation Priors
von: Su, Duo, et al.
Veröffentlicht: (2025)
von: Su, Duo, et al.
Veröffentlicht: (2025)
The Role of Teacher Calibration in Knowledge Distillation
von: Kim, Suyoung, et al.
Veröffentlicht: (2025)
von: Kim, Suyoung, et al.
Veröffentlicht: (2025)
Model Merging via Multi-Teacher Knowledge Distillation
von: Dalili, Seyed Arshan, et al.
Veröffentlicht: (2025)
von: Dalili, Seyed Arshan, et al.
Veröffentlicht: (2025)
Knowledge Distillation Based on Transformed Teacher Matching
von: Zheng, Kaixiang, et al.
Veröffentlicht: (2024)
von: Zheng, Kaixiang, et al.
Veröffentlicht: (2024)
Online Knowledge Distillation with Reward Guidance
von: Jia, Chen
Veröffentlicht: (2025)
von: Jia, Chen
Veröffentlicht: (2025)
Stragglers Can Contribute More: Uncertainty-Aware Distillation for Asynchronous Federated Learning
von: Wang, Yujia, et al.
Veröffentlicht: (2025)
von: Wang, Yujia, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Dual-Forward Path Teacher Knowledge Distillation: Bridging the Capacity Gap Between Teacher and Student
von: Li, Tong, et al.
Veröffentlicht: (2025) -
Multi-Teacher Knowledge Distillation via Teacher-Informed Mixture Priors
von: Fang, Luyang, et al.
Veröffentlicht: (2026) -
When Less is More: The LLM Scaling Paradox in Context Compression
von: Guo, Ruishan, et al.
Veröffentlicht: (2026) -
An Overview of Machine Learning-Enabled Optimization for Reconfigurable Intelligent Surfaces-Aided 6G Networks: From Reinforcement Learning to Large Language Models
von: Zhou, Hao, et al.
Veröffentlicht: (2024) -
Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding
von: Shen, Yuhao, et al.
Veröffentlicht: (2026)