Salvato in:
| Autori principali: | Farhat, Sean, Chen, Deming |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2404.03263 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Practical Insights into Knowledge Distillation for Pre-Trained Models
di: Alballa, Norah, et al.
Pubblicazione: (2024)
di: Alballa, Norah, et al.
Pubblicazione: (2024)
The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning
di: Schneider, Moritz, et al.
Pubblicazione: (2024)
di: Schneider, Moritz, et al.
Pubblicazione: (2024)
Pre-Training Graph Contrastive Masked Autoencoders are Strong Distillers for EEG
di: Wei, Xinxu, et al.
Pubblicazione: (2024)
di: Wei, Xinxu, et al.
Pubblicazione: (2024)
Dataset Distillation for Pre-Trained Self-Supervised Vision Models
di: Cazenavette, George, et al.
Pubblicazione: (2025)
di: Cazenavette, George, et al.
Pubblicazione: (2025)
World Model Robustness via Surprise Recognition
di: Zollicoffer, Geigh, et al.
Pubblicazione: (2025)
di: Zollicoffer, Geigh, et al.
Pubblicazione: (2025)
The Surprising Effectiveness of Test-Time Training for Few-Shot Learning
di: Akyürek, Ekin, et al.
Pubblicazione: (2024)
di: Akyürek, Ekin, et al.
Pubblicazione: (2024)
SR-TTT: Surprisal-Aware Residual Test-Time Training
di: P, Swamynathan V
Pubblicazione: (2026)
di: P, Swamynathan V
Pubblicazione: (2026)
Toward a Graph Foundation Model: Pre-Training Transformers With Random Walks
di: Tang, Ziyuan, et al.
Pubblicazione: (2025)
di: Tang, Ziyuan, et al.
Pubblicazione: (2025)
SpecMemo: Speculative Decoding is in Your Pocket
di: Yildirim, Selin, et al.
Pubblicazione: (2025)
di: Yildirim, Selin, et al.
Pubblicazione: (2025)
PTMs-TSCIL Pre-Trained Models Based Class-Incremental Learning
di: Wu, Yuanlong, et al.
Pubblicazione: (2025)
di: Wu, Yuanlong, et al.
Pubblicazione: (2025)
A Survey on Time-Series Pre-Trained Models
di: Ma, Qianli, et al.
Pubblicazione: (2023)
di: Ma, Qianli, et al.
Pubblicazione: (2023)
IMU-1: Sample-Efficient Pre-training of Small Language Models
di: Grigorev, George
Pubblicazione: (2026)
di: Grigorev, George
Pubblicazione: (2026)
Annealing Self-Distillation Rectification Improves Adversarial Training
di: Wu, Yu-Yu, et al.
Pubblicazione: (2023)
di: Wu, Yu-Yu, et al.
Pubblicazione: (2023)
The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling
di: Ma, Jiajun, et al.
Pubblicazione: (2024)
di: Ma, Jiajun, et al.
Pubblicazione: (2024)
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
di: Joo, Taejong, et al.
Pubblicazione: (2026)
di: Joo, Taejong, et al.
Pubblicazione: (2026)
Winning Big with Small Models: Knowledge Distillation vs. Self-Training for Reducing Hallucination in Product QA Agents
di: Lewis, Ashley, et al.
Pubblicazione: (2025)
di: Lewis, Ashley, et al.
Pubblicazione: (2025)
Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective
di: Chen, Yang, et al.
Pubblicazione: (2024)
di: Chen, Yang, et al.
Pubblicazione: (2024)
Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities
di: Chandhok, Shivam, et al.
Pubblicazione: (2025)
di: Chandhok, Shivam, et al.
Pubblicazione: (2025)
CyclicFL: A Cyclic Model Pre-Training Approach to Efficient Federated Learning
di: Zhang, Pengyu, et al.
Pubblicazione: (2023)
di: Zhang, Pengyu, et al.
Pubblicazione: (2023)
Ensemble of Pre-Trained Models for Long-Tailed Trajectory Prediction
di: Thuremella, Divya, et al.
Pubblicazione: (2025)
di: Thuremella, Divya, et al.
Pubblicazione: (2025)
Junk DNA Hypothesis: Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs "Difficult" Downstream Tasks in LLMs
di: Yin, Lu, et al.
Pubblicazione: (2023)
di: Yin, Lu, et al.
Pubblicazione: (2023)
Contrastive Language-Image Pre-Training Model based Semantic Communication Performance Optimization
di: Yang, Shaoran, et al.
Pubblicazione: (2025)
di: Yang, Shaoran, et al.
Pubblicazione: (2025)
Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning
di: Hugessen, Adriana, et al.
Pubblicazione: (2024)
di: Hugessen, Adriana, et al.
Pubblicazione: (2024)
SeqFusion: Sequential Fusion of Pre-Trained Models for Zero-Shot Time-Series Forecasting
di: Huang, Ting-Ji, et al.
Pubblicazione: (2025)
di: Huang, Ting-Ji, et al.
Pubblicazione: (2025)
Small Models, Smarter Learning: The Power of Joint Task Training
di: Both, Csaba, et al.
Pubblicazione: (2025)
di: Both, Csaba, et al.
Pubblicazione: (2025)
Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning
di: Piccoli, Elia, et al.
Pubblicazione: (2025)
di: Piccoli, Elia, et al.
Pubblicazione: (2025)
Kakugo: Distillation of Low-Resource Languages into Small Language Models
di: Devine, Peter, et al.
Pubblicazione: (2026)
di: Devine, Peter, et al.
Pubblicazione: (2026)
Beyond the Proxy: Trajectory-Distilled Guidance for Offline GFlowNet Training
di: Chen, Ruishuo, et al.
Pubblicazione: (2025)
di: Chen, Ruishuo, et al.
Pubblicazione: (2025)
Data Efficacy for Language Model Training
di: Dai, Yalun, et al.
Pubblicazione: (2025)
di: Dai, Yalun, et al.
Pubblicazione: (2025)
Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric Learning
di: Banerjee, Amartya, et al.
Pubblicazione: (2023)
di: Banerjee, Amartya, et al.
Pubblicazione: (2023)
Recommending Pre-Trained Models for IoT Devices
di: Patil, Parth V., et al.
Pubblicazione: (2024)
di: Patil, Parth V., et al.
Pubblicazione: (2024)
Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning
di: Liu, Huihan, et al.
Pubblicazione: (2026)
di: Liu, Huihan, et al.
Pubblicazione: (2026)
TB or Not TB: Coverage-Driven Direct Preference Optimization for Verilog Stimulus Generation
di: Nadimi, Bardia, et al.
Pubblicazione: (2025)
di: Nadimi, Bardia, et al.
Pubblicazione: (2025)
SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment
di: Song, Yixin, et al.
Pubblicazione: (2025)
di: Song, Yixin, et al.
Pubblicazione: (2025)
Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Model Watermarking
di: Kong, Cong, et al.
Pubblicazione: (2024)
di: Kong, Cong, et al.
Pubblicazione: (2024)
Actor-Critic based Online Data Mixing For Language Model Pre-Training
di: Ma, Jing, et al.
Pubblicazione: (2025)
di: Ma, Jing, et al.
Pubblicazione: (2025)
Topology Only Pre-Training: Towards Generalised Multi-Domain Graph Models
di: Davies, Alex O., et al.
Pubblicazione: (2023)
di: Davies, Alex O., et al.
Pubblicazione: (2023)
Analyzing Generalization in Pre-Trained Symbolic Regression
di: Voigt, Henrik, et al.
Pubblicazione: (2025)
di: Voigt, Henrik, et al.
Pubblicazione: (2025)
Value-Based Pre-Training with Downstream Feedback
di: Ke, Shuqi, et al.
Pubblicazione: (2026)
di: Ke, Shuqi, et al.
Pubblicazione: (2026)
Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
di: Wu, Yecheng, et al.
Pubblicazione: (2026)
di: Wu, Yecheng, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Practical Insights into Knowledge Distillation for Pre-Trained Models
di: Alballa, Norah, et al.
Pubblicazione: (2024) -
The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning
di: Schneider, Moritz, et al.
Pubblicazione: (2024) -
Pre-Training Graph Contrastive Masked Autoencoders are Strong Distillers for EEG
di: Wei, Xinxu, et al.
Pubblicazione: (2024) -
Dataset Distillation for Pre-Trained Self-Supervised Vision Models
di: Cazenavette, George, et al.
Pubblicazione: (2025) -
World Model Robustness via Surprise Recognition
di: Zollicoffer, Geigh, et al.
Pubblicazione: (2025)