:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Farhat, Sean, Chen, Deming
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Machine Learning Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2404.03263
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Practical Insights into Knowledge Distillation for Pre-Trained Models
di: Alballa, Norah, et al.
Pubblicazione: (2024)

The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning
di: Schneider, Moritz, et al.
Pubblicazione: (2024)

Pre-Training Graph Contrastive Masked Autoencoders are Strong Distillers for EEG
di: Wei, Xinxu, et al.
Pubblicazione: (2024)

Dataset Distillation for Pre-Trained Self-Supervised Vision Models
di: Cazenavette, George, et al.
Pubblicazione: (2025)

World Model Robustness via Surprise Recognition
di: Zollicoffer, Geigh, et al.
Pubblicazione: (2025)

The Surprising Effectiveness of Test-Time Training for Few-Shot Learning
di: Akyürek, Ekin, et al.
Pubblicazione: (2024)

SR-TTT: Surprisal-Aware Residual Test-Time Training
di: P, Swamynathan V
Pubblicazione: (2026)

Toward a Graph Foundation Model: Pre-Training Transformers With Random Walks
di: Tang, Ziyuan, et al.
Pubblicazione: (2025)

SpecMemo: Speculative Decoding is in Your Pocket
di: Yildirim, Selin, et al.
Pubblicazione: (2025)

PTMs-TSCIL Pre-Trained Models Based Class-Incremental Learning
di: Wu, Yuanlong, et al.
Pubblicazione: (2025)

A Survey on Time-Series Pre-Trained Models
di: Ma, Qianli, et al.
Pubblicazione: (2023)

IMU-1: Sample-Efficient Pre-training of Small Language Models
di: Grigorev, George
Pubblicazione: (2026)

Annealing Self-Distillation Rectification Improves Adversarial Training
di: Wu, Yu-Yu, et al.
Pubblicazione: (2023)

The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling
di: Ma, Jiajun, et al.
Pubblicazione: (2024)

On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
di: Joo, Taejong, et al.
Pubblicazione: (2026)

Winning Big with Small Models: Knowledge Distillation vs. Self-Training for Reducing Hallucination in Product QA Agents
di: Lewis, Ashley, et al.
Pubblicazione: (2025)

Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective
di: Chen, Yang, et al.
Pubblicazione: (2024)

Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities
di: Chandhok, Shivam, et al.
Pubblicazione: (2025)

CyclicFL: A Cyclic Model Pre-Training Approach to Efficient Federated Learning
di: Zhang, Pengyu, et al.
Pubblicazione: (2023)

Ensemble of Pre-Trained Models for Long-Tailed Trajectory Prediction
di: Thuremella, Divya, et al.
Pubblicazione: (2025)

Junk DNA Hypothesis: Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs "Difficult" Downstream Tasks in LLMs
di: Yin, Lu, et al.
Pubblicazione: (2023)

Contrastive Language-Image Pre-Training Model based Semantic Communication Performance Optimization
di: Yang, Shaoran, et al.
Pubblicazione: (2025)

Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning
di: Hugessen, Adriana, et al.
Pubblicazione: (2024)

SeqFusion: Sequential Fusion of Pre-Trained Models for Zero-Shot Time-Series Forecasting
di: Huang, Ting-Ji, et al.
Pubblicazione: (2025)

Small Models, Smarter Learning: The Power of Joint Task Training
di: Both, Csaba, et al.
Pubblicazione: (2025)

Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning
di: Piccoli, Elia, et al.
Pubblicazione: (2025)

Kakugo: Distillation of Low-Resource Languages into Small Language Models
di: Devine, Peter, et al.
Pubblicazione: (2026)

Beyond the Proxy: Trajectory-Distilled Guidance for Offline GFlowNet Training
di: Chen, Ruishuo, et al.
Pubblicazione: (2025)

Data Efficacy for Language Model Training
di: Dai, Yalun, et al.
Pubblicazione: (2025)

Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric Learning
di: Banerjee, Amartya, et al.
Pubblicazione: (2023)

Recommending Pre-Trained Models for IoT Devices
di: Patil, Parth V., et al.
Pubblicazione: (2024)

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning
di: Liu, Huihan, et al.
Pubblicazione: (2026)

TB or Not TB: Coverage-Driven Direct Preference Optimization for Verilog Stimulus Generation
di: Nadimi, Bardia, et al.
Pubblicazione: (2025)

SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment
di: Song, Yixin, et al.
Pubblicazione: (2025)

Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Model Watermarking
di: Kong, Cong, et al.
Pubblicazione: (2024)

Actor-Critic based Online Data Mixing For Language Model Pre-Training
di: Ma, Jing, et al.
Pubblicazione: (2025)

Topology Only Pre-Training: Towards Generalised Multi-Domain Graph Models
di: Davies, Alex O., et al.
Pubblicazione: (2023)

Analyzing Generalization in Pre-Trained Symbolic Regression
di: Voigt, Henrik, et al.
Pubblicazione: (2025)

Value-Based Pre-Training with Downstream Feedback
di: Ke, Shuqi, et al.
Pubblicazione: (2026)

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
di: Wu, Yecheng, et al.
Pubblicazione: (2026)