Enregistré dans:
| Auteurs principaux: | Tan, Zhiquan, Hong, Yinrong |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2512.18730 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Self-Supervised On-Policy Distillation for Reasoning Language Models
par: Tan, Zhiquan, et autres
Publié: (2026)
par: Tan, Zhiquan, et autres
Publié: (2026)
PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners
par: Tan, Zhiquan, et autres
Publié: (2026)
par: Tan, Zhiquan, et autres
Publié: (2026)
Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models
par: Hong, Yinrong, et autres
Publié: (2025)
par: Hong, Yinrong, et autres
Publié: (2025)
Information-Theoretic Perspectives on Optimizers
par: Tan, Zhiquan, et autres
Publié: (2025)
par: Tan, Zhiquan, et autres
Publié: (2025)
The Information of Large Language Model Geometry
par: Tan, Zhiquan, et autres
Publié: (2024)
par: Tan, Zhiquan, et autres
Publié: (2024)
Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance
par: Shen, Ao, et autres
Publié: (2024)
par: Shen, Ao, et autres
Publié: (2024)
Diff-eRank: A Novel Rank-Based Metric for Evaluating Large Language Models
par: Wei, Lai, et autres
Publié: (2024)
par: Wei, Lai, et autres
Publié: (2024)
Understanding Grokking Through A Robustness Viewpoint
par: Tan, Zhiquan, et autres
Publié: (2023)
par: Tan, Zhiquan, et autres
Publié: (2023)
Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training
par: Song, Kun, et autres
Publié: (2024)
par: Song, Kun, et autres
Publié: (2024)
Can I understand what I create? Self-Knowledge Evaluation of Large Language Models
par: Tan, Zhiquan, et autres
Publié: (2024)
par: Tan, Zhiquan, et autres
Publié: (2024)
Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models
par: Jelassi, Samy, et autres
Publié: (2026)
par: Jelassi, Samy, et autres
Publié: (2026)
ATLAS: Adapter-Based Multi-Modal Continual Learning with a Two-Stage Learning Strategy
par: Li, Hong, et autres
Publié: (2024)
par: Li, Hong, et autres
Publié: (2024)
Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models
par: Li, Pengyi, et autres
Publié: (2025)
par: Li, Pengyi, et autres
Publié: (2025)
Model Explanations via the Axiomatic Causal Lens
par: Biradar, Gagan, et autres
Publié: (2021)
par: Biradar, Gagan, et autres
Publié: (2021)
RL Token: Bootstrapping Online RL with Vision-Language-Action Models
par: Xu, Charles, et autres
Publié: (2026)
par: Xu, Charles, et autres
Publié: (2026)
Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective
par: Yang, Yu-Wei, et autres
Publié: (2025)
par: Yang, Yu-Wei, et autres
Publié: (2025)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
par: Hong, Joey, et autres
Publié: (2024)
par: Hong, Joey, et autres
Publié: (2024)
SOMBRL: Scalable and Optimistic Model-Based RL
par: Sukhija, Bhavya, et autres
Publié: (2025)
par: Sukhija, Bhavya, et autres
Publié: (2025)
RL-Guided Data Selection for Language Model Finetuning
par: Jha, Animesh, et autres
Publié: (2025)
par: Jha, Animesh, et autres
Publié: (2025)
Learning Dynamics in RL Post-Training for Language Models
par: Tomihari, Akiyoshi
Publié: (2026)
par: Tomihari, Akiyoshi
Publié: (2026)
Analyzing Memorization in Large Language Models through the Lens of Model Attribution
par: Menta, Tarun Ram, et autres
Publié: (2025)
par: Menta, Tarun Ram, et autres
Publié: (2025)
An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models
par: Zhang, Yufeng, et autres
Publié: (2022)
par: Zhang, Yufeng, et autres
Publié: (2022)
Dissecting Fine-Tuning Unlearning in Large Language Models
par: Hong, Yihuai, et autres
Publié: (2024)
par: Hong, Yihuai, et autres
Publié: (2024)
EvoLen: Evolution-Guided Tokenization for DNA Language Model
par: Huang, Nan, et autres
Publié: (2026)
par: Huang, Nan, et autres
Publié: (2026)
Eliciting Latent Predictions from Transformers with the Tuned Lens
par: Belrose, Nora, et autres
Publié: (2023)
par: Belrose, Nora, et autres
Publié: (2023)
$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
par: Chen, Kang, et autres
Publié: (2025)
par: Chen, Kang, et autres
Publié: (2025)
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining
par: Cheng, Jie, et autres
Publié: (2024)
par: Cheng, Jie, et autres
Publié: (2024)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
par: Mark, Max Sobol, et autres
Publié: (2024)
par: Mark, Max Sobol, et autres
Publié: (2024)
Continual Fine-Tuning of Large Language Models via Program Memory
par: Le, Hung, et autres
Publié: (2026)
par: Le, Hung, et autres
Publié: (2026)
Reflect-RL: Two-Player Online RL Fine-Tuning for LMs
par: Zhou, Runlong, et autres
Publié: (2024)
par: Zhou, Runlong, et autres
Publié: (2024)
Discovery of Sustainable Refrigerants through Physics-Informed RL Fine-Tuning of Sequence Models
par: Goldszal, Adrien, et autres
Publié: (2025)
par: Goldszal, Adrien, et autres
Publié: (2025)
SecP-Tuning: Efficient Privacy-Preserving Prompt Tuning for Large Language Models via MPC
par: Luo, Jinglong, et autres
Publié: (2025)
par: Luo, Jinglong, et autres
Publié: (2025)
Embedding Enhancement via Fine-Tuned Language Models for Learner-Item Cognitive Modeling
par: Liu, Yuanhao, et autres
Publié: (2026)
par: Liu, Yuanhao, et autres
Publié: (2026)
Adaptive Methods through the Lens of SDEs: Theoretical Insights on the Role of Noise
par: Compagnoni, Enea Monzio, et autres
Publié: (2024)
par: Compagnoni, Enea Monzio, et autres
Publié: (2024)
Informed POMDP: Leveraging Additional Information in Model-Based RL
par: Lambrechts, Gaspard, et autres
Publié: (2023)
par: Lambrechts, Gaspard, et autres
Publié: (2023)
EnergyLens: Interpretable Closed-Form Energy Models for Multimodal LLM Inference Serving
par: Palladino, Vittorio, et autres
Publié: (2026)
par: Palladino, Vittorio, et autres
Publié: (2026)
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
par: Dai, Fengyuan, et autres
Publié: (2025)
par: Dai, Fengyuan, et autres
Publié: (2025)
Curse of High Dimensionality Issue in Transformer for Long-context Modeling
par: Zhang, Shuhai, et autres
Publié: (2025)
par: Zhang, Shuhai, et autres
Publié: (2025)
FeynTune: Large Language Models for High-Energy Theory
par: Richmond, Paul, et autres
Publié: (2025)
par: Richmond, Paul, et autres
Publié: (2025)
GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection
par: Yao, Kai, et autres
Publié: (2026)
par: Yao, Kai, et autres
Publié: (2026)
Documents similaires
-
Self-Supervised On-Policy Distillation for Reasoning Language Models
par: Tan, Zhiquan, et autres
Publié: (2026) -
PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners
par: Tan, Zhiquan, et autres
Publié: (2026) -
Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models
par: Hong, Yinrong, et autres
Publié: (2025) -
Information-Theoretic Perspectives on Optimizers
par: Tan, Zhiquan, et autres
Publié: (2025) -
The Information of Large Language Model Geometry
par: Tan, Zhiquan, et autres
Publié: (2024)