:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Tan, Zhiquan, Hong, Yinrong
Format:	Preprint
Publié:	2025
Sujets:	Machine Learning
Accès en ligne:	https://arxiv.org/abs/2512.18730
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Self-Supervised On-Policy Distillation for Reasoning Language Models
par: Tan, Zhiquan, et autres
Publié: (2026)

PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners
par: Tan, Zhiquan, et autres
Publié: (2026)

Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models
par: Hong, Yinrong, et autres
Publié: (2025)

Information-Theoretic Perspectives on Optimizers
par: Tan, Zhiquan, et autres
Publié: (2025)

The Information of Large Language Model Geometry
par: Tan, Zhiquan, et autres
Publié: (2024)

Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance
par: Shen, Ao, et autres
Publié: (2024)

Diff-eRank: A Novel Rank-Based Metric for Evaluating Large Language Models
par: Wei, Lai, et autres
Publié: (2024)

Understanding Grokking Through A Robustness Viewpoint
par: Tan, Zhiquan, et autres
Publié: (2023)

Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training
par: Song, Kun, et autres
Publié: (2024)

Can I understand what I create? Self-Knowledge Evaluation of Large Language Models
par: Tan, Zhiquan, et autres
Publié: (2024)

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models
par: Jelassi, Samy, et autres
Publié: (2026)

ATLAS: Adapter-Based Multi-Modal Continual Learning with a Two-Stage Learning Strategy
par: Li, Hong, et autres
Publié: (2024)

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models
par: Li, Pengyi, et autres
Publié: (2025)

Model Explanations via the Axiomatic Causal Lens
par: Biradar, Gagan, et autres
Publié: (2021)

RL Token: Bootstrapping Online RL with Vision-Language-Action Models
par: Xu, Charles, et autres
Publié: (2026)

Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective
par: Yang, Yu-Wei, et autres
Publié: (2025)

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
par: Hong, Joey, et autres
Publié: (2024)

SOMBRL: Scalable and Optimistic Model-Based RL
par: Sukhija, Bhavya, et autres
Publié: (2025)

RL-Guided Data Selection for Language Model Finetuning
par: Jha, Animesh, et autres
Publié: (2025)

Learning Dynamics in RL Post-Training for Language Models
par: Tomihari, Akiyoshi
Publié: (2026)

Analyzing Memorization in Large Language Models through the Lens of Model Attribution
par: Menta, Tarun Ram, et autres
Publié: (2025)

An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models
par: Zhang, Yufeng, et autres
Publié: (2022)

Dissecting Fine-Tuning Unlearning in Large Language Models
par: Hong, Yihuai, et autres
Publié: (2024)

EvoLen: Evolution-Guided Tokenization for DNA Language Model
par: Huang, Nan, et autres
Publié: (2026)

Eliciting Latent Predictions from Transformers with the Tuned Lens
par: Belrose, Nora, et autres
Publié: (2023)

$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
par: Chen, Kang, et autres
Publié: (2025)

Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining
par: Cheng, Jie, et autres
Publié: (2024)

Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
par: Mark, Max Sobol, et autres
Publié: (2024)

Continual Fine-Tuning of Large Language Models via Program Memory
par: Le, Hung, et autres
Publié: (2026)

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs
par: Zhou, Runlong, et autres
Publié: (2024)

Discovery of Sustainable Refrigerants through Physics-Informed RL Fine-Tuning of Sequence Models
par: Goldszal, Adrien, et autres
Publié: (2025)

SecP-Tuning: Efficient Privacy-Preserving Prompt Tuning for Large Language Models via MPC
par: Luo, Jinglong, et autres
Publié: (2025)

Embedding Enhancement via Fine-Tuned Language Models for Learner-Item Cognitive Modeling
par: Liu, Yuanhao, et autres
Publié: (2026)

Adaptive Methods through the Lens of SDEs: Theoretical Insights on the Role of Noise
par: Compagnoni, Enea Monzio, et autres
Publié: (2024)

Informed POMDP: Leveraging Additional Information in Model-Based RL
par: Lambrechts, Gaspard, et autres
Publié: (2023)

EnergyLens: Interpretable Closed-Form Energy Models for Multimodal LLM Inference Serving
par: Palladino, Vittorio, et autres
Publié: (2026)

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
par: Dai, Fengyuan, et autres
Publié: (2025)

Curse of High Dimensionality Issue in Transformer for Long-context Modeling
par: Zhang, Shuhai, et autres
Publié: (2025)

FeynTune: Large Language Models for High-Energy Theory
par: Richmond, Paul, et autres
Publié: (2025)

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection
par: Yao, Kai, et autres
Publié: (2026)