Gespeichert in:
| Hauptverfasser: | Cetin, Edoardo, Touati, Ahmed, Ollivier, Yann |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2412.04368 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Simple Ingredients for Offline Reinforcement Learning
von: Cetin, Edoardo, et al.
Veröffentlicht: (2024)
von: Cetin, Edoardo, et al.
Veröffentlicht: (2024)
Which Features are Best for Successor Features?
von: Ollivier, Yann
Veröffentlicht: (2025)
von: Ollivier, Yann
Veröffentlicht: (2025)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models
von: Tirinzoni, Andrea, et al.
Veröffentlicht: (2025)
von: Tirinzoni, Andrea, et al.
Veröffentlicht: (2025)
Tackling the Zero-Shot Reinforcement Learning Loss Directly
von: Ollivier, Yann
Veröffentlicht: (2025)
von: Ollivier, Yann
Veröffentlicht: (2025)
Fast Adaptation with Behavioral Foundation Models
von: Sikchi, Harshit, et al.
Veröffentlicht: (2025)
von: Sikchi, Harshit, et al.
Veröffentlicht: (2025)
FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models
von: Zhang, Yang, et al.
Veröffentlicht: (2024)
von: Zhang, Yang, et al.
Veröffentlicht: (2024)
Learning from Partial Chain-of-Thought via Truncated-Reasoning Self-Distillation
von: Silvestri, Gianluigi, et al.
Veröffentlicht: (2026)
von: Silvestri, Gianluigi, et al.
Veröffentlicht: (2026)
CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization
von: Hu, Ranting
Veröffentlicht: (2025)
von: Hu, Ranting
Veröffentlicht: (2025)
An Equivalence between Bayesian Priors and Penalties in Variational Inference
von: Wolinski, Pierre, et al.
Veröffentlicht: (2020)
von: Wolinski, Pierre, et al.
Veröffentlicht: (2020)
FAWAC: Feasibility Informed Advantage Weighted Regression for Persistent Safety in Offline Reinforcement Learning
von: Koirala, Prajwal, et al.
Veröffentlicht: (2024)
von: Koirala, Prajwal, et al.
Veröffentlicht: (2024)
Finer is Better (with the Right Scaling)
von: Schaefer, Clemens, et al.
Veröffentlicht: (2026)
von: Schaefer, Clemens, et al.
Veröffentlicht: (2026)
Large Language Models to Diffusion Finetuning
von: Cetin, Edoardo, et al.
Veröffentlicht: (2025)
von: Cetin, Edoardo, et al.
Veröffentlicht: (2025)
Auto-Regressive Masked Diffusion Models
von: Karami, Mahdi, et al.
Veröffentlicht: (2026)
von: Karami, Mahdi, et al.
Veröffentlicht: (2026)
Path Learning with Trajectory Advantage Regression
von: Miyaguchi, Kohei
Veröffentlicht: (2025)
von: Miyaguchi, Kohei
Veröffentlicht: (2025)
Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models
von: Xue, Shuchen, et al.
Veröffentlicht: (2025)
von: Xue, Shuchen, et al.
Veröffentlicht: (2025)
AdvantageFlow: Advantage-Weighted Least Squares for RL in Flow Models
von: Kveton, Branislav, et al.
Veröffentlicht: (2026)
von: Kveton, Branislav, et al.
Veröffentlicht: (2026)
TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning
von: Bagatella, Marco, et al.
Veröffentlicht: (2025)
von: Bagatella, Marco, et al.
Veröffentlicht: (2025)
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
von: Sundaram, Shobhita, et al.
Veröffentlicht: (2026)
von: Sundaram, Shobhita, et al.
Veröffentlicht: (2026)
Feature Weighting Improves Pool-Based Sequential Active Learning for Regression
von: Wu, Dongrui
Veröffentlicht: (2026)
von: Wu, Dongrui
Veröffentlicht: (2026)
Interpretable Tabular Foundation Models via In-Context Kernel Regression
von: Miftachov, Ratmir, et al.
Veröffentlicht: (2026)
von: Miftachov, Ratmir, et al.
Veröffentlicht: (2026)
AutoGluon-Multimodal (AutoMM): Supercharging Multimodal AutoML with Foundation Models
von: Tang, Zhiqiang, et al.
Veröffentlicht: (2024)
von: Tang, Zhiqiang, et al.
Veröffentlicht: (2024)
Transformer-Squared: Self-adaptive LLMs
von: Sun, Qi, et al.
Veröffentlicht: (2025)
von: Sun, Qi, et al.
Veröffentlicht: (2025)
Reinforcement Learning Teachers of Test Time Scaling
von: Cetin, Edoardo, et al.
Veröffentlicht: (2025)
von: Cetin, Edoardo, et al.
Veröffentlicht: (2025)
Assessing Quantum Advantage for Gaussian Process Regression
von: Lowe, Dominic, et al.
Veröffentlicht: (2025)
von: Lowe, Dominic, et al.
Veröffentlicht: (2025)
ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution
von: Lange, Robert Tjarko, et al.
Veröffentlicht: (2025)
von: Lange, Robert Tjarko, et al.
Veröffentlicht: (2025)
Compositional Planning with Jumpy World Models
von: Farebrother, Jesse, et al.
Veröffentlicht: (2026)
von: Farebrother, Jesse, et al.
Veröffentlicht: (2026)
FIRE: Multi-fidelity Regression with Distribution-conditioned In-context Learning using Tabular Foundation Models
von: Yu, Rosen Ting-Ying, et al.
Veröffentlicht: (2026)
von: Yu, Rosen Ting-Ying, et al.
Veröffentlicht: (2026)
SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning
von: Sikchi, Harshit, et al.
Veröffentlicht: (2023)
von: Sikchi, Harshit, et al.
Veröffentlicht: (2023)
Bayesian Models for Joint Selection of Features and Auto-Regressive Lags: Theory and Applications in Environmental and Financial Forecasting
von: Manna, Alokesh, et al.
Veröffentlicht: (2025)
von: Manna, Alokesh, et al.
Veröffentlicht: (2025)
Privacy Attacks on Image AutoRegressive Models
von: Kowalczuk, Antoni, et al.
Veröffentlicht: (2025)
von: Kowalczuk, Antoni, et al.
Veröffentlicht: (2025)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression
von: Brantley, Kianté, et al.
Veröffentlicht: (2025)
von: Brantley, Kianté, et al.
Veröffentlicht: (2025)
Soft Tokens, Hard Truths
von: Butt, Natasha, et al.
Veröffentlicht: (2025)
von: Butt, Natasha, et al.
Veröffentlicht: (2025)
Data-Efficient Symbolic Regression via Foundation Model Distillation
von: Ying, Wangyang, et al.
Veröffentlicht: (2025)
von: Ying, Wangyang, et al.
Veröffentlicht: (2025)
LinkD: AutoRegressive Diffusion Model for Mechanical Linkage Synthesis
von: Jadhav, Yayati, et al.
Veröffentlicht: (2026)
von: Jadhav, Yayati, et al.
Veröffentlicht: (2026)
Adapting Time Series Foundation Models through Data Mixtures
von: Lee, Thomas L., et al.
Veröffentlicht: (2026)
von: Lee, Thomas L., et al.
Veröffentlicht: (2026)
Is Finer Better? The Limits of Microscaling Formats in Large Language Models
von: Fasoli, Andrea, et al.
Veröffentlicht: (2026)
von: Fasoli, Andrea, et al.
Veröffentlicht: (2026)
Engineering Regression Without Real-Data Training: Domain Adaptation for Tabular Foundation Models Using Multi-Dataset Embeddings
von: Regenwetter, Lyle, et al.
Veröffentlicht: (2026)
von: Regenwetter, Lyle, et al.
Veröffentlicht: (2026)
Lossless Vocabulary Reduction for Auto-Regressive Language Models
von: Chijiwa, Daiki, et al.
Veröffentlicht: (2025)
von: Chijiwa, Daiki, et al.
Veröffentlicht: (2025)
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models
von: Sun, Zeyi, et al.
Veröffentlicht: (2024)
von: Sun, Zeyi, et al.
Veröffentlicht: (2024)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models
von: Frantar, Elias, et al.
Veröffentlicht: (2024)
von: Frantar, Elias, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Simple Ingredients for Offline Reinforcement Learning
von: Cetin, Edoardo, et al.
Veröffentlicht: (2024) -
Which Features are Best for Successor Features?
von: Ollivier, Yann
Veröffentlicht: (2025) -
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models
von: Tirinzoni, Andrea, et al.
Veröffentlicht: (2025) -
Tackling the Zero-Shot Reinforcement Learning Loss Directly
von: Ollivier, Yann
Veröffentlicht: (2025) -
Fast Adaptation with Behavioral Foundation Models
von: Sikchi, Harshit, et al.
Veröffentlicht: (2025)