Enregistré dans:
| Auteurs principaux: | Hong, Joey, Dragan, Anca, Levine, Sergey |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2505.18098 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
par: Hong, Joey, et autres
Publié: (2024)
par: Hong, Joey, et autres
Publié: (2024)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations
par: Hong, Joey, et autres
Publié: (2024)
par: Hong, Joey, et autres
Publié: (2024)
OGBench: Benchmarking Offline Goal-Conditioned RL
par: Park, Seohong, et autres
Publié: (2024)
par: Park, Seohong, et autres
Publié: (2024)
HIQL: Offline Goal-Conditioned RL with Latent States as Actions
par: Park, Seohong, et autres
Publié: (2023)
par: Park, Seohong, et autres
Publié: (2023)
Learning to Assist Humans without Inferring Rewards
par: Myers, Vivek, et autres
Publié: (2024)
par: Myers, Vivek, et autres
Publié: (2024)
The Synergy of LLMs & RL Unlocks Offline Learning of Generalizable Language-Conditioned Policies with Low-fidelity Data
par: Pouplin, Thomas, et autres
Publié: (2024)
par: Pouplin, Thomas, et autres
Publié: (2024)
Zero-Overhead Introspection for Adaptive Test-Time Compute
par: Manvi, Rohin, et autres
Publié: (2025)
par: Manvi, Rohin, et autres
Publié: (2025)
Context Steering: Controllable Personalization at Inference Time
par: He, Jerry Zhi-Yang, et autres
Publié: (2024)
par: He, Jerry Zhi-Yang, et autres
Publié: (2024)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL
par: Zhou, Yifei, et autres
Publié: (2024)
par: Zhou, Yifei, et autres
Publié: (2024)
Improved Generalized Planning with LLMs through Strategy Refinement and Reflection
par: Stein, Katharina, et autres
Publié: (2025)
par: Stein, Katharina, et autres
Publié: (2025)
Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL
par: Abdulhai, Marwa, et autres
Publié: (2025)
par: Abdulhai, Marwa, et autres
Publié: (2025)
Self-Guided Plan Extraction for Instruction-Following Tasks with Goal-Conditional Reinforcement Learning
par: Volovikova, Zoya, et autres
Publié: (2026)
par: Volovikova, Zoya, et autres
Publié: (2026)
Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data
par: Zheng, Chongyi, et autres
Publié: (2023)
par: Zheng, Chongyi, et autres
Publié: (2023)
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
par: Xie, Tian, et autres
Publié: (2025)
par: Xie, Tian, et autres
Publié: (2025)
Plan-and-Write: Structure-Guided Length Control for LLMs without Model Retraining
par: Akinfaderin, Adewale, et autres
Publié: (2025)
par: Akinfaderin, Adewale, et autres
Publié: (2025)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL
par: Sun, Hao, et autres
Publié: (2023)
par: Sun, Hao, et autres
Publié: (2023)
Quantifying and Mitigating Premature Closure in Frontier LLMs
par: Handler, Rebecca, et autres
Publié: (2026)
par: Handler, Rebecca, et autres
Publié: (2026)
Learning to Model the World with Language
par: Lin, Jessy, et autres
Publié: (2023)
par: Lin, Jessy, et autres
Publié: (2023)
SDA: Steering-Driven Distribution Alignment for Open LLMs without Fine-Tuning
par: Xia, Wei, et autres
Publié: (2025)
par: Xia, Wei, et autres
Publié: (2025)
Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making
par: Myers, Vivek, et autres
Publié: (2024)
par: Myers, Vivek, et autres
Publié: (2024)
RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation
par: Lee, Dongyub Jude, et autres
Publié: (2025)
par: Lee, Dongyub Jude, et autres
Publié: (2025)
Extrapolative Weight Averaging Reveals Correctness-Efficiency Frontiers in Code RL
par: Zheng, Kunhao, et autres
Publié: (2026)
par: Zheng, Kunhao, et autres
Publié: (2026)
Offline RL for Adaptive Policy Retrieval in Prior Authorization
par: Sharifullin, Ruslan, et autres
Publié: (2026)
par: Sharifullin, Ruslan, et autres
Publié: (2026)
Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning
par: Shi, Yaorui, et autres
Publié: (2025)
par: Shi, Yaorui, et autres
Publié: (2025)
Scalable Offline Model-Based RL with Action Chunks
par: Park, Kwanyoung, et autres
Publié: (2025)
par: Park, Kwanyoung, et autres
Publié: (2025)
Is Value Learning Really the Main Bottleneck in Offline RL?
par: Park, Seohong, et autres
Publié: (2024)
par: Park, Seohong, et autres
Publié: (2024)
Incomplete Tasks Induce Shutdown Resistance in Some Frontier LLMs
par: Schlatter, Jeremy, et autres
Publié: (2025)
par: Schlatter, Jeremy, et autres
Publié: (2025)
Planning Transformer: Long-Horizon Offline Reinforcement Learning with Planning Tokens
par: Clinton, Joseph, et autres
Publié: (2024)
par: Clinton, Joseph, et autres
Publié: (2024)
Personalized Learning Path Planning with Goal-Driven Learner State Modeling
par: Lim, Joy Jia Yin, et autres
Publié: (2025)
par: Lim, Joy Jia Yin, et autres
Publié: (2025)
Plan-Grounded Large Language Models for Dual Goal Conversational Settings
par: Glória-Silva, Diogo, et autres
Publié: (2024)
par: Glória-Silva, Diogo, et autres
Publié: (2024)
Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs
par: Wang, Qibin, et autres
Publié: (2025)
par: Wang, Qibin, et autres
Publié: (2025)
Stitching Sub-Trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL
par: Kim, Sungyoon, et autres
Publié: (2024)
par: Kim, Sungyoon, et autres
Publié: (2024)
Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration
par: He, Bowei, et autres
Publié: (2026)
par: He, Bowei, et autres
Publié: (2026)
Chain-of-Goals Hierarchical Policy for Long-Horizon Offline Goal-Conditioned RL
par: Choi, Jinwoo, et autres
Publié: (2026)
par: Choi, Jinwoo, et autres
Publié: (2026)
Grammar and Gameplay-aligned RL for Game Description Generation with LLMs
par: Tanaka, Tsunehiko, et autres
Publié: (2025)
par: Tanaka, Tsunehiko, et autres
Publié: (2025)
Unlocking Recursive Thinking of LLMs: Alignment via Refinement
par: Zhang, Haoke, et autres
Publié: (2025)
par: Zhang, Haoke, et autres
Publié: (2025)
Self-Challenging Language Model Agents
par: Zhou, Yifei, et autres
Publié: (2025)
par: Zhou, Yifei, et autres
Publié: (2025)
Goal-Directed Search Outperforms Goal-Agnostic Memory Compression in Long-Context Memory Tasks
par: Zheng, Yicong, et autres
Publié: (2025)
par: Zheng, Yicong, et autres
Publié: (2025)
Tailored Conversations beyond LLMs: A RL-Based Dialogue Manager
par: Galland, Lucie, et autres
Publié: (2025)
par: Galland, Lucie, et autres
Publié: (2025)
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
par: Wang, Tianle, et autres
Publié: (2026)
par: Wang, Tianle, et autres
Publié: (2026)
Documents similaires
-
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
par: Hong, Joey, et autres
Publié: (2024) -
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations
par: Hong, Joey, et autres
Publié: (2024) -
OGBench: Benchmarking Offline Goal-Conditioned RL
par: Park, Seohong, et autres
Publié: (2024) -
HIQL: Offline Goal-Conditioned RL with Latent States as Actions
par: Park, Seohong, et autres
Publié: (2023) -
Learning to Assist Humans without Inferring Rewards
par: Myers, Vivek, et autres
Publié: (2024)