:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Hong, Joey, Dragan, Anca, Levine, Sergey
Format:	Preprint
Publié:	2025
Sujets:	Computation and Language Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2505.18098
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
par: Hong, Joey, et autres
Publié: (2024)

Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations
par: Hong, Joey, et autres
Publié: (2024)

OGBench: Benchmarking Offline Goal-Conditioned RL
par: Park, Seohong, et autres
Publié: (2024)

HIQL: Offline Goal-Conditioned RL with Latent States as Actions
par: Park, Seohong, et autres
Publié: (2023)

Learning to Assist Humans without Inferring Rewards
par: Myers, Vivek, et autres
Publié: (2024)

The Synergy of LLMs & RL Unlocks Offline Learning of Generalizable Language-Conditioned Policies with Low-fidelity Data
par: Pouplin, Thomas, et autres
Publié: (2024)

Zero-Overhead Introspection for Adaptive Test-Time Compute
par: Manvi, Rohin, et autres
Publié: (2025)

Context Steering: Controllable Personalization at Inference Time
par: He, Jerry Zhi-Yang, et autres
Publié: (2024)

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL
par: Zhou, Yifei, et autres
Publié: (2024)

Improved Generalized Planning with LLMs through Strategy Refinement and Reflection
par: Stein, Katharina, et autres
Publié: (2025)

Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL
par: Abdulhai, Marwa, et autres
Publié: (2025)

Self-Guided Plan Extraction for Instruction-Following Tasks with Goal-Conditional Reinforcement Learning
par: Volovikova, Zoya, et autres
Publié: (2026)

Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data
par: Zheng, Chongyi, et autres
Publié: (2023)

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
par: Xie, Tian, et autres
Publié: (2025)

Plan-and-Write: Structure-Guided Length Control for LLMs without Model Retraining
par: Akinfaderin, Adewale, et autres
Publié: (2025)

Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL
par: Sun, Hao, et autres
Publié: (2023)

Quantifying and Mitigating Premature Closure in Frontier LLMs
par: Handler, Rebecca, et autres
Publié: (2026)

Learning to Model the World with Language
par: Lin, Jessy, et autres
Publié: (2023)

SDA: Steering-Driven Distribution Alignment for Open LLMs without Fine-Tuning
par: Xia, Wei, et autres
Publié: (2025)

Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making
par: Myers, Vivek, et autres
Publié: (2024)

RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation
par: Lee, Dongyub Jude, et autres
Publié: (2025)

Extrapolative Weight Averaging Reveals Correctness-Efficiency Frontiers in Code RL
par: Zheng, Kunhao, et autres
Publié: (2026)

Offline RL for Adaptive Policy Retrieval in Prior Authorization
par: Sharifullin, Ruslan, et autres
Publié: (2026)

Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning
par: Shi, Yaorui, et autres
Publié: (2025)

Scalable Offline Model-Based RL with Action Chunks
par: Park, Kwanyoung, et autres
Publié: (2025)

Is Value Learning Really the Main Bottleneck in Offline RL?
par: Park, Seohong, et autres
Publié: (2024)

Incomplete Tasks Induce Shutdown Resistance in Some Frontier LLMs
par: Schlatter, Jeremy, et autres
Publié: (2025)

Planning Transformer: Long-Horizon Offline Reinforcement Learning with Planning Tokens
par: Clinton, Joseph, et autres
Publié: (2024)

Personalized Learning Path Planning with Goal-Driven Learner State Modeling
par: Lim, Joy Jia Yin, et autres
Publié: (2025)

Plan-Grounded Large Language Models for Dual Goal Conversational Settings
par: Glória-Silva, Diogo, et autres
Publié: (2024)

Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs
par: Wang, Qibin, et autres
Publié: (2025)

Stitching Sub-Trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL
par: Kim, Sungyoon, et autres
Publié: (2024)

Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration
par: He, Bowei, et autres
Publié: (2026)

Chain-of-Goals Hierarchical Policy for Long-Horizon Offline Goal-Conditioned RL
par: Choi, Jinwoo, et autres
Publié: (2026)

Grammar and Gameplay-aligned RL for Game Description Generation with LLMs
par: Tanaka, Tsunehiko, et autres
Publié: (2025)

Unlocking Recursive Thinking of LLMs: Alignment via Refinement
par: Zhang, Haoke, et autres
Publié: (2025)

Self-Challenging Language Model Agents
par: Zhou, Yifei, et autres
Publié: (2025)

Goal-Directed Search Outperforms Goal-Agnostic Memory Compression in Long-Context Memory Tasks
par: Zheng, Yicong, et autres
Publié: (2025)

Tailored Conversations beyond LLMs: A RL-Based Dialogue Manager
par: Galland, Lucie, et autres
Publié: (2025)

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
par: Wang, Tianle, et autres
Publié: (2026)