Uloženo v:
| Hlavní autoři: | Liu, Pai, Zhao, Lingfeng, Agarwal, Shivangi, Liu, Jinghan, Huang, Audrey, Amortila, Philip, Jiang, Nan |
|---|---|
| Médium: | Preprint |
| Vydáno: |
2025
|
| Témata: | |
| On-line přístup: | https://arxiv.org/abs/2502.08021 |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
Podobné jednotky
A Unifying View of Coverage in Linear Off-Policy Evaluation
Autor: Amortila, Philip, a další
Vydáno: (2026)
Autor: Amortila, Philip, a další
Vydáno: (2026)
Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity
Autor: Amortila, Philip, a další
Vydáno: (2024)
Autor: Amortila, Philip, a další
Vydáno: (2024)
Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPs
Autor: Zhang, Yuheng, a další
Vydáno: (2025)
Autor: Zhang, Yuheng, a další
Vydáno: (2025)
On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation
Autor: Zhang, Yuheng, a další
Vydáno: (2024)
Autor: Zhang, Yuheng, a další
Vydáno: (2024)
Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration
Autor: Wang, Yibo, a další
Vydáno: (2024)
Autor: Wang, Yibo, a další
Vydáno: (2024)
Low Variance Off-policy Evaluation with State-based Importance Sampling
Autor: Bossens, David M., a další
Vydáno: (2022)
Autor: Bossens, David M., a další
Vydáno: (2022)
Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching
Autor: Li, Xiang, a další
Vydáno: (2026)
Autor: Li, Xiang, a další
Vydáno: (2026)
Bootstrap Off-policy with World Model
Autor: Zhan, Guojian, a další
Vydáno: (2025)
Autor: Zhan, Guojian, a další
Vydáno: (2025)
ExO-PPO: an Extended Off-policy Proximal Policy Optimization Algorithm
Autor: Wang, Hanyong, a další
Vydáno: (2026)
Autor: Wang, Hanyong, a další
Vydáno: (2026)
Beyond the Parameters: A Technical Survey of Contextual Enrichment in Large Language Models: From In-Context Prompting to Causal Retrieval-Augmented Generation
Autor: Bansal, Prakhar, a další
Vydáno: (2026)
Autor: Bansal, Prakhar, a další
Vydáno: (2026)
Primal-Dual Spectral Representation for Off-policy Evaluation
Autor: Hu, Yang, a další
Vydáno: (2024)
Autor: Hu, Yang, a další
Vydáno: (2024)
Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment
Autor: Huang, Audrey, a další
Vydáno: (2025)
Autor: Huang, Audrey, a další
Vydáno: (2025)
Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences
Autor: Dai, Runpeng, a další
Vydáno: (2024)
Autor: Dai, Runpeng, a další
Vydáno: (2024)
Adapting Critic Match Loss Landscape Visualization to Off-policy Reinforcement Learning
Autor: Liu, Jingyi, a další
Vydáno: (2026)
Autor: Liu, Jingyi, a další
Vydáno: (2026)
Selecting Belief-State Approximations in Simulators with Latent States
Autor: Jiang, Nan
Vydáno: (2025)
Autor: Jiang, Nan
Vydáno: (2025)
Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model
Autor: Liang, Jing, a další
Vydáno: (2025)
Autor: Liang, Jing, a další
Vydáno: (2025)
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models
Autor: Noukhovitch, Michael, a další
Vydáno: (2024)
Autor: Noukhovitch, Michael, a další
Vydáno: (2024)
Off-Policy Selection for Initiating Human-Centric Experimental Design
Autor: Gao, Ge, a další
Vydáno: (2024)
Autor: Gao, Ge, a další
Vydáno: (2024)
Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees
Autor: Jiang, Nan, a další
Vydáno: (2025)
Autor: Jiang, Nan, a další
Vydáno: (2025)
Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach
Autor: Chen, Jiazheng, a další
Vydáno: (2025)
Autor: Chen, Jiazheng, a další
Vydáno: (2025)
MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model Effectiveness and Efficiency
Autor: Liu, Xiaoyun, a další
Vydáno: (2023)
Autor: Liu, Xiaoyun, a další
Vydáno: (2023)
Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation
Autor: Chaudhari, Shreyas, a další
Vydáno: (2024)
Autor: Chaudhari, Shreyas, a další
Vydáno: (2024)
Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning
Autor: Huang, Bingning, a další
Vydáno: (2025)
Autor: Huang, Bingning, a další
Vydáno: (2025)
Pluralistic Off-policy Evaluation and Alignment
Autor: Huang, Chengkai, a další
Vydáno: (2025)
Autor: Huang, Chengkai, a další
Vydáno: (2025)
Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation
Autor: Che, Fengdi, a další
Vydáno: (2024)
Autor: Che, Fengdi, a další
Vydáno: (2024)
MSEval: A Dataset for Material Selection in Conceptual Design to Evaluate Algorithmic Models
Autor: Jain, Yash Patawari, a další
Vydáno: (2024)
Autor: Jain, Yash Patawari, a další
Vydáno: (2024)
Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts
Autor: Heuillet, Maxime, a další
Vydáno: (2025)
Autor: Heuillet, Maxime, a další
Vydáno: (2025)
A Note on Loss Functions and Error Compounding in Model-based Reinforcement Learning
Autor: Jiang, Nan
Vydáno: (2024)
Autor: Jiang, Nan
Vydáno: (2024)
A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning
Autor: Patterson, Andrew, a další
Vydáno: (2021)
Autor: Patterson, Andrew, a další
Vydáno: (2021)
Clustering Context in Off-Policy Evaluation
Autor: Guzman-Olivares, Daniel, a další
Vydáno: (2025)
Autor: Guzman-Olivares, Daniel, a další
Vydáno: (2025)
Concept-driven Off Policy Evaluation
Autor: Majumdar, Ritam, a další
Vydáno: (2024)
Autor: Majumdar, Ritam, a další
Vydáno: (2024)
Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities
Autor: Xie, Ziwen, a další
Vydáno: (2026)
Autor: Xie, Ziwen, a další
Vydáno: (2026)
GE2E-KWS: Generalized End-to-End Training and Evaluation for Zero-shot Keyword Spotting
Autor: Zhu, Pai, a další
Vydáno: (2024)
Autor: Zhu, Pai, a další
Vydáno: (2024)
Learning Action Embeddings for Off-Policy Evaluation
Autor: Cief, Matej, a další
Vydáno: (2023)
Autor: Cief, Matej, a další
Vydáno: (2023)
Automated Off-Policy Estimator Selection via Supervised Learning
Autor: Felicioni, Nicolò, a další
Vydáno: (2024)
Autor: Felicioni, Nicolò, a další
Vydáno: (2024)
MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning
Autor: Guo, Yihong, a další
Vydáno: (2025)
Autor: Guo, Yihong, a další
Vydáno: (2025)
SIMU: Selective Influence Machine Unlearning
Autor: Agarwal, Anu, a další
Vydáno: (2025)
Autor: Agarwal, Anu, a další
Vydáno: (2025)
Evaluating Supervised Machine Learning Models: Principles, Pitfalls, and Metric Selection
Autor: Liu, Xuanyan, a další
Vydáno: (2026)
Autor: Liu, Xuanyan, a další
Vydáno: (2026)
Diversity-oriented Data Augmentation with Large Language Models
Autor: Wang, Zaitian, a další
Vydáno: (2025)
Autor: Wang, Zaitian, a další
Vydáno: (2025)
One Token Embedding Is Enough to Deadlock Your Large Reasoning Model
Autor: Zhang, Mohan, a další
Vydáno: (2025)
Autor: Zhang, Mohan, a další
Vydáno: (2025)
Podobné jednotky
-
A Unifying View of Coverage in Linear Off-Policy Evaluation
Autor: Amortila, Philip, a další
Vydáno: (2026) -
Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity
Autor: Amortila, Philip, a další
Vydáno: (2024) -
Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPs
Autor: Zhang, Yuheng, a další
Vydáno: (2025) -
On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation
Autor: Zhang, Yuheng, a další
Vydáno: (2024) -
Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration
Autor: Wang, Yibo, a další
Vydáno: (2024)