:: Library Catalog

Obálka

Uloženo v:

Podrobná bibliografie
Hlavní autoři:	Liu, Pai, Zhao, Lingfeng, Agarwal, Shivangi, Liu, Jinghan, Huang, Audrey, Amortila, Philip, Jiang, Nan
Médium:	Preprint
Vydáno:	2025
Témata:	Machine Learning Artificial Intelligence
On-line přístup:	https://arxiv.org/abs/2502.08021
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!

Podobné jednotky

A Unifying View of Coverage in Linear Off-Policy Evaluation
Autor: Amortila, Philip, a další
Vydáno: (2026)

Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity
Autor: Amortila, Philip, a další
Vydáno: (2024)

Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPs
Autor: Zhang, Yuheng, a další
Vydáno: (2025)

On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation
Autor: Zhang, Yuheng, a další
Vydáno: (2024)

Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration
Autor: Wang, Yibo, a další
Vydáno: (2024)

Low Variance Off-policy Evaluation with State-based Importance Sampling
Autor: Bossens, David M., a další
Vydáno: (2022)

Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching
Autor: Li, Xiang, a další
Vydáno: (2026)

Bootstrap Off-policy with World Model
Autor: Zhan, Guojian, a další
Vydáno: (2025)

ExO-PPO: an Extended Off-policy Proximal Policy Optimization Algorithm
Autor: Wang, Hanyong, a další
Vydáno: (2026)

Beyond the Parameters: A Technical Survey of Contextual Enrichment in Large Language Models: From In-Context Prompting to Causal Retrieval-Augmented Generation
Autor: Bansal, Prakhar, a další
Vydáno: (2026)

Primal-Dual Spectral Representation for Off-policy Evaluation
Autor: Hu, Yang, a další
Vydáno: (2024)

Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment
Autor: Huang, Audrey, a další
Vydáno: (2025)

Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences
Autor: Dai, Runpeng, a další
Vydáno: (2024)

Adapting Critic Match Loss Landscape Visualization to Off-policy Reinforcement Learning
Autor: Liu, Jingyi, a další
Vydáno: (2026)

Selecting Belief-State Approximations in Simulators with Latent States
Autor: Jiang, Nan
Vydáno: (2025)

Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model
Autor: Liang, Jing, a další
Vydáno: (2025)

Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models
Autor: Noukhovitch, Michael, a další
Vydáno: (2024)

Off-Policy Selection for Initiating Human-Centric Experimental Design
Autor: Gao, Ge, a další
Vydáno: (2024)

Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees
Autor: Jiang, Nan, a další
Vydáno: (2025)

Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach
Autor: Chen, Jiazheng, a další
Vydáno: (2025)

MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model Effectiveness and Efficiency
Autor: Liu, Xiaoyun, a další
Vydáno: (2023)

Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation
Autor: Chaudhari, Shreyas, a další
Vydáno: (2024)

Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning
Autor: Huang, Bingning, a další
Vydáno: (2025)

Pluralistic Off-policy Evaluation and Alignment
Autor: Huang, Chengkai, a další
Vydáno: (2025)

Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation
Autor: Che, Fengdi, a další
Vydáno: (2024)

MSEval: A Dataset for Material Selection in Conceptual Design to Evaluate Algorithmic Models
Autor: Jain, Yash Patawari, a další
Vydáno: (2024)

Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts
Autor: Heuillet, Maxime, a další
Vydáno: (2025)

A Note on Loss Functions and Error Compounding in Model-based Reinforcement Learning
Autor: Jiang, Nan
Vydáno: (2024)

A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning
Autor: Patterson, Andrew, a další
Vydáno: (2021)

Clustering Context in Off-Policy Evaluation
Autor: Guzman-Olivares, Daniel, a další
Vydáno: (2025)

Concept-driven Off Policy Evaluation
Autor: Majumdar, Ritam, a další
Vydáno: (2024)

Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities
Autor: Xie, Ziwen, a další
Vydáno: (2026)

GE2E-KWS: Generalized End-to-End Training and Evaluation for Zero-shot Keyword Spotting
Autor: Zhu, Pai, a další
Vydáno: (2024)

Learning Action Embeddings for Off-Policy Evaluation
Autor: Cief, Matej, a další
Vydáno: (2023)

Automated Off-Policy Estimator Selection via Supervised Learning
Autor: Felicioni, Nicolò, a další
Vydáno: (2024)

MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning
Autor: Guo, Yihong, a další
Vydáno: (2025)

SIMU: Selective Influence Machine Unlearning
Autor: Agarwal, Anu, a další
Vydáno: (2025)

Evaluating Supervised Machine Learning Models: Principles, Pitfalls, and Metric Selection
Autor: Liu, Xuanyan, a další
Vydáno: (2026)

Diversity-oriented Data Augmentation with Large Language Models
Autor: Wang, Zaitian, a další
Vydáno: (2025)

One Token Embedding Is Enough to Deadlock Your Large Reasoning Model
Autor: Zhang, Mohan, a další
Vydáno: (2025)