:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Takahashi, Tatsuki, Maru, Chihiro, Shoji, Hiroko
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Machine Learning
Accesso online:	https://arxiv.org/abs/2502.08993
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Off-Policy Evaluation of Ranking Policies via Embedding-Space User Behavior Modeling
di: Takahashi, Tatsuki, et al.
Pubblicazione: (2025)

RATFM: Retrieval-augmented Time Series Foundation Model for Anomaly Detection
di: Maru, Chihiro, et al.
Pubblicazione: (2025)

Off-Policy Evaluation Under Nonignorable Missing Data
di: Wang, Han, et al.
Pubblicazione: (2025)

Off-Policy Evaluation and Learning for Survival Outcomes under Censoring
di: Kubota, Kohsuke, et al.
Pubblicazione: (2026)

Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation
di: Chaudhari, Shreyas, et al.
Pubblicazione: (2024)

Doubly Calibrated Estimator for Recommendation on Data Missing Not At Random
di: Kweon, Wonbin, et al.
Pubblicazione: (2024)

Coherent Off-Policy Improvement of Large Behavior Models with Learned Rewards
di: Scherer, Christian, et al.
Pubblicazione: (2026)

On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-$n$ Recommendation
di: Jeunen, Olivier, et al.
Pubblicazione: (2023)

Cross-Validated Off-Policy Evaluation
di: Cief, Matej, et al.
Pubblicazione: (2024)

When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective
di: Sun, Hao, et al.
Pubblicazione: (2023)

Off-Policy Evaluation for Ranking Policies under Deterministic Logging Policies
di: Tanaka, Koichi, et al.
Pubblicazione: (2026)

Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy
di: Lee, Kyungbok, et al.
Pubblicazione: (2024)

Long-term Off-Policy Evaluation and Learning
di: Saito, Yuta, et al.
Pubblicazione: (2024)

A Graph-Enhanced Deep-Reinforcement Learning Framework for the Aircraft Landing Problem
di: Maru, Vatsal
Pubblicazione: (2025)

Clustering Context in Off-Policy Evaluation
di: Guzman-Olivares, Daniel, et al.
Pubblicazione: (2025)

Concept-driven Off Policy Evaluation
di: Majumdar, Ritam, et al.
Pubblicazione: (2024)

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction
di: Kiyohara, Haruka, et al.
Pubblicazione: (2024)

Off-Policy Evaluation from Logged Human Feedback
di: Bhargava, Aniruddha, et al.
Pubblicazione: (2024)

RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning
di: Hisaki, Yukinari, et al.
Pubblicazione: (2024)

Off-Policy Evaluation and Learning for Matching Markets
di: Hayashi, Yudai, et al.
Pubblicazione: (2025)

Learning Action Embeddings for Off-Policy Evaluation
di: Cief, Matej, et al.
Pubblicazione: (2023)

Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation
di: Jiang, Jie, et al.
Pubblicazione: (2026)

Off-Policy Reinforcement Learning with High Dimensional Reward
di: Lee, Dong Neuck, et al.
Pubblicazione: (2024)

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction
di: Guan, Zhong, et al.
Pubblicazione: (2026)

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback
di: Ackermann, Johannes, et al.
Pubblicazione: (2025)

Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning
di: Behnamnia, Armin, et al.
Pubblicazione: (2025)

Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection and Learning
di: Sakhi, Otmane, et al.
Pubblicazione: (2024)

CANDOR: Counterfactual ANnotated DOubly Robust Off-Policy Evaluation
di: Mandyam, Aishwarya, et al.
Pubblicazione: (2024)

Missing Pattern Recognized Diffusion Imputation Model for Missing Not At Random
di: Sim, Gyuwon, et al.
Pubblicazione: (2026)

Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
di: He, Haoran, et al.
Pubblicazione: (2025)

IntOPE: Off-Policy Evaluation in the Presence of Interference
di: Bai, Yuqi, et al.
Pubblicazione: (2024)

Data Poisoning Attacks on Off-Policy Policy Evaluation Methods
di: Lobo, Elita, et al.
Pubblicazione: (2024)

Distributional Off-Policy Evaluation with Deep Quantile Process Regression
di: Kuang, Qi, et al.
Pubblicazione: (2026)

Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies
di: Lee, Haanvid, et al.
Pubblicazione: (2024)

Context-Action Embedding Learning for Off-Policy Evaluation in Contextual Bandits
di: Chandak, Kushagra, et al.
Pubblicazione: (2025)

DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects
di: Tamano, Shu
Pubblicazione: (2025)

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation
di: Zhu, Rong J. B.
Pubblicazione: (2026)

Off-Policy Evaluation Using Information Borrowing and Context-Based Switching
di: Dasgupta, Sutanoy, et al.
Pubblicazione: (2021)

Off-Policy Evaluation and Learning for the Future under Non-Stationarity
di: Shimizu, Tatsuhiro, et al.
Pubblicazione: (2025)

Robustness of Refugee-Matching Gains to Off-Policy Evaluation Choices
di: Bansak, Kirk, et al.
Pubblicazione: (2026)