Salvato in:
| Autori principali: | Takahashi, Tatsuki, Maru, Chihiro, Shoji, Hiroko |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2502.08993 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Off-Policy Evaluation of Ranking Policies via Embedding-Space User Behavior Modeling
di: Takahashi, Tatsuki, et al.
Pubblicazione: (2025)
di: Takahashi, Tatsuki, et al.
Pubblicazione: (2025)
RATFM: Retrieval-augmented Time Series Foundation Model for Anomaly Detection
di: Maru, Chihiro, et al.
Pubblicazione: (2025)
di: Maru, Chihiro, et al.
Pubblicazione: (2025)
Off-Policy Evaluation Under Nonignorable Missing Data
di: Wang, Han, et al.
Pubblicazione: (2025)
di: Wang, Han, et al.
Pubblicazione: (2025)
Off-Policy Evaluation and Learning for Survival Outcomes under Censoring
di: Kubota, Kohsuke, et al.
Pubblicazione: (2026)
di: Kubota, Kohsuke, et al.
Pubblicazione: (2026)
Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation
di: Chaudhari, Shreyas, et al.
Pubblicazione: (2024)
di: Chaudhari, Shreyas, et al.
Pubblicazione: (2024)
Doubly Calibrated Estimator for Recommendation on Data Missing Not At Random
di: Kweon, Wonbin, et al.
Pubblicazione: (2024)
di: Kweon, Wonbin, et al.
Pubblicazione: (2024)
Coherent Off-Policy Improvement of Large Behavior Models with Learned Rewards
di: Scherer, Christian, et al.
Pubblicazione: (2026)
di: Scherer, Christian, et al.
Pubblicazione: (2026)
On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-$n$ Recommendation
di: Jeunen, Olivier, et al.
Pubblicazione: (2023)
di: Jeunen, Olivier, et al.
Pubblicazione: (2023)
Cross-Validated Off-Policy Evaluation
di: Cief, Matej, et al.
Pubblicazione: (2024)
di: Cief, Matej, et al.
Pubblicazione: (2024)
When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective
di: Sun, Hao, et al.
Pubblicazione: (2023)
di: Sun, Hao, et al.
Pubblicazione: (2023)
Off-Policy Evaluation for Ranking Policies under Deterministic Logging Policies
di: Tanaka, Koichi, et al.
Pubblicazione: (2026)
di: Tanaka, Koichi, et al.
Pubblicazione: (2026)
Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy
di: Lee, Kyungbok, et al.
Pubblicazione: (2024)
di: Lee, Kyungbok, et al.
Pubblicazione: (2024)
Long-term Off-Policy Evaluation and Learning
di: Saito, Yuta, et al.
Pubblicazione: (2024)
di: Saito, Yuta, et al.
Pubblicazione: (2024)
A Graph-Enhanced Deep-Reinforcement Learning Framework for the Aircraft Landing Problem
di: Maru, Vatsal
Pubblicazione: (2025)
di: Maru, Vatsal
Pubblicazione: (2025)
Clustering Context in Off-Policy Evaluation
di: Guzman-Olivares, Daniel, et al.
Pubblicazione: (2025)
di: Guzman-Olivares, Daniel, et al.
Pubblicazione: (2025)
Concept-driven Off Policy Evaluation
di: Majumdar, Ritam, et al.
Pubblicazione: (2024)
di: Majumdar, Ritam, et al.
Pubblicazione: (2024)
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction
di: Kiyohara, Haruka, et al.
Pubblicazione: (2024)
di: Kiyohara, Haruka, et al.
Pubblicazione: (2024)
Off-Policy Evaluation from Logged Human Feedback
di: Bhargava, Aniruddha, et al.
Pubblicazione: (2024)
di: Bhargava, Aniruddha, et al.
Pubblicazione: (2024)
RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning
di: Hisaki, Yukinari, et al.
Pubblicazione: (2024)
di: Hisaki, Yukinari, et al.
Pubblicazione: (2024)
Off-Policy Evaluation and Learning for Matching Markets
di: Hayashi, Yudai, et al.
Pubblicazione: (2025)
di: Hayashi, Yudai, et al.
Pubblicazione: (2025)
Learning Action Embeddings for Off-Policy Evaluation
di: Cief, Matej, et al.
Pubblicazione: (2023)
di: Cief, Matej, et al.
Pubblicazione: (2023)
Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation
di: Jiang, Jie, et al.
Pubblicazione: (2026)
di: Jiang, Jie, et al.
Pubblicazione: (2026)
Off-Policy Reinforcement Learning with High Dimensional Reward
di: Lee, Dong Neuck, et al.
Pubblicazione: (2024)
di: Lee, Dong Neuck, et al.
Pubblicazione: (2024)
Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction
di: Guan, Zhong, et al.
Pubblicazione: (2026)
di: Guan, Zhong, et al.
Pubblicazione: (2026)
Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback
di: Ackermann, Johannes, et al.
Pubblicazione: (2025)
di: Ackermann, Johannes, et al.
Pubblicazione: (2025)
Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning
di: Behnamnia, Armin, et al.
Pubblicazione: (2025)
di: Behnamnia, Armin, et al.
Pubblicazione: (2025)
Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection and Learning
di: Sakhi, Otmane, et al.
Pubblicazione: (2024)
di: Sakhi, Otmane, et al.
Pubblicazione: (2024)
CANDOR: Counterfactual ANnotated DOubly Robust Off-Policy Evaluation
di: Mandyam, Aishwarya, et al.
Pubblicazione: (2024)
di: Mandyam, Aishwarya, et al.
Pubblicazione: (2024)
Missing Pattern Recognized Diffusion Imputation Model for Missing Not At Random
di: Sim, Gyuwon, et al.
Pubblicazione: (2026)
di: Sim, Gyuwon, et al.
Pubblicazione: (2026)
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
di: He, Haoran, et al.
Pubblicazione: (2025)
di: He, Haoran, et al.
Pubblicazione: (2025)
IntOPE: Off-Policy Evaluation in the Presence of Interference
di: Bai, Yuqi, et al.
Pubblicazione: (2024)
di: Bai, Yuqi, et al.
Pubblicazione: (2024)
Data Poisoning Attacks on Off-Policy Policy Evaluation Methods
di: Lobo, Elita, et al.
Pubblicazione: (2024)
di: Lobo, Elita, et al.
Pubblicazione: (2024)
Distributional Off-Policy Evaluation with Deep Quantile Process Regression
di: Kuang, Qi, et al.
Pubblicazione: (2026)
di: Kuang, Qi, et al.
Pubblicazione: (2026)
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies
di: Lee, Haanvid, et al.
Pubblicazione: (2024)
di: Lee, Haanvid, et al.
Pubblicazione: (2024)
Context-Action Embedding Learning for Off-Policy Evaluation in Contextual Bandits
di: Chandak, Kushagra, et al.
Pubblicazione: (2025)
di: Chandak, Kushagra, et al.
Pubblicazione: (2025)
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects
di: Tamano, Shu
Pubblicazione: (2025)
di: Tamano, Shu
Pubblicazione: (2025)
From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation
di: Zhu, Rong J. B.
Pubblicazione: (2026)
di: Zhu, Rong J. B.
Pubblicazione: (2026)
Off-Policy Evaluation Using Information Borrowing and Context-Based Switching
di: Dasgupta, Sutanoy, et al.
Pubblicazione: (2021)
di: Dasgupta, Sutanoy, et al.
Pubblicazione: (2021)
Off-Policy Evaluation and Learning for the Future under Non-Stationarity
di: Shimizu, Tatsuhiro, et al.
Pubblicazione: (2025)
di: Shimizu, Tatsuhiro, et al.
Pubblicazione: (2025)
Robustness of Refugee-Matching Gains to Off-Policy Evaluation Choices
di: Bansak, Kirk, et al.
Pubblicazione: (2026)
di: Bansak, Kirk, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Off-Policy Evaluation of Ranking Policies via Embedding-Space User Behavior Modeling
di: Takahashi, Tatsuki, et al.
Pubblicazione: (2025) -
RATFM: Retrieval-augmented Time Series Foundation Model for Anomaly Detection
di: Maru, Chihiro, et al.
Pubblicazione: (2025) -
Off-Policy Evaluation Under Nonignorable Missing Data
di: Wang, Han, et al.
Pubblicazione: (2025) -
Off-Policy Evaluation and Learning for Survival Outcomes under Censoring
di: Kubota, Kohsuke, et al.
Pubblicazione: (2026) -
Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation
di: Chaudhari, Shreyas, et al.
Pubblicazione: (2024)