Guardado en:
| Autores principales: | Zhu, Zheqing, Braz, Rodrigo de Salvo, Bhandari, Jalaj, Jiang, Daniel, Wan, Yi, Efroni, Yonathan, Wang, Liyuan, Xu, Ruiyang, Guo, Hongbo, Nikulkov, Alex, Korenkevych, Dmytro, Dogan, Urun, Cheng, Frank, Wu, Zheng, Xu, Wanqiao |
|---|---|
| Formato: | Preprint |
| Publicado: |
2023
|
| Materias: | |
| Acceso en línea: | https://arxiv.org/abs/2312.03814 |
| Etiquetas: |
Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
|
Ejemplares similares
An Empirical Study of Deep Reinforcement Learning in Continuing Tasks
por: Wan, Yi, et al.
Publicado: (2025)
por: Wan, Yi, et al.
Publicado: (2025)
Aligned Multi Objective Optimization
por: Efroni, Yonathan, et al.
Publicado: (2025)
por: Efroni, Yonathan, et al.
Publicado: (2025)
Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank
por: Zhan, Wenhao, et al.
Publicado: (2024)
por: Zhan, Wenhao, et al.
Publicado: (2024)
Improving Generative Ad Text on Facebook using Reinforcement Learning
por: Jiang, Daniel R., et al.
Publicado: (2025)
por: Jiang, Daniel R., et al.
Publicado: (2025)
Gradient Free Deep Reinforcement Learning With TabPFN
por: Schiff, David, et al.
Publicado: (2025)
por: Schiff, David, et al.
Publicado: (2025)
Reward Models Are Secretly Value Functions: Temporally Coherent Reward Modeling
por: Nikulkov, Alex
Publicado: (2026)
por: Nikulkov, Alex
Publicado: (2026)
IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive Control
por: Chitnis, Rohan, et al.
Publicado: (2023)
por: Chitnis, Rohan, et al.
Publicado: (2023)
Credit Assignment with Resets in Language Model Reasoning
por: Samanta, Ankur, et al.
Publicado: (2026)
por: Samanta, Ankur, et al.
Publicado: (2026)
Simple Optimizers for Convex Aligned Multi-Objective Optimization
por: Kretzu, Ben, et al.
Publicado: (2025)
por: Kretzu, Ben, et al.
Publicado: (2025)
Structure Enables Effective Self-Localization of Errors in LLMs
por: Samanta, Ankur, et al.
Publicado: (2026)
por: Samanta, Ankur, et al.
Publicado: (2026)
RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation
por: Kwon, Jeongyeol, et al.
Publicado: (2024)
por: Kwon, Jeongyeol, et al.
Publicado: (2024)
The Bias of Harmful Label Associations in Vision-Language Models
por: Hazirbas, Caner, et al.
Publicado: (2024)
por: Hazirbas, Caner, et al.
Publicado: (2024)
Uncertainty of Joint Neural Contextual Bandit
por: Guo, Hongbo, et al.
Publicado: (2024)
por: Guo, Hongbo, et al.
Publicado: (2024)
Generalizing Multi-Step Inverse Models for Representation Learning to Finite-Memory POMDPs
por: Wu, Lili, et al.
Publicado: (2024)
por: Wu, Lili, et al.
Publicado: (2024)
Value bounds and Convergence Analysis for Averages of LRP attributions
por: Binder, Alexander, et al.
Publicado: (2025)
por: Binder, Alexander, et al.
Publicado: (2025)
Hack-Verifiable Environments: Towards Evaluating Reward Hacking at Scale
por: Roth, Amit, et al.
Publicado: (2026)
por: Roth, Amit, et al.
Publicado: (2026)
Investigating and Extending Homans' Social Exchange Theory with Large Language Model based Agents
por: Wang, Lei, et al.
Publicado: (2025)
por: Wang, Lei, et al.
Publicado: (2025)
Rethinking the Design of Reinforcement Learning-Based Deep Research Agents
por: Wan, Yi, et al.
Publicado: (2025)
por: Wan, Yi, et al.
Publicado: (2025)
Implementation of Object-Oriented Design Patterns in Scalable Smart City Architectures
por: Ürün, Efe
Publicado: (2026)
por: Ürün, Efe
Publicado: (2026)
Time After Time: Deep-Q Effect Estimation for Interventions on When and What to do
por: Wald, Yoav, et al.
Publicado: (2025)
por: Wald, Yoav, et al.
Publicado: (2025)
Self-Improvement of Language Models by Post-Training on Multi-Agent Debate
por: Samanta, Ankur, et al.
Publicado: (2025)
por: Samanta, Ankur, et al.
Publicado: (2025)
Posterior Sampling for Continuing Environments
por: Xu, Wanqiao, et al.
Publicado: (2022)
por: Xu, Wanqiao, et al.
Publicado: (2022)
Exploration Unbound
por: Arumugam, Dilip, et al.
Publicado: (2024)
por: Arumugam, Dilip, et al.
Publicado: (2024)
Aligning LLMs Toward Multi-Turn Conversational Outcomes Using Iterative PPO
por: Jiang, Daniel R., et al.
Publicado: (2025)
por: Jiang, Daniel R., et al.
Publicado: (2025)
Hierarchical Reinforcement Learning for Optimal Agent Grouping in Cooperative Systems
por: Hu, Liyuan
Publicado: (2025)
por: Hu, Liyuan
Publicado: (2025)
Particle swarm optimization for online sparse streaming feature selection under uncertainty
por: Xu, Ruiyang
Publicado: (2025)
por: Xu, Ruiyang
Publicado: (2025)
Online Sparse Feature Selection in Data Streams via Differential Evolution
por: Xu, Ruiyang
Publicado: (2025)
por: Xu, Ruiyang
Publicado: (2025)
Frequency-Division Phase Random Optimization for High-Speed Arbitrary Optical Intensity Waveform Monitoring Using Opto-Electronic Finite Impulse Response Filters
por: Sun, Zheqing, et al.
Publicado: (2025)
por: Sun, Zheqing, et al.
Publicado: (2025)
PcLast: Discovering Plannable Continuous Latent States
por: Koul, Anurag, et al.
Publicado: (2023)
por: Koul, Anurag, et al.
Publicado: (2023)
TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents
por: Kuzmenko, Dmytro, et al.
Publicado: (2025)
por: Kuzmenko, Dmytro, et al.
Publicado: (2025)
Knowledge Transfer in Model-Based Reinforcement Learning Agents for Efficient Multi-Task Learning
por: Kuzmenko, Dmytro, et al.
Publicado: (2025)
por: Kuzmenko, Dmytro, et al.
Publicado: (2025)
Imbalanced Gradients in RL Post-Training of Multi-Task LLMs
por: Wu, Runzhe, et al.
Publicado: (2025)
por: Wu, Runzhe, et al.
Publicado: (2025)
Improved Differentially Private Continual Observation Using Group Algebra
por: Henzinger, Monika, et al.
Publicado: (2024)
por: Henzinger, Monika, et al.
Publicado: (2024)
Insights and Limitations in Evaluating Testosterone Recovery With LHRH Antagonists and Agonists
por: Satı Coşkun Yazgan, et al.
Publicado: (2026)
por: Satı Coşkun Yazgan, et al.
Publicado: (2026)
How to Count AIs: Individuation and Liability for AI Agents
por: Arbel, Yonathan, et al.
Publicado: (2026)
por: Arbel, Yonathan, et al.
Publicado: (2026)
Espectroscopía de las interacciones de drogas quinolínicas antimaláricas con Fe(III)PPIX
por: Yonathan Parra
Publicado: (2011)
por: Yonathan Parra
Publicado: (2011)
Knowing to infinity: Full knowledge and the margin‐for‐error principle
por: Yonathan Fiat
Publicado: (2025)
por: Yonathan Fiat
Publicado: (2025)
Response to Bourke and Douglas
por: Yonathan Freund
Publicado: (2024)
por: Yonathan Freund
Publicado: (2024)
Jean-Luc Nancy’s notion of singularity
por: Yonathan Listik
Publicado: (2019)
por: Yonathan Listik
Publicado: (2019)
Perspectivas sociológicas sobre la educación virtual a distancia en Venezuela. ¿Una solución o un nuevo problema social para el acceso a la educación superior?
por: Yonathan Parra
Publicado: (2009)
por: Yonathan Parra
Publicado: (2009)
Ejemplares similares
-
An Empirical Study of Deep Reinforcement Learning in Continuing Tasks
por: Wan, Yi, et al.
Publicado: (2025) -
Aligned Multi Objective Optimization
por: Efroni, Yonathan, et al.
Publicado: (2025) -
Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank
por: Zhan, Wenhao, et al.
Publicado: (2024) -
Improving Generative Ad Text on Facebook using Reinforcement Learning
por: Jiang, Daniel R., et al.
Publicado: (2025) -
Gradient Free Deep Reinforcement Learning With TabPFN
por: Schiff, David, et al.
Publicado: (2025)