:: Library Catalog

Imagen de Portada

Guardado en:

Detalles Bibliográficos
Autores principales:	Zhu, Zheqing, Braz, Rodrigo de Salvo, Bhandari, Jalaj, Jiang, Daniel, Wan, Yi, Efroni, Yonathan, Wang, Liyuan, Xu, Ruiyang, Guo, Hongbo, Nikulkov, Alex, Korenkevych, Dmytro, Dogan, Urun, Cheng, Frank, Wu, Zheng, Xu, Wanqiao
Formato:	Preprint
Publicado:	2023
Materias:	Machine Learning Artificial Intelligence
Acceso en línea:	https://arxiv.org/abs/2312.03814
Etiquetas:	Agregar Etiqueta Sin Etiquetas, Sea el primero en etiquetar este registro!

Ejemplares similares

An Empirical Study of Deep Reinforcement Learning in Continuing Tasks
por: Wan, Yi, et al.
Publicado: (2025)

Aligned Multi Objective Optimization
por: Efroni, Yonathan, et al.
Publicado: (2025)

Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank
por: Zhan, Wenhao, et al.
Publicado: (2024)

Improving Generative Ad Text on Facebook using Reinforcement Learning
por: Jiang, Daniel R., et al.
Publicado: (2025)

Gradient Free Deep Reinforcement Learning With TabPFN
por: Schiff, David, et al.
Publicado: (2025)

Reward Models Are Secretly Value Functions: Temporally Coherent Reward Modeling
por: Nikulkov, Alex
Publicado: (2026)

IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive Control
por: Chitnis, Rohan, et al.
Publicado: (2023)

Credit Assignment with Resets in Language Model Reasoning
por: Samanta, Ankur, et al.
Publicado: (2026)

Simple Optimizers for Convex Aligned Multi-Objective Optimization
por: Kretzu, Ben, et al.
Publicado: (2025)

Structure Enables Effective Self-Localization of Errors in LLMs
por: Samanta, Ankur, et al.
Publicado: (2026)

RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation
por: Kwon, Jeongyeol, et al.
Publicado: (2024)

The Bias of Harmful Label Associations in Vision-Language Models
por: Hazirbas, Caner, et al.
Publicado: (2024)

Uncertainty of Joint Neural Contextual Bandit
por: Guo, Hongbo, et al.
Publicado: (2024)

Generalizing Multi-Step Inverse Models for Representation Learning to Finite-Memory POMDPs
por: Wu, Lili, et al.
Publicado: (2024)

Value bounds and Convergence Analysis for Averages of LRP attributions
por: Binder, Alexander, et al.
Publicado: (2025)

Hack-Verifiable Environments: Towards Evaluating Reward Hacking at Scale
por: Roth, Amit, et al.
Publicado: (2026)

Investigating and Extending Homans' Social Exchange Theory with Large Language Model based Agents
por: Wang, Lei, et al.
Publicado: (2025)

Rethinking the Design of Reinforcement Learning-Based Deep Research Agents
por: Wan, Yi, et al.
Publicado: (2025)

Implementation of Object-Oriented Design Patterns in Scalable Smart City Architectures
por: Ürün, Efe
Publicado: (2026)

Time After Time: Deep-Q Effect Estimation for Interventions on When and What to do
por: Wald, Yoav, et al.
Publicado: (2025)

Self-Improvement of Language Models by Post-Training on Multi-Agent Debate
por: Samanta, Ankur, et al.
Publicado: (2025)

Posterior Sampling for Continuing Environments
por: Xu, Wanqiao, et al.
Publicado: (2022)

Exploration Unbound
por: Arumugam, Dilip, et al.
Publicado: (2024)

Aligning LLMs Toward Multi-Turn Conversational Outcomes Using Iterative PPO
por: Jiang, Daniel R., et al.
Publicado: (2025)

Hierarchical Reinforcement Learning for Optimal Agent Grouping in Cooperative Systems
por: Hu, Liyuan
Publicado: (2025)

Particle swarm optimization for online sparse streaming feature selection under uncertainty
por: Xu, Ruiyang
Publicado: (2025)

Online Sparse Feature Selection in Data Streams via Differential Evolution
por: Xu, Ruiyang
Publicado: (2025)

Frequency-Division Phase Random Optimization for High-Speed Arbitrary Optical Intensity Waveform Monitoring Using Opto-Electronic Finite Impulse Response Filters
por: Sun, Zheqing, et al.
Publicado: (2025)

PcLast: Discovering Plannable Continuous Latent States
por: Koul, Anurag, et al.
Publicado: (2023)

TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents
por: Kuzmenko, Dmytro, et al.
Publicado: (2025)

Knowledge Transfer in Model-Based Reinforcement Learning Agents for Efficient Multi-Task Learning
por: Kuzmenko, Dmytro, et al.
Publicado: (2025)

Imbalanced Gradients in RL Post-Training of Multi-Task LLMs
por: Wu, Runzhe, et al.
Publicado: (2025)

Improved Differentially Private Continual Observation Using Group Algebra
por: Henzinger, Monika, et al.
Publicado: (2024)

Insights and Limitations in Evaluating Testosterone Recovery With LHRH Antagonists and Agonists
por: Satı Coşkun Yazgan, et al.
Publicado: (2026)

How to Count AIs: Individuation and Liability for AI Agents
por: Arbel, Yonathan, et al.
Publicado: (2026)

Espectroscopía de las interacciones de drogas quinolínicas antimaláricas con Fe(III)PPIX
por: Yonathan Parra
Publicado: (2011)

Knowing to infinity: Full knowledge and the margin‐for‐error principle
por: Yonathan Fiat
Publicado: (2025)

Response to Bourke and Douglas
por: Yonathan Freund
Publicado: (2024)

Jean-Luc Nancy’s notion of singularity
por: Yonathan Listik
Publicado: (2019)

Perspectivas sociológicas sobre la educación virtual a distancia en Venezuela. ¿Una solución o un nuevo problema social para el acceso a la educación superior?
por: Yonathan Parra
Publicado: (2009)