:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Shida, Haruhi, Imai, Koo, Kansa, Keigo
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Machine Learning Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2604.02652
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX
di: Nishimori, Soichiro, et al.
Pubblicazione: (2026)

Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement Learning
di: Koyamada, Sotetsu, et al.
Pubblicazione: (2023)

Learning Relational Tabular Data without Shared Features
di: Wu, Zhaomin, et al.
Pubblicazione: (2025)

LongSSM: On the Length Extension of State-space Models in Language Modelling
di: Wang, Shida
Pubblicazione: (2024)

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
di: Zhou, Weichao, et al.
Pubblicazione: (2024)

Imagination-Limited Q-Learning for Offline Reinforcement Learning
di: Liu, Wenhui, et al.
Pubblicazione: (2025)

Vision-Based Generic Potential Function for Policy Alignment in Multi-Agent Reinforcement Learning
di: Ma, Hao, et al.
Pubblicazione: (2025)

Time Series Clustering with General State Space Models via Stochastic Variational Inference
di: Ishizuka, Ryoichi, et al.
Pubblicazione: (2024)

The Interpretability of Codebooks in Model-Based Reinforcement Learning is Limited
di: Eaton, Kenneth, et al.
Pubblicazione: (2024)

Multi-objective Reinforcement Learning: A Tool for Pluralistic Alignment
di: Vamplew, Peter, et al.
Pubblicazione: (2024)

Offline Regularised Reinforcement Learning for Large Language Models Alignment
di: Richemond, Pierre Harvey, et al.
Pubblicazione: (2024)

Overcoming Uncertain Incompleteness for Robust Multimodal Sequential Diagnosis Prediction via Curriculum Data Erasing Guided Knowledge Distillation
di: Koo, Heejoon
Pubblicazione: (2024)

LearnAlign: Data Selection for LLM Reinforcement Learning with Improved Gradient Alignment
di: Li, Shipeng, et al.
Pubblicazione: (2025)

StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization
di: Wang, Shida, et al.
Pubblicazione: (2023)

Inverse Approximation Theory for Nonlinear Recurrent Neural Networks
di: Wang, Shida, et al.
Pubblicazione: (2023)

Similarity as Reward Alignment: Robust and Versatile Preference-based Reinforcement Learning
di: Rajaram, Sara, et al.
Pubblicazione: (2025)

Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance
di: Jin, Luozhijie, et al.
Pubblicazione: (2025)

Pushing the Limits of Inverse Lithography with Generative Reinforcement Learning
di: Yang, Haoyu, et al.
Pubblicazione: (2026)

MixDPO: Modeling Preference Strength for Pluralistic Alignment
di: Imai, Saki, et al.
Pubblicazione: (2026)

Contextual Bilevel Reinforcement Learning for Incentive Alignment
di: Thoma, Vinzenz, et al.
Pubblicazione: (2024)

MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance
di: Nourzad, Narjes, et al.
Pubblicazione: (2026)

Horizon Generalization in Reinforcement Learning
di: Myers, Vivek, et al.
Pubblicazione: (2025)

Which Rewards Matter? Reward Selection for Reinforcement Learning under Limited Feedback
di: Chaudhari, Shreyas, et al.
Pubblicazione: (2025)

CombiMOTS: Combinatorial Multi-Objective Tree Search for Dual-Target Molecule Generation
di: Southiratn, Thibaud, et al.
Pubblicazione: (2026)

Lyapunov-Guided Self-Alignment: Test-Time Adaptation for Offline Safe Reinforcement Learning
di: Han, Seungyub, et al.
Pubblicazione: (2026)

Prediction of Sea Ice Velocity and Concentration in the Arctic Ocean using Physics-informed Neural Network
di: Koo, Younghyun, et al.
Pubblicazione: (2025)

Reinforcement Learning for Graph Coloring: Understanding the Power and Limits of Non-Label Invariant Representations
di: Cummins, Chase, et al.
Pubblicazione: (2024)

The Generalization Gap in Offline Reinforcement Learning
di: Mediratta, Ishita, et al.
Pubblicazione: (2023)

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment
di: Tan, Zhewen, et al.
Pubblicazione: (2026)

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective
di: Kong, Deyang, et al.
Pubblicazione: (2025)

Adaptive Alignment: Dynamic Preference Adjustments via Multi-Objective Reinforcement Learning for Pluralistic AI
di: Harland, Hadassah, et al.
Pubblicazione: (2024)

Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning
di: Sun, Hao, et al.
Pubblicazione: (2024)

Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations
di: Luo, Haozheng, et al.
Pubblicazione: (2026)

Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment
di: Cheng, Ruoxi, et al.
Pubblicazione: (2025)

Next Visit Diagnosis Prediction via Medical Code-Centric Multimodal Contrastive EHR Modelling with Hierarchical Regularisation
di: Koo, Heejoon
Pubblicazione: (2024)

Offline Reinforcement Learning of High-Quality Behaviors Under Robust Style Alignment
di: Petitbois, Mathieu, et al.
Pubblicazione: (2026)

Learning Local Constraints for Reinforcement-Learned Content Generators
di: Bhaumik, Debosmita, et al.
Pubblicazione: (2026)

Federated Variational Preference Alignment with Gumbel-Softmax Prior for Personalized User Preferences
di: Koo, Jabin, et al.
Pubblicazione: (2026)

Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits
di: Chen, Fan, et al.
Pubblicazione: (2025)

Cultivating Helpful, Personalized, and Creative AI Tutors: A Framework for Pedagogical Alignment using Reinforcement Learning
di: Song, Siyu, et al.
Pubblicazione: (2025)