:: Library Catalog

Imagen de Portada

Guardado en:

Detalles Bibliográficos
Autores principales:	He, Yifei, Wang, Haoxiang, Jiang, Ziyan, Papangelis, Alexandros, Zhao, Han
Formato:	Preprint
Publicado:	2024
Materias:	Machine Learning
Acceso en línea:	https://arxiv.org/abs/2409.06903
Etiquetas:	Agregar Etiqueta Sin Etiquetas, Sea el primero en etiquetar este registro!

Ejemplares similares

Gradual Domain Adaptation: Theory and Algorithms
por: He, Yifei, et al.
Publicado: (2023)

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts
por: Wang, Haoxiang, et al.
Publicado: (2024)

Self-Improving Tabular Language Models via Iterative Reward-Guided Post-Training
por: Long, Yunbo, et al.
Publicado: (2026)

RLHF Workflow: From Reward Modeling to Online RLHF
por: Dong, Hanze, et al.
Publicado: (2024)

An Analytical Multiple Criteria Framework for Temporal and Dynamic Business-to-Business Customer Segmentation in Manufacturing
por: Raees, Muhammad, et al.
Publicado: (2026)

SemiReward: A General Reward Model for Semi-supervised Learning
por: Li, Siyuan, et al.
Publicado: (2023)

Enhancing Semi-Supervised Multi-View Graph Convolutional Networks via Supervised Contrastive Learning and Self-Training
por: Xiao, Huaiyuan, et al.
Publicado: (2025)

Adversarial Training of Reward Models
por: Bukharin, Alexander, et al.
Publicado: (2025)

GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment
por: He, Haoyang, et al.
Publicado: (2025)

Generalized Semi-Supervised Learning via Self-Supervised Feature Adaptation
por: Liang, Jiachen, et al.
Publicado: (2024)

Iterative Foundation Model Fine-Tuning on Multiple Rewards
por: Ghari, Pouya M., et al.
Publicado: (2025)

Exploring Correlations of Self-Supervised Tasks for Graphs
por: Fang, Taoran, et al.
Publicado: (2024)

GRAM-R$^2$: Self-Training Generative Foundation Reward Models for Reward Reasoning
por: Wang, Chenglong, et al.
Publicado: (2025)

LaMM: Semi-Supervised Pre-Training of Large-Scale Materials Models
por: Oyama, Yosuke, et al.
Publicado: (2025)

Rethinking Semi-Supervised Node Classification with Self-Supervised Graph Clustering
por: Wang, Songbo, et al.
Publicado: (2025)

ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training
por: Liang, Yu, et al.
Publicado: (2026)

Reward-Free Curricula for Training Robust World Models
por: Rigter, Marc, et al.
Publicado: (2023)

CRISP: Compressed Reasoning via Iterative Self-Policy Distillation
por: Sang, Hejian, et al.
Publicado: (2026)

Enhancing Compositional Generalization via Compositional Feature Alignment
por: Wang, Haoxiang, et al.
Publicado: (2024)

In-Context Symmetries: Self-Supervised Learning through Contextual World Models
por: Gupta, Sharut, et al.
Publicado: (2024)

Asynchronous Training Schemes in Distributed Learning with Time Delay
por: Wang, Haoxiang, et al.
Publicado: (2022)

Semi-Supervised Learning with Multi-Head Co-Training
por: Chen, Mingcai, et al.
Publicado: (2021)

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains
por: Jiang, Haoxiang, et al.
Publicado: (2026)

Self-Supervised Learning of Iterative Solvers for Constrained Optimization
por: Lüken, Lukas, et al.
Publicado: (2024)

Reward Model Overoptimisation in Iterated RLHF
por: Wolf, Lorenz, et al.
Publicado: (2025)

A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
por: Li, Mengqi, et al.
Publicado: (2025)

Goal-Driven Reward by Video Diffusion Models for Reinforcement Learning
por: Wang, Qi, et al.
Publicado: (2025)

Supervised Reward Inference
por: Schwarzer, Will, et al.
Publicado: (2025)

TRiCo: Triadic Game-Theoretic Co-Training for Robust Semi-Supervised Learning
por: He, Hongyang, et al.
Publicado: (2025)

Scaling Reward Modeling without Human Supervision
por: Fan, Jingxuan, et al.
Publicado: (2026)

In-Context Semi-Supervised Learning
por: Fan, Jiashuo, et al.
Publicado: (2025)

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
por: Wang, Haoxiang, et al.
Publicado: (2024)

Robust Semi-Supervised Learning for Self-learning Open-World Classes
por: Xi, Wenjuan, et al.
Publicado: (2024)

Robust Semi-Supervised Classification using GANs with Self-Organizing Maps
por: Fick, Ronald, et al.
Publicado: (2021)

Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards
por: Wang, Zhen, et al.
Publicado: (2025)

Adversarial Training for Process Reward Models
por: Juneja, Gurusha, et al.
Publicado: (2025)

RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning
por: Arzhantsev, Aleksei, et al.
Publicado: (2025)

Unified Graph Prompt Learning via Low-Rank Graph Message Prompting
por: Wang, Beibei, et al.
Publicado: (2026)

CREAM: Consistency Regularized Self-Rewarding Language Models
por: Wang, Zhaoyang, et al.
Publicado: (2024)

Negative-Free Self-Supervised Gaussian Embedding of Graphs
por: Liu, Yunhui, et al.
Publicado: (2024)