:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Jiang, Guochao, Song, Jingyi, Quan, Guofeng, Hao, Chuzhan, Liu, Guohua, Zhang, Yuewei
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Computation and Language Machine Learning
Online-Zugang:	https://arxiv.org/abs/2605.25604
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
von: Jiang, Guochao, et al.
Veröffentlicht: (2025)

PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
von: Feng, Wenfeng, et al.
Veröffentlicht: (2025)

RASD: Retrieval-Augmented Speculative Decoding
von: Quan, Guofeng, et al.
Veröffentlicht: (2025)

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search
von: Hao, Chuzhan, et al.
Veröffentlicht: (2026)

DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning
von: Hao, Chuzhan, et al.
Veröffentlicht: (2025)

AirRAG: Autonomous Strategic Planning and Reasoning Steer Retrieval Augmented Generation
von: Feng, Wenfeng, et al.
Veröffentlicht: (2025)

FAQ: Mitigating Quantization Error via Regenerating Calibration Data with Family-Aware Quantization
von: Xiao, Haiyang, et al.
Veröffentlicht: (2026)

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
von: Liu, Shih-Yang, et al.
Veröffentlicht: (2026)

FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling
von: Li, Weiqing, et al.
Veröffentlicht: (2025)

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
von: Le, Thanh-Long V., et al.
Veröffentlicht: (2025)

Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards
von: Arnal, Charles, et al.
Veröffentlicht: (2025)

Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning
von: Fei, Wu, et al.
Veröffentlicht: (2025)

Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language Models
von: Feng, Wenfeng, et al.
Veröffentlicht: (2024)

GAGPO: Generalized Advantage Grouped Policy Optimization
von: Zhu, Siyuan, et al.
Veröffentlicht: (2026)

LIRE: listwise reward enhancement for preference alignment
von: Zhu, Mingye, et al.
Veröffentlicht: (2024)

Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL
von: Yao, Jiarui, et al.
Veröffentlicht: (2025)

Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
von: Lu, Yining, et al.
Veröffentlicht: (2025)

Skip-Connected Policy Optimization for Implicit Advantage
von: Teng, Fengwei, et al.
Veröffentlicht: (2026)

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs
von: Huang, Yiming, et al.
Veröffentlicht: (2026)

REINFORCE++: Stabilizing Critic-Free Policy Optimization with Global Advantage Normalization
von: Hu, Jian, et al.
Veröffentlicht: (2025)

Stabilizing Efficient Reasoning with Step-Level Advantage Selection
von: Wang, Han, et al.
Veröffentlicht: (2026)

Reinforcement Learning for Diffusion LLMs with Entropy-Guided Step Selection and Stepwise Advantages
von: Kunde, Vishnu Teja, et al.
Veröffentlicht: (2026)

Think Dense, Not Long: Dynamic Decoupled Conditional Advantage for Efficient Reasoning
von: Peng, Keqin, et al.
Veröffentlicht: (2026)

TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning
von: Shandilya, Shivam, et al.
Veröffentlicht: (2024)

ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression
von: Bian, Tingcheng, et al.
Veröffentlicht: (2026)

Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization
von: Bai, Yang, et al.
Veröffentlicht: (2026)

FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning
von: Qiu, Zhaopeng, et al.
Veröffentlicht: (2026)

On the Role of Preference Variance in Preference Optimization
von: Guo, Jiacheng, et al.
Veröffentlicht: (2025)

Reinforcement Learning for Compositional Generalization with Outcome-Level Optimization
von: Fu, Xiyan, et al.
Veröffentlicht: (2026)

ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering
von: Liu, Zexi, et al.
Veröffentlicht: (2025)

Offline Reinforcement Learning for LLM Multi-Step Reasoning
von: Wang, Huaijie, et al.
Veröffentlicht: (2024)

Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation
von: Min, Do June, et al.
Veröffentlicht: (2024)

Episodic Reinforcement Learning with Expanded State-reward Space
von: Liang, Dayang, et al.
Veröffentlicht: (2024)

Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts
von: Zhang, Di, et al.
Veröffentlicht: (2025)

Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning
von: Shen, Junhao, et al.
Veröffentlicht: (2026)

Asymmetric Advantage Modulation Calibrates Entropy Dynamics in RLVR
von: Gu, Hengrui, et al.
Veröffentlicht: (2026)

UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection
von: Zhao, Yang, et al.
Veröffentlicht: (2025)

MARS: Co-evolving Dual-System Deep Research via Multi-Agent Reinforcement Learning
von: Chen, Guoxin, et al.
Veröffentlicht: (2025)

Sample-efficient LLM Optimization with Reset Replay
von: Liu, Zichuan, et al.
Veröffentlicht: (2025)

GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation
von: Li, Sijia, et al.
Veröffentlicht: (2026)