Gespeichert in:
| Hauptverfasser: | Jiang, Guochao, Song, Jingyi, Quan, Guofeng, Hao, Chuzhan, Liu, Guohua, Zhang, Yuewei |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2605.25604 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
von: Jiang, Guochao, et al.
Veröffentlicht: (2025)
von: Jiang, Guochao, et al.
Veröffentlicht: (2025)
PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
von: Feng, Wenfeng, et al.
Veröffentlicht: (2025)
von: Feng, Wenfeng, et al.
Veröffentlicht: (2025)
RASD: Retrieval-Augmented Speculative Decoding
von: Quan, Guofeng, et al.
Veröffentlicht: (2025)
von: Quan, Guofeng, et al.
Veröffentlicht: (2025)
Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search
von: Hao, Chuzhan, et al.
Veröffentlicht: (2026)
von: Hao, Chuzhan, et al.
Veröffentlicht: (2026)
DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning
von: Hao, Chuzhan, et al.
Veröffentlicht: (2025)
von: Hao, Chuzhan, et al.
Veröffentlicht: (2025)
AirRAG: Autonomous Strategic Planning and Reasoning Steer Retrieval Augmented Generation
von: Feng, Wenfeng, et al.
Veröffentlicht: (2025)
von: Feng, Wenfeng, et al.
Veröffentlicht: (2025)
FAQ: Mitigating Quantization Error via Regenerating Calibration Data with Family-Aware Quantization
von: Xiao, Haiyang, et al.
Veröffentlicht: (2026)
von: Xiao, Haiyang, et al.
Veröffentlicht: (2026)
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
von: Liu, Shih-Yang, et al.
Veröffentlicht: (2026)
von: Liu, Shih-Yang, et al.
Veröffentlicht: (2026)
FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling
von: Li, Weiqing, et al.
Veröffentlicht: (2025)
von: Li, Weiqing, et al.
Veröffentlicht: (2025)
No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
von: Le, Thanh-Long V., et al.
Veröffentlicht: (2025)
von: Le, Thanh-Long V., et al.
Veröffentlicht: (2025)
Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards
von: Arnal, Charles, et al.
Veröffentlicht: (2025)
von: Arnal, Charles, et al.
Veröffentlicht: (2025)
Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning
von: Fei, Wu, et al.
Veröffentlicht: (2025)
von: Fei, Wu, et al.
Veröffentlicht: (2025)
Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language Models
von: Feng, Wenfeng, et al.
Veröffentlicht: (2024)
von: Feng, Wenfeng, et al.
Veröffentlicht: (2024)
GAGPO: Generalized Advantage Grouped Policy Optimization
von: Zhu, Siyuan, et al.
Veröffentlicht: (2026)
von: Zhu, Siyuan, et al.
Veröffentlicht: (2026)
LIRE: listwise reward enhancement for preference alignment
von: Zhu, Mingye, et al.
Veröffentlicht: (2024)
von: Zhu, Mingye, et al.
Veröffentlicht: (2024)
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL
von: Yao, Jiarui, et al.
Veröffentlicht: (2025)
von: Yao, Jiarui, et al.
Veröffentlicht: (2025)
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
von: Lu, Yining, et al.
Veröffentlicht: (2025)
von: Lu, Yining, et al.
Veröffentlicht: (2025)
Skip-Connected Policy Optimization for Implicit Advantage
von: Teng, Fengwei, et al.
Veröffentlicht: (2026)
von: Teng, Fengwei, et al.
Veröffentlicht: (2026)
Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs
von: Huang, Yiming, et al.
Veröffentlicht: (2026)
von: Huang, Yiming, et al.
Veröffentlicht: (2026)
REINFORCE++: Stabilizing Critic-Free Policy Optimization with Global Advantage Normalization
von: Hu, Jian, et al.
Veröffentlicht: (2025)
von: Hu, Jian, et al.
Veröffentlicht: (2025)
Stabilizing Efficient Reasoning with Step-Level Advantage Selection
von: Wang, Han, et al.
Veröffentlicht: (2026)
von: Wang, Han, et al.
Veröffentlicht: (2026)
Reinforcement Learning for Diffusion LLMs with Entropy-Guided Step Selection and Stepwise Advantages
von: Kunde, Vishnu Teja, et al.
Veröffentlicht: (2026)
von: Kunde, Vishnu Teja, et al.
Veröffentlicht: (2026)
Think Dense, Not Long: Dynamic Decoupled Conditional Advantage for Efficient Reasoning
von: Peng, Keqin, et al.
Veröffentlicht: (2026)
von: Peng, Keqin, et al.
Veröffentlicht: (2026)
TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning
von: Shandilya, Shivam, et al.
Veröffentlicht: (2024)
von: Shandilya, Shivam, et al.
Veröffentlicht: (2024)
ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression
von: Bian, Tingcheng, et al.
Veröffentlicht: (2026)
von: Bian, Tingcheng, et al.
Veröffentlicht: (2026)
Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization
von: Bai, Yang, et al.
Veröffentlicht: (2026)
von: Bai, Yang, et al.
Veröffentlicht: (2026)
FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning
von: Qiu, Zhaopeng, et al.
Veröffentlicht: (2026)
von: Qiu, Zhaopeng, et al.
Veröffentlicht: (2026)
On the Role of Preference Variance in Preference Optimization
von: Guo, Jiacheng, et al.
Veröffentlicht: (2025)
von: Guo, Jiacheng, et al.
Veröffentlicht: (2025)
Reinforcement Learning for Compositional Generalization with Outcome-Level Optimization
von: Fu, Xiyan, et al.
Veröffentlicht: (2026)
von: Fu, Xiyan, et al.
Veröffentlicht: (2026)
ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering
von: Liu, Zexi, et al.
Veröffentlicht: (2025)
von: Liu, Zexi, et al.
Veröffentlicht: (2025)
Offline Reinforcement Learning for LLM Multi-Step Reasoning
von: Wang, Huaijie, et al.
Veröffentlicht: (2024)
von: Wang, Huaijie, et al.
Veröffentlicht: (2024)
Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation
von: Min, Do June, et al.
Veröffentlicht: (2024)
von: Min, Do June, et al.
Veröffentlicht: (2024)
Episodic Reinforcement Learning with Expanded State-reward Space
von: Liang, Dayang, et al.
Veröffentlicht: (2024)
von: Liang, Dayang, et al.
Veröffentlicht: (2024)
Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts
von: Zhang, Di, et al.
Veröffentlicht: (2025)
von: Zhang, Di, et al.
Veröffentlicht: (2025)
Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning
von: Shen, Junhao, et al.
Veröffentlicht: (2026)
von: Shen, Junhao, et al.
Veröffentlicht: (2026)
Asymmetric Advantage Modulation Calibrates Entropy Dynamics in RLVR
von: Gu, Hengrui, et al.
Veröffentlicht: (2026)
von: Gu, Hengrui, et al.
Veröffentlicht: (2026)
UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection
von: Zhao, Yang, et al.
Veröffentlicht: (2025)
von: Zhao, Yang, et al.
Veröffentlicht: (2025)
MARS: Co-evolving Dual-System Deep Research via Multi-Agent Reinforcement Learning
von: Chen, Guoxin, et al.
Veröffentlicht: (2025)
von: Chen, Guoxin, et al.
Veröffentlicht: (2025)
Sample-efficient LLM Optimization with Reset Replay
von: Liu, Zichuan, et al.
Veröffentlicht: (2025)
von: Liu, Zichuan, et al.
Veröffentlicht: (2025)
GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation
von: Li, Sijia, et al.
Veröffentlicht: (2026)
von: Li, Sijia, et al.
Veröffentlicht: (2026)
Ähnliche Einträge
-
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
von: Jiang, Guochao, et al.
Veröffentlicht: (2025) -
PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
von: Feng, Wenfeng, et al.
Veröffentlicht: (2025) -
RASD: Retrieval-Augmented Speculative Decoding
von: Quan, Guofeng, et al.
Veröffentlicht: (2025) -
Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search
von: Hao, Chuzhan, et al.
Veröffentlicht: (2026) -
DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning
von: Hao, Chuzhan, et al.
Veröffentlicht: (2025)