Պահպանված է:
| Հիմնական հեղինակ: | arXiv, Redacted by |
|---|---|
| Ձևաչափ: | Preprint |
| Հրապարակվել է: |
2026
|
| Խորագրեր: | |
| Առցանց հասանելիություն: | https://arxiv.org/abs/2605.21235 |
| Ցուցիչներ: |
Ավելացրեք ցուցիչ
Չկան պիտակներ, Եղեք առաջինը, ով նշում է այս գրառումը!
|
Նմանատիպ նյութեր
LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models
: arXiv, Redacted by
Հրապարակվել է: (2026)
: arXiv, Redacted by
Հրապարակվել է: (2026)
The Llama 4 Herd: Architecture, Training, Evaluation, and Deployment Notes
: arXiv, Redacted by
Հրապարակվել է: (2026)
: arXiv, Redacted by
Հրապարակվել է: (2026)
Removed by arXiv
: arXiv, Removed by
Հրապարակվել է: (2023)
: arXiv, Removed by
Հրապարակվել է: (2023)
HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs
: Deng, Ken, և այլն
Հրապարակվել է: (2025)
: Deng, Ken, և այլն
Հրապարակվել է: (2025)
Authorship Style Transfer with Policy Optimization
: Liu, Shuai, և այլն
Հրապարակվել է: (2024)
: Liu, Shuai, և այլն
Հրապարակվել է: (2024)
PrAg-PO: Prompt Augmented Policy Optimization for Robust and Diverse Mathematical Reasoning
: Lu, Wenquan, և այլն
Հրապարակվել է: (2026)
: Lu, Wenquan, և այլն
Հրապարակվել է: (2026)
RePO: Replay-Enhanced Policy Optimization
: Li, Siheng, և այլն
Հրապարակվել է: (2025)
: Li, Siheng, և այլն
Հրապարակվել է: (2025)
CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization
: Li, Junyi, և այլն
Հրապարակվել է: (2026)
: Li, Junyi, և այլն
Հրապարակվել է: (2026)
StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning
: Wang, Daoyu, և այլն
Հրապարակվել է: (2026)
: Wang, Daoyu, և այլն
Հրապարակվել է: (2026)
Lambdas at the Far Edge: a Tale of Flying Lambdas and Lambdas on Wheels
: Audrito, Giorgio, և այլն
Հրապարակվել է: (2026)
: Audrito, Giorgio, և այլն
Հրապարակվել է: (2026)
Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models
: Ramos, Miguel Moura, և այլն
Հրապարակվել է: (2026)
: Ramos, Miguel Moura, և այլն
Հրապարակվել է: (2026)
AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment
: Deng, Ruibo, և այլն
Հրապարակվել է: (2025)
: Deng, Ruibo, և այլն
Հրապարակվել է: (2025)
SeaPO: Strategic Error Amplification for Robust Preference Optimization of Large Language Models
: Rao, Jun, և այլն
Հրապարակվել է: (2025)
: Rao, Jun, և այլն
Հրապարակվել է: (2025)
ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization
: Yoon, Hee Suk, և այլն
Հրապարակվել է: (2025)
: Yoon, Hee Suk, և այլն
Հրապարակվել է: (2025)
AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search
: Zong, Zefang, և այլն
Հրապարակվել է: (2026)
: Zong, Zefang, և այլն
Հրապարակվել է: (2026)
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling
: Li, Yizhi, և այլն
Հրապարակվել է: (2025)
: Li, Yizhi, և այլն
Հրապարակվել է: (2025)
Style over Substance: Distilled Language Models Reason Via Stylistic Replication
: Lippmann, Philip, և այլն
Հրապարակվել է: (2025)
: Lippmann, Philip, և այլն
Հրապարակվել է: (2025)
ComPO: Community Preferences for Language Model Personalization
: Kumar, Sachin, և այլն
Հրապարակվել է: (2024)
: Kumar, Sachin, և այլն
Հրապարակվել է: (2024)
DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models
: Chen, Ruizhe, և այլն
Հրապարակվել է: (2025)
: Chen, Ruizhe, և այլն
Հրապարակվել է: (2025)
BFS-PO: Best-First Search for Large Reasoning Models
: Parascandolo, Fiorenzo, և այլն
Հրապարակվել է: (2026)
: Parascandolo, Fiorenzo, և այլն
Հրապարակվել է: (2026)
StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control
: Zhao, Haishu, և այլն
Հրապարակվել է: (2026)
: Zhao, Haishu, և այլն
Հրապարակվել է: (2026)
Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces
: Imperial, Joseph Marvin, և այլն
Հրապարակվել է: (2025)
: Imperial, Joseph Marvin, և այլն
Հրապարակվել է: (2025)
Lax Modal Lambda Calculi
: Valliappan, Nachiappan
Հրապարակվել է: (2025)
: Valliappan, Nachiappan
Հրապարակվել է: (2025)
SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation
: Xu, Ting, և այլն
Հրապարակվել է: (2025)
: Xu, Ting, և այլն
Հրապարակվել է: (2025)
Perception-Aware Policy Optimization for Multimodal Reasoning
: Wang, Zhenhailong, և այլն
Հրապարակվել է: (2025)
: Wang, Zhenhailong, և այլն
Հրապարակվել է: (2025)
GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer
: Cho, Junmo, և այլն
Հրապարակվել է: (2026)
: Cho, Junmo, և այլն
Հրապարակվել է: (2026)
Relative Score Policy Optimization for Diffusion Language Models
: Yu, Zichao, և այլն
Հրապարակվել է: (2026)
: Yu, Zichao, և այլն
Հրապարակվել է: (2026)
HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization
: Huang, Chengyu, և այլն
Հրապարակվել է: (2025)
: Huang, Chengyu, և այլն
Հրապարակվել է: (2025)
Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models
: Yu, Zongji, և այլն
Հրապարակվել է: (2026)
: Yu, Zongji, և այլն
Հրապարակվել է: (2026)
PrefPO: Pairwise Preference Prompt Optimization
: Singhal, Rahul, և այլն
Հրապարակվել է: (2026)
: Singhal, Rahul, և այլն
Հրապարակվել է: (2026)
Agent Explorative Policy Optimization for Multimodal Agentic Reasoning
: Kang, Minki, և այլն
Հրապարակվել է: (2026)
: Kang, Minki, և այլն
Հրապարակվել է: (2026)
MidPO: Dual Preference Optimization for Safety and Helpfulness in Large Language Models via a Mixture of Experts Framework
: Qi, Yupeng, և այլն
Հրապարակվել է: (2025)
: Qi, Yupeng, և այլն
Հրապարակվել է: (2025)
Replacing Language Model for Style Transfer
: Cheng, Pengyu, և այլն
Հրապարակվել է: (2022)
: Cheng, Pengyu, և այլն
Հրապարակվել է: (2022)
Foresight Optimization for Strategic Reasoning in Large Language Models
: Wang, Jiashuo, և այլն
Հրապարակվել է: (2026)
: Wang, Jiashuo, և այլն
Հրապարակվել է: (2026)
Optimizing Language Model's Reasoning Abilities with Weak Supervision
: Tong, Yongqi, և այլն
Հրապարակվել է: (2024)
: Tong, Yongqi, և այլն
Հրապարակվել է: (2024)
KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
: Zhang, Ruizhe, և այլն
Հրապարակվել է: (2024)
: Zhang, Ruizhe, և այլն
Հրապարակվել է: (2024)
Composing Policy Gradients and Prompt Optimization for Language Model Programs
: Ziems, Noah, և այլն
Հրապարակվել է: (2025)
: Ziems, Noah, և այլն
Հրապարակվել է: (2025)
Style Vectors for Steering Generative Large Language Model
: Konen, Kai, և այլն
Հրապարակվել է: (2024)
: Konen, Kai, և այլն
Հրապարակվել է: (2024)
Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models
: Xu, Mufan, և այլն
Հրապարակվել է: (2026)
: Xu, Mufan, և այլն
Հրապարակվել է: (2026)
Hierarchical Budget Policy Optimization for Adaptive Reasoning
: Lyu, Shangke, և այլն
Հրապարակվել է: (2025)
: Lyu, Shangke, և այլն
Հրապարակվել է: (2025)
Նմանատիպ նյութեր
-
LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models
: arXiv, Redacted by
Հրապարակվել է: (2026) -
The Llama 4 Herd: Architecture, Training, Evaluation, and Deployment Notes
: arXiv, Redacted by
Հրապարակվել է: (2026) -
Removed by arXiv
: arXiv, Removed by
Հրապարակվել է: (2023) -
HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs
: Deng, Ken, և այլն
Հրապարակվել է: (2025) -
Authorship Style Transfer with Policy Optimization
: Liu, Shuai, և այլն
Հրապարակվել է: (2024)