:: Library Catalog

Կազմի պատկեր

Պահպանված է:

Մատենագիտական մանրամասներ
Հիմնական հեղինակ:	arXiv, Redacted by
Ձևաչափ:	Preprint
Հրապարակվել է:	2026
Խորագրեր:	Computation and Language
Առցանց հասանելիություն:	https://arxiv.org/abs/2605.21235
Ցուցիչներ:	Ավելացրեք ցուցիչ Չկան պիտակներ, Եղեք առաջինը, ով նշում է այս գրառումը!

Նմանատիպ նյութեր

LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models
‌: arXiv, Redacted by
Հրապարակվել է: (2026)

The Llama 4 Herd: Architecture, Training, Evaluation, and Deployment Notes
‌: arXiv, Redacted by
Հրապարակվել է: (2026)

Removed by arXiv
‌: arXiv, Removed by
Հրապարակվել է: (2023)

HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs
‌: Deng, Ken, և այլն
Հրապարակվել է: (2025)

Authorship Style Transfer with Policy Optimization
‌: Liu, Shuai, և այլն
Հրապարակվել է: (2024)

PrAg-PO: Prompt Augmented Policy Optimization for Robust and Diverse Mathematical Reasoning
‌: Lu, Wenquan, և այլն
Հրապարակվել է: (2026)

RePO: Replay-Enhanced Policy Optimization
‌: Li, Siheng, և այլն
Հրապարակվել է: (2025)

CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization
‌: Li, Junyi, և այլն
Հրապարակվել է: (2026)

StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning
‌: Wang, Daoyu, և այլն
Հրապարակվել է: (2026)

Lambdas at the Far Edge: a Tale of Flying Lambdas and Lambdas on Wheels
‌: Audrito, Giorgio, և այլն
Հրապարակվել է: (2026)

Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models
‌: Ramos, Miguel Moura, և այլն
Հրապարակվել է: (2026)

AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment
‌: Deng, Ruibo, և այլն
Հրապարակվել է: (2025)

SeaPO: Strategic Error Amplification for Robust Preference Optimization of Large Language Models
‌: Rao, Jun, և այլն
Հրապարակվել է: (2025)

ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization
‌: Yoon, Hee Suk, և այլն
Հրապարակվել է: (2025)

AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search
‌: Zong, Zefang, և այլն
Հրապարակվել է: (2026)

TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling
‌: Li, Yizhi, և այլն
Հրապարակվել է: (2025)

Style over Substance: Distilled Language Models Reason Via Stylistic Replication
‌: Lippmann, Philip, և այլն
Հրապարակվել է: (2025)

ComPO: Community Preferences for Language Model Personalization
‌: Kumar, Sachin, և այլն
Հրապարակվել է: (2024)

DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models
‌: Chen, Ruizhe, և այլն
Հրապարակվել է: (2025)

BFS-PO: Best-First Search for Large Reasoning Models
‌: Parascandolo, Fiorenzo, և այլն
Հրապարակվել է: (2026)

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control
‌: Zhao, Haishu, և այլն
Հրապարակվել է: (2026)

Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces
‌: Imperial, Joseph Marvin, և այլն
Հրապարակվել է: (2025)

Lax Modal Lambda Calculi
‌: Valliappan, Nachiappan
Հրապարակվել է: (2025)

SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation
‌: Xu, Ting, և այլն
Հրապարակվել է: (2025)

Perception-Aware Policy Optimization for Multimodal Reasoning
‌: Wang, Zhenhailong, և այլն
Հրապարակվել է: (2025)

GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer
‌: Cho, Junmo, և այլն
Հրապարակվել է: (2026)

Relative Score Policy Optimization for Diffusion Language Models
‌: Yu, Zichao, և այլն
Հրապարակվել է: (2026)

HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization
‌: Huang, Chengyu, և այլն
Հրապարակվել է: (2025)

Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models
‌: Yu, Zongji, և այլն
Հրապարակվել է: (2026)

PrefPO: Pairwise Preference Prompt Optimization
‌: Singhal, Rahul, և այլն
Հրապարակվել է: (2026)

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning
‌: Kang, Minki, և այլն
Հրապարակվել է: (2026)

MidPO: Dual Preference Optimization for Safety and Helpfulness in Large Language Models via a Mixture of Experts Framework
‌: Qi, Yupeng, և այլն
Հրապարակվել է: (2025)

Replacing Language Model for Style Transfer
‌: Cheng, Pengyu, և այլն
Հրապարակվել է: (2022)

Foresight Optimization for Strategic Reasoning in Large Language Models
‌: Wang, Jiashuo, և այլն
Հրապարակվել է: (2026)

Optimizing Language Model's Reasoning Abilities with Weak Supervision
‌: Tong, Yongqi, և այլն
Հրապարակվել է: (2024)

KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
‌: Zhang, Ruizhe, և այլն
Հրապարակվել է: (2024)

Composing Policy Gradients and Prompt Optimization for Language Model Programs
‌: Ziems, Noah, և այլն
Հրապարակվել է: (2025)

Style Vectors for Steering Generative Large Language Model
‌: Konen, Kai, և այլն
Հրապարակվել է: (2024)

Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models
‌: Xu, Mufan, և այլն
Հրապարակվել է: (2026)

Hierarchical Budget Policy Optimization for Adaptive Reasoning
‌: Lyu, Shangke, և այլն
Հրապարակվել է: (2025)