:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Sun, Wei, Du, Qianlong, Cui, Fuwei, Zhang, Jiajun
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computation and Language Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2503.02382
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning
di: Sun, Wei, et al.
Pubblicazione: (2025)

Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning
di: Han, Jiuzhou, et al.
Pubblicazione: (2025)

The Lessons of Developing Process Reward Models in Mathematical Reasoning
di: Zhang, Zhenru, et al.
Pubblicazione: (2025)

Unlocking Multimodal Mathematical Reasoning via Process Reward Model
di: Luo, Ruilin, et al.
Pubblicazione: (2025)

GR-Ben: A General Reasoning Benchmark for Evaluating Process Reward Models
di: Sun, Zhouhao, et al.
Pubblicazione: (2026)

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models
di: Zhou, Kun, et al.
Pubblicazione: (2024)

OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning
di: Yu, Fei, et al.
Pubblicazione: (2023)

CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models in Mathematical Reasoning
di: Zheng, Congmin, et al.
Pubblicazione: (2025)

Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs
di: Zheng, Xiang, et al.
Pubblicazione: (2026)

Best-of-L: Cross-Lingual Reward Modeling for Mathematical Reasoning
di: Rajaee, Sara, et al.
Pubblicazione: (2025)

Evaluating Robustness of Reward Models for Mathematical Reasoning
di: Kim, Sunghwan, et al.
Pubblicazione: (2024)

The Art of Efficient Reasoning: Data, Reward, and Optimization
di: Wu, Taiqiang, et al.
Pubblicazione: (2026)

ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information
di: Zhang, Wanyue, et al.
Pubblicazione: (2024)

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment
di: Yang, Wen, et al.
Pubblicazione: (2025)

InfoDensity: Rewarding Information-Dense Traces for Efficient Reasoning
di: Wei, Chengwei, et al.
Pubblicazione: (2026)

Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models
di: Wang, Shuai, et al.
Pubblicazione: (2025)

Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns
di: Li, Xiang, et al.
Pubblicazione: (2025)

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis
di: Qiu, Zhisong, et al.
Pubblicazione: (2026)

Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages
di: Chen, Zui, et al.
Pubblicazione: (2025)

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning
di: Chan, Chi-Min, et al.
Pubblicazione: (2026)

ChemATP: A Training-Free Chemical Reasoning Framework for Large Language Models
di: Zhang, Mingxu, et al.
Pubblicazione: (2025)

ProcessBench: Identifying Process Errors in Mathematical Reasoning
di: Zheng, Chujie, et al.
Pubblicazione: (2024)

Can Large Models Teach Student Models to Solve Mathematical Problems Like Human Beings? A Reasoning Distillation Method via Multi-LoRA Interaction
di: Li, Xinhe, et al.
Pubblicazione: (2025)

Beyond Outcome Verification: Verifiable Process Reward Models for Structured Reasoning
di: Pronesti, Massimiliano, et al.
Pubblicazione: (2026)

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
di: Liu, Zihan, et al.
Pubblicazione: (2024)

Prototypical Reward Network for Data-Efficient RLHF
di: Zhang, Jinghan, et al.
Pubblicazione: (2024)

Exploring Reasoning Reward Model for Agents
di: Fan, Kaixuan, et al.
Pubblicazione: (2026)

Markov Chain of Thought for Efficient Mathematical Reasoning
di: Yang, Wen, et al.
Pubblicazione: (2024)

A Prompt-Based Knowledge Graph Foundation Model for Universal In-Context Reasoning
di: Cui, Yuanning, et al.
Pubblicazione: (2024)

Process-based Self-Rewarding Language Models
di: Zhang, Shimao, et al.
Pubblicazione: (2025)

Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
di: Han, Tianyang, et al.
Pubblicazione: (2026)

Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
di: Chegini, Atoosa, et al.
Pubblicazione: (2026)

MathAgent: Adversarial Evolution of Constraint Graphs for Mathematical Reasoning Data Synthesis
di: Yu, Zixiong, et al.
Pubblicazione: (2026)

HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation
di: Wu, Peilin, et al.
Pubblicazione: (2025)

Generating Data-Driven Reasoning Rubrics for Domain-Adaptive Reward Modeling
di: Sanders, Kate, et al.
Pubblicazione: (2026)

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
di: Liu, Wei, et al.
Pubblicazione: (2025)

Can A Gamer Train A Mathematical Reasoning Model?
di: Shin, Andrew
Pubblicazione: (2025)

Reward-Guided Speculative Decoding for Efficient LLM Reasoning
di: Liao, Baohao, et al.
Pubblicazione: (2025)

On Designing Effective RL Reward at Training Time for LLM Reasoning
di: Gao, Jiaxuan, et al.
Pubblicazione: (2024)

ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models
di: Chen, Bin, et al.
Pubblicazione: (2025)