Gespeichert in:
| Hauptverfasser: | Kuang, Peng, Wang, Xiangxiang, Liu, Wentao, Dong, Jian, Xu, Kaidi |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2511.22998 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs
von: Feng, Zhangying, et al.
Veröffentlicht: (2025)
von: Feng, Zhangying, et al.
Veröffentlicht: (2025)
ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling
von: Lin, Jianghao, et al.
Veröffentlicht: (2025)
von: Lin, Jianghao, et al.
Veröffentlicht: (2025)
Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling
von: Kuang, Peng, et al.
Veröffentlicht: (2025)
von: Kuang, Peng, et al.
Veröffentlicht: (2025)
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
von: Zou, Jiaru, et al.
Veröffentlicht: (2025)
von: Zou, Jiaru, et al.
Veröffentlicht: (2025)
rePIRL: Learn PRM with Inverse RL for LLM Reasoning
von: Wu, Xian, et al.
Veröffentlicht: (2026)
von: Wu, Xian, et al.
Veröffentlicht: (2026)
ContextPRM: Leveraging Contextual Coherence for multi-domain Test-Time Scaling
von: Zhang, Haotian, et al.
Veröffentlicht: (2025)
von: Zhang, Haotian, et al.
Veröffentlicht: (2025)
Limits of PRM-Guided Tree Search for Mathematical Reasoning with LLMs
von: Cinquin, Tristan, et al.
Veröffentlicht: (2025)
von: Cinquin, Tristan, et al.
Veröffentlicht: (2025)
DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning
von: Cao, Qi, et al.
Veröffentlicht: (2025)
von: Cao, Qi, et al.
Veröffentlicht: (2025)
Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS
von: Jin, Can, et al.
Veröffentlicht: (2025)
von: Jin, Can, et al.
Veröffentlicht: (2025)
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
von: Du, Lingxiao, et al.
Veröffentlicht: (2025)
von: Du, Lingxiao, et al.
Veröffentlicht: (2025)
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
von: Zhang, Yao, et al.
Veröffentlicht: (2025)
von: Zhang, Yao, et al.
Veröffentlicht: (2025)
PRM-Free Security Alignment of Large Models via Red Teaming and Adversarial Training
von: Du, Pengfei
Veröffentlicht: (2025)
von: Du, Pengfei
Veröffentlicht: (2025)
H-PRM: A Pluggable Hotword Pre-Retrieval Module for Various Speech Recognition Systems
von: Dai, Huangyu, et al.
Veröffentlicht: (2025)
von: Dai, Huangyu, et al.
Veröffentlicht: (2025)
DreamPRM-Code: Function-as-Step Process Reward Model with Label Correction for LLM Coding
von: Zhang, Ruiyi, et al.
Veröffentlicht: (2025)
von: Zhang, Ruiyi, et al.
Veröffentlicht: (2025)
Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations
von: Wang, Yanli, et al.
Veröffentlicht: (2026)
von: Wang, Yanli, et al.
Veröffentlicht: (2026)
PRM-BAS: Enhancing Multimodal Reasoning through PRM-guided Beam Annealing Search
von: Hu, Pengfei, et al.
Veröffentlicht: (2025)
von: Hu, Pengfei, et al.
Veröffentlicht: (2025)
Enhancing multimodal analogical reasoning with Logic Augmented Generation
von: Lippolis, Anna Sofia, et al.
Veröffentlicht: (2025)
von: Lippolis, Anna Sofia, et al.
Veröffentlicht: (2025)
PathReasoning: A multimodal reasoning agent for query-based ROI navigation on whole-slide images
von: Zhang, Kunpeng, et al.
Veröffentlicht: (2025)
von: Zhang, Kunpeng, et al.
Veröffentlicht: (2025)
Balneo and PRM Research Journal
Veröffentlicht: (2021)
Veröffentlicht: (2021)
MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation
von: Xing, Yang, et al.
Veröffentlicht: (2026)
von: Xing, Yang, et al.
Veröffentlicht: (2026)
ToolGate: Contract-Grounded and Verified Tool Execution for LLMs
von: Liu, Yanming, et al.
Veröffentlicht: (2026)
von: Liu, Yanming, et al.
Veröffentlicht: (2026)
TIM: Temporal Interaction Model in Notification System
von: Ji, Huxiao, et al.
Veröffentlicht: (2024)
von: Ji, Huxiao, et al.
Veröffentlicht: (2024)
Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning
von: Xu, Siyuan, et al.
Veröffentlicht: (2026)
von: Xu, Siyuan, et al.
Veröffentlicht: (2026)
VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains
von: Li, Xuzhao, et al.
Veröffentlicht: (2025)
von: Li, Xuzhao, et al.
Veröffentlicht: (2025)
Recursive Structure of Hulls of PRM Codes
von: Song, Yufeng, et al.
Veröffentlicht: (2026)
von: Song, Yufeng, et al.
Veröffentlicht: (2026)
R-PRM: Reasoning-Driven Process Reward Modeling
von: She, Shuaijie, et al.
Veröffentlicht: (2025)
von: She, Shuaijie, et al.
Veröffentlicht: (2025)
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards
von: Liu, Xiaoyuan, et al.
Veröffentlicht: (2025)
von: Liu, Xiaoyuan, et al.
Veröffentlicht: (2025)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
von: Peng, Hao, et al.
Veröffentlicht: (2025)
von: Peng, Hao, et al.
Veröffentlicht: (2025)
PRM: Photometric Stereo based Large Reconstruction Model
von: Ge, Wenhang, et al.
Veröffentlicht: (2024)
von: Ge, Wenhang, et al.
Veröffentlicht: (2024)
DW-A-PRM: A Dynamic Weighted Planner
von: Wang, Siyuan, et al.
Veröffentlicht: (2025)
von: Wang, Siyuan, et al.
Veröffentlicht: (2025)
Cutting corners in muscle measurements with ISarcoPRM!
von: Ahmad J. Abdulsalam
Veröffentlicht: (2024)
von: Ahmad J. Abdulsalam
Veröffentlicht: (2024)
Next Step Mobile: Strategy, Services, & PRM
von: Thomas, Lisa Carlucci
Veröffentlicht: (2012)
von: Thomas, Lisa Carlucci
Veröffentlicht: (2012)
ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents
von: Liu, Pengbo
Veröffentlicht: (2026)
von: Liu, Pengbo
Veröffentlicht: (2026)
VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit
von: Lin, Junda, et al.
Veröffentlicht: (2026)
von: Lin, Junda, et al.
Veröffentlicht: (2026)
Evaluating Datalog Tools for Meta-reasoning over OWL 2 QL
von: Qureshi, Haya Majid, et al.
Veröffentlicht: (2024)
von: Qureshi, Haya Majid, et al.
Veröffentlicht: (2024)
Understanding Tool-Integrated Reasoning
von: Lin, Heng, et al.
Veröffentlicht: (2025)
von: Lin, Heng, et al.
Veröffentlicht: (2025)
InfEngine: A Self-Verifying and Self-Optimizing Intelligent Engine for Infrared Radiation Computing
von: Ding, Kun, et al.
Veröffentlicht: (2026)
von: Ding, Kun, et al.
Veröffentlicht: (2026)
BAAI Cardiac Agent: An intelligent multimodal agent for automated reasoning and diagnosis of cardiovascular diseases from cardiac magnetic resonance imaging
von: Qu, Taiping, et al.
Veröffentlicht: (2026)
von: Qu, Taiping, et al.
Veröffentlicht: (2026)
ALGOGEN: Tool-Generated Verifiable Traces for Reliable Algorithm Visualization
von: Liao, Kunpeng, et al.
Veröffentlicht: (2026)
von: Liao, Kunpeng, et al.
Veröffentlicht: (2026)
AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents
von: Zhang, Zhixing, et al.
Veröffentlicht: (2026)
von: Zhang, Zhixing, et al.
Veröffentlicht: (2026)
Ähnliche Einträge
-
Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs
von: Feng, Zhangying, et al.
Veröffentlicht: (2025) -
ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling
von: Lin, Jianghao, et al.
Veröffentlicht: (2025) -
Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling
von: Kuang, Peng, et al.
Veröffentlicht: (2025) -
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
von: Zou, Jiaru, et al.
Veröffentlicht: (2025) -
rePIRL: Learn PRM with Inverse RL for LLM Reasoning
von: Wu, Xian, et al.
Veröffentlicht: (2026)