:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Kuang, Peng, Wang, Xiangxiang, Liu, Wentao, Dong, Jian, Xu, Kaidi
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2511.22998
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs
von: Feng, Zhangying, et al.
Veröffentlicht: (2025)

ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling
von: Lin, Jianghao, et al.
Veröffentlicht: (2025)

Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling
von: Kuang, Peng, et al.
Veröffentlicht: (2025)

TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
von: Zou, Jiaru, et al.
Veröffentlicht: (2025)

rePIRL: Learn PRM with Inverse RL for LLM Reasoning
von: Wu, Xian, et al.
Veröffentlicht: (2026)

ContextPRM: Leveraging Contextual Coherence for multi-domain Test-Time Scaling
von: Zhang, Haotian, et al.
Veröffentlicht: (2025)

Limits of PRM-Guided Tree Search for Mathematical Reasoning with LLMs
von: Cinquin, Tristan, et al.
Veröffentlicht: (2025)

DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning
von: Cao, Qi, et al.
Veröffentlicht: (2025)

Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS
von: Jin, Can, et al.
Veröffentlicht: (2025)

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
von: Du, Lingxiao, et al.
Veröffentlicht: (2025)

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
von: Zhang, Yao, et al.
Veröffentlicht: (2025)

PRM-Free Security Alignment of Large Models via Red Teaming and Adversarial Training
von: Du, Pengfei
Veröffentlicht: (2025)

H-PRM: A Pluggable Hotword Pre-Retrieval Module for Various Speech Recognition Systems
von: Dai, Huangyu, et al.
Veröffentlicht: (2025)

DreamPRM-Code: Function-as-Step Process Reward Model with Label Correction for LLM Coding
von: Zhang, Ruiyi, et al.
Veröffentlicht: (2025)

Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations
von: Wang, Yanli, et al.
Veröffentlicht: (2026)

PRM-BAS: Enhancing Multimodal Reasoning through PRM-guided Beam Annealing Search
von: Hu, Pengfei, et al.
Veröffentlicht: (2025)

Enhancing multimodal analogical reasoning with Logic Augmented Generation
von: Lippolis, Anna Sofia, et al.
Veröffentlicht: (2025)

PathReasoning: A multimodal reasoning agent for query-based ROI navigation on whole-slide images
von: Zhang, Kunpeng, et al.
Veröffentlicht: (2025)

Balneo and PRM Research Journal
Veröffentlicht: (2021)

MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation
von: Xing, Yang, et al.
Veröffentlicht: (2026)

ToolGate: Contract-Grounded and Verified Tool Execution for LLMs
von: Liu, Yanming, et al.
Veröffentlicht: (2026)

TIM: Temporal Interaction Model in Notification System
von: Ji, Huxiao, et al.
Veröffentlicht: (2024)

Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning
von: Xu, Siyuan, et al.
Veröffentlicht: (2026)

VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains
von: Li, Xuzhao, et al.
Veröffentlicht: (2025)

Recursive Structure of Hulls of PRM Codes
von: Song, Yufeng, et al.
Veröffentlicht: (2026)

R-PRM: Reasoning-Driven Process Reward Modeling
von: She, Shuaijie, et al.
Veröffentlicht: (2025)

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards
von: Liu, Xiaoyuan, et al.
Veröffentlicht: (2025)

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
von: Peng, Hao, et al.
Veröffentlicht: (2025)

PRM: Photometric Stereo based Large Reconstruction Model
von: Ge, Wenhang, et al.
Veröffentlicht: (2024)

DW-A-PRM: A Dynamic Weighted Planner
von: Wang, Siyuan, et al.
Veröffentlicht: (2025)

Cutting corners in muscle measurements with ISarcoPRM!
von: Ahmad J. Abdulsalam
Veröffentlicht: (2024)

Next Step Mobile: Strategy, Services, & PRM
von: Thomas, Lisa Carlucci
Veröffentlicht: (2012)

ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents
von: Liu, Pengbo
Veröffentlicht: (2026)

VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit
von: Lin, Junda, et al.
Veröffentlicht: (2026)

Evaluating Datalog Tools for Meta-reasoning over OWL 2 QL
von: Qureshi, Haya Majid, et al.
Veröffentlicht: (2024)

Understanding Tool-Integrated Reasoning
von: Lin, Heng, et al.
Veröffentlicht: (2025)

InfEngine: A Self-Verifying and Self-Optimizing Intelligent Engine for Infrared Radiation Computing
von: Ding, Kun, et al.
Veröffentlicht: (2026)

BAAI Cardiac Agent: An intelligent multimodal agent for automated reasoning and diagnosis of cardiovascular diseases from cardiac magnetic resonance imaging
von: Qu, Taiping, et al.
Veröffentlicht: (2026)

ALGOGEN: Tool-Generated Verifiable Traces for Reliable Algorithm Visualization
von: Liao, Kunpeng, et al.
Veröffentlicht: (2026)

AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents
von: Zhang, Zhixing, et al.
Veröffentlicht: (2026)