Αποθηκεύτηκε σε:
| Κύριοι συγγραφείς: | Khandoga, Mykola, Yuan, Rui, Sankarapu, Vinay Kumar |
|---|---|
| Μορφή: | Preprint |
| Έκδοση: |
2026
|
| Θέματα: | |
| Διαθέσιμο Online: | https://arxiv.org/abs/2602.09331 |
| Ετικέτες: |
Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
|
Παρόμοια τεκμήρια
Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning
από: Yuan, Rui, κ.ά.
Έκδοση: (2026)
από: Yuan, Rui, κ.ά.
Έκδοση: (2026)
Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
από: Guo, Yiran, κ.ά.
Έκδοση: (2025)
από: Guo, Yiran, κ.ά.
Έκδοση: (2025)
InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
από: Yang, Matthew Y. R., κ.ά.
Έκδοση: (2026)
από: Yang, Matthew Y. R., κ.ά.
Έκδοση: (2026)
Reducing Credit Assignment Variance via Counterfactual Reasoning Paths
από: Ding, Fei, κ.ά.
Έκδοση: (2026)
από: Ding, Fei, κ.ά.
Έκδοση: (2026)
CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment
από: Xie, Guofu, κ.ά.
Έκδοση: (2025)
από: Xie, Guofu, κ.ά.
Έκδοση: (2025)
Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR
από: Mou, Chaoli, κ.ά.
Έκδοση: (2026)
από: Mou, Chaoli, κ.ά.
Έκδοση: (2026)
AlignTune: Modular Toolkit for Post-Training Alignment of Large Language Models
από: Lyngkhoi, R E Zera Marveen, κ.ά.
Έκδοση: (2026)
από: Lyngkhoi, R E Zera Marveen, κ.ά.
Έκδοση: (2026)
DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models
από: Monsefi, Amin Karimi, κ.ά.
Έκδοση: (2026)
από: Monsefi, Amin Karimi, κ.ά.
Έκδοση: (2026)
DLBacktrace: A Model Agnostic Explainability for any Deep Learning Models
από: Sankarapu, Vinay Kumar, κ.ά.
Έκδοση: (2024)
από: Sankarapu, Vinay Kumar, κ.ά.
Έκδοση: (2024)
Data Presentation Over Architecture: Resampling Strategies for Credit Risk Prediction with Tabular Foundation Models
από: Tanna, Aditya, κ.ά.
Έκδοση: (2026)
από: Tanna, Aditya, κ.ά.
Έκδοση: (2026)
From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning
από: Jiang, Xitai, κ.ά.
Έκδοση: (2026)
από: Jiang, Xitai, κ.ά.
Έκδοση: (2026)
From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation
από: Kiulian, Artur, κ.ά.
Έκδοση: (2024)
από: Kiulian, Artur, κ.ά.
Έκδοση: (2024)
DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment
από: Jin, Hongbo, κ.ά.
Έκδοση: (2026)
από: Jin, Hongbo, κ.ά.
Έκδοση: (2026)
In-Context Credit Assignment via the Core
από: Harris, Keegan, κ.ά.
Έκδοση: (2026)
από: Harris, Keegan, κ.ά.
Έκδοση: (2026)
Stepwise Credit Assignment for GRPO on Flow-Matching Models
από: Savani, Yash, κ.ά.
Έκδοση: (2026)
από: Savani, Yash, κ.ά.
Έκδοση: (2026)
Position: Behavioural Assurance Cannot Verify the Safety Claims Governance Now Demands
από: Seth, Pratinav, κ.ά.
Έκδοση: (2026)
από: Seth, Pratinav, κ.ά.
Έκδοση: (2026)
Bridging the Gap in XAI-Why Reliable Metrics Matter for Explainability and Compliance
από: Seth, Pratinav, κ.ά.
Έκδοση: (2025)
από: Seth, Pratinav, κ.ά.
Έκδοση: (2025)
CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection
από: Song, Yiliang, κ.ά.
Έκδοση: (2026)
από: Song, Yiliang, κ.ά.
Έκδοση: (2026)
Causally-Enhanced Reinforcement Policy Optimization
από: Wang, Xiangqi, κ.ά.
Έκδοση: (2025)
από: Wang, Xiangqi, κ.ά.
Έκδοση: (2025)
Intrinsic Credit Assignment for Long Horizon Interaction
από: Auzina, Ilze Amanda, κ.ά.
Έκδοση: (2026)
από: Auzina, Ilze Amanda, κ.ά.
Έκδοση: (2026)
OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning
από: Li, Yu, κ.ά.
Έκδοση: (2026)
από: Li, Yu, κ.ά.
Έκδοση: (2026)
TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback
από: Low, Siow Meng, κ.ά.
Έκδοση: (2025)
από: Low, Siow Meng, κ.ά.
Έκδοση: (2025)
Empowering Many, Biasing a Few: Generalist Credit Scoring through Large Language Models
από: Feng, Duanyu, κ.ά.
Έκδοση: (2023)
από: Feng, Duanyu, κ.ά.
Έκδοση: (2023)
Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core
από: Ji, Mengda, κ.ά.
Έκδοση: (2025)
από: Ji, Mengda, κ.ά.
Έκδοση: (2025)
Hindsight Credit Assignment for Long-Horizon LLM Agents
από: Tan, Hui-Ze, κ.ά.
Έκδοση: (2026)
από: Tan, Hui-Ze, κ.ά.
Έκδοση: (2026)
Exact Is Easier: Credit Assignment for Cooperative LLM Agents
από: Chen, Yanjun, κ.ά.
Έκδοση: (2026)
από: Chen, Yanjun, κ.ά.
Έκδοση: (2026)
GRPO-$λ$: Credit Assignment improves LLM Reasoning
από: Parthasarathi, Prasanna, κ.ά.
Έκδοση: (2025)
από: Parthasarathi, Prasanna, κ.ά.
Έκδοση: (2025)
Knowing When to Ask: Segment-Level Credit Assignment for LLM Tool Use
από: Kumar, Abhijit, κ.ά.
Έκδοση: (2026)
από: Kumar, Abhijit, κ.ά.
Έκδοση: (2026)
RTMC: Step-Level Credit Assignment via Rollout Trees
από: Wang, Tao, κ.ά.
Έκδοση: (2026)
από: Wang, Tao, κ.ά.
Έκδοση: (2026)
Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning
από: Ramesh, Aditya A., κ.ά.
Έκδοση: (2024)
από: Ramesh, Aditya A., κ.ά.
Έκδοση: (2024)
A Survey of Temporal Credit Assignment in Deep Reinforcement Learning
από: Pignatelli, Eduardo, κ.ά.
Έκδοση: (2023)
από: Pignatelli, Eduardo, κ.ά.
Έκδοση: (2023)
PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models
από: Lee, Jeongjae, κ.ά.
Έκδοση: (2025)
από: Lee, Jeongjae, κ.ά.
Έκδοση: (2025)
Interpretability as Alignment: Making Internal Understanding a Design Principle
από: Sengupta, Aadit, κ.ά.
Έκδοση: (2025)
από: Sengupta, Aadit, κ.ά.
Έκδοση: (2025)
Credit Assignment via Neural Manifold Noise Correlation
από: Kang, Byungwoo, κ.ά.
Έκδοση: (2026)
από: Kang, Byungwoo, κ.ά.
Έκδοση: (2026)
COSAC: Counterfactual Credit Assignment in Sequential Cooperative Teams
από: Deshmukh, Shripad, κ.ά.
Έκδοση: (2026)
από: Deshmukh, Shripad, κ.ά.
Έκδοση: (2026)
Agent-Temporal Credit Assignment for Optimal Policy Preservation in Sparse Multi-Agent Reinforcement Learning
από: Kapoor, Aditya, κ.ά.
Έκδοση: (2024)
από: Kapoor, Aditya, κ.ά.
Έκδοση: (2024)
VinePPO: Refining Credit Assignment in RL Training of LLMs
από: Kazemnejad, Amirhossein, κ.ά.
Έκδοση: (2024)
από: Kazemnejad, Amirhossein, κ.ά.
Έκδοση: (2024)
Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution
από: Sadhu, Saisab, κ.ά.
Έκδοση: (2026)
από: Sadhu, Saisab, κ.ά.
Έκδοση: (2026)
ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate
από: Lafuente-Mercado, Rodney
Έκδοση: (2026)
από: Lafuente-Mercado, Rodney
Έκδοση: (2026)
Search-Based Credit Assignment for Offline Preference-Based Reinforcement Learning
από: Gao, Xiancheng, κ.ά.
Έκδοση: (2025)
από: Gao, Xiancheng, κ.ά.
Έκδοση: (2025)
Παρόμοια τεκμήρια
-
Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning
από: Yuan, Rui, κ.ά.
Έκδοση: (2026) -
Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
από: Guo, Yiran, κ.ά.
Έκδοση: (2025) -
InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
από: Yang, Matthew Y. R., κ.ά.
Έκδοση: (2026) -
Reducing Credit Assignment Variance via Counterfactual Reasoning Paths
από: Ding, Fei, κ.ά.
Έκδοση: (2026) -
CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment
από: Xie, Guofu, κ.ά.
Έκδοση: (2025)