:: Library Catalog

Εξώφυλλο

Αποθηκεύτηκε σε:

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριοι συγγραφείς:	Khandoga, Mykola, Yuan, Rui, Sankarapu, Vinay Kumar
Μορφή:	Preprint
Έκδοση:	2026
Θέματα:	Computation and Language Artificial Intelligence Machine Learning
Διαθέσιμο Online:	https://arxiv.org/abs/2602.09331
Ετικέτες:	Προσθήκη ετικέτας Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!

Παρόμοια τεκμήρια

Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning
από: Yuan, Rui, κ.ά.
Έκδοση: (2026)

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
από: Guo, Yiran, κ.ά.
Έκδοση: (2025)

InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
από: Yang, Matthew Y. R., κ.ά.
Έκδοση: (2026)

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths
από: Ding, Fei, κ.ά.
Έκδοση: (2026)

CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment
από: Xie, Guofu, κ.ά.
Έκδοση: (2025)

Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR
από: Mou, Chaoli, κ.ά.
Έκδοση: (2026)

AlignTune: Modular Toolkit for Post-Training Alignment of Large Language Models
από: Lyngkhoi, R E Zera Marveen, κ.ά.
Έκδοση: (2026)

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models
από: Monsefi, Amin Karimi, κ.ά.
Έκδοση: (2026)

DLBacktrace: A Model Agnostic Explainability for any Deep Learning Models
από: Sankarapu, Vinay Kumar, κ.ά.
Έκδοση: (2024)

Data Presentation Over Architecture: Resampling Strategies for Credit Risk Prediction with Tabular Foundation Models
από: Tanna, Aditya, κ.ά.
Έκδοση: (2026)

From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning
από: Jiang, Xitai, κ.ά.
Έκδοση: (2026)

From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation
από: Kiulian, Artur, κ.ά.
Έκδοση: (2024)

DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment
από: Jin, Hongbo, κ.ά.
Έκδοση: (2026)

In-Context Credit Assignment via the Core
από: Harris, Keegan, κ.ά.
Έκδοση: (2026)

Stepwise Credit Assignment for GRPO on Flow-Matching Models
από: Savani, Yash, κ.ά.
Έκδοση: (2026)

Position: Behavioural Assurance Cannot Verify the Safety Claims Governance Now Demands
από: Seth, Pratinav, κ.ά.
Έκδοση: (2026)

Bridging the Gap in XAI-Why Reliable Metrics Matter for Explainability and Compliance
από: Seth, Pratinav, κ.ά.
Έκδοση: (2025)

CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection
από: Song, Yiliang, κ.ά.
Έκδοση: (2026)

Causally-Enhanced Reinforcement Policy Optimization
από: Wang, Xiangqi, κ.ά.
Έκδοση: (2025)

Intrinsic Credit Assignment for Long Horizon Interaction
από: Auzina, Ilze Amanda, κ.ά.
Έκδοση: (2026)

OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning
από: Li, Yu, κ.ά.
Έκδοση: (2026)

TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback
από: Low, Siow Meng, κ.ά.
Έκδοση: (2025)

Empowering Many, Biasing a Few: Generalist Credit Scoring through Large Language Models
από: Feng, Duanyu, κ.ά.
Έκδοση: (2023)

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core
από: Ji, Mengda, κ.ά.
Έκδοση: (2025)

Hindsight Credit Assignment for Long-Horizon LLM Agents
από: Tan, Hui-Ze, κ.ά.
Έκδοση: (2026)

Exact Is Easier: Credit Assignment for Cooperative LLM Agents
από: Chen, Yanjun, κ.ά.
Έκδοση: (2026)

GRPO-$λ$: Credit Assignment improves LLM Reasoning
από: Parthasarathi, Prasanna, κ.ά.
Έκδοση: (2025)

Knowing When to Ask: Segment-Level Credit Assignment for LLM Tool Use
από: Kumar, Abhijit, κ.ά.
Έκδοση: (2026)

RTMC: Step-Level Credit Assignment via Rollout Trees
από: Wang, Tao, κ.ά.
Έκδοση: (2026)

Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning
από: Ramesh, Aditya A., κ.ά.
Έκδοση: (2024)

A Survey of Temporal Credit Assignment in Deep Reinforcement Learning
από: Pignatelli, Eduardo, κ.ά.
Έκδοση: (2023)

PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models
από: Lee, Jeongjae, κ.ά.
Έκδοση: (2025)

Interpretability as Alignment: Making Internal Understanding a Design Principle
από: Sengupta, Aadit, κ.ά.
Έκδοση: (2025)

Credit Assignment via Neural Manifold Noise Correlation
από: Kang, Byungwoo, κ.ά.
Έκδοση: (2026)

COSAC: Counterfactual Credit Assignment in Sequential Cooperative Teams
από: Deshmukh, Shripad, κ.ά.
Έκδοση: (2026)

Agent-Temporal Credit Assignment for Optimal Policy Preservation in Sparse Multi-Agent Reinforcement Learning
από: Kapoor, Aditya, κ.ά.
Έκδοση: (2024)

VinePPO: Refining Credit Assignment in RL Training of LLMs
από: Kazemnejad, Amirhossein, κ.ά.
Έκδοση: (2024)

Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution
από: Sadhu, Saisab, κ.ά.
Έκδοση: (2026)

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate
από: Lafuente-Mercado, Rodney
Έκδοση: (2026)

Search-Based Credit Assignment for Offline Preference-Based Reinforcement Learning
από: Gao, Xiancheng, κ.ά.
Έκδοση: (2025)