:: Library Catalog

Obálka

Uloženo v:

Podrobná bibliografie
Hlavní autoři:	Pan, Jane, He, He, Bowman, Samuel R., Feng, Shi
Médium:	Preprint
Vydáno:	2024
Témata:	Computation and Language Artificial Intelligence
On-line přístup:	https://arxiv.org/abs/2407.04549
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!

Podobné jednotky

Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement
Autor: Gallego, Víctor
Vydáno: (2025)

Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort
Autor: Wang, Xinpeng, a další
Vydáno: (2025)

LLM Evaluators Recognize and Favor Their Own Generations
Autor: Panickssery, Arjun, a další
Vydáno: (2024)

Reward Shaping to Mitigate Reward Hacking in RLHF
Autor: Fu, Jiayi, a další
Vydáno: (2025)

Feedback Loops With Language Models Drive In-Context Reward Hacking
Autor: Pan, Alexander, a další
Vydáno: (2024)

Teaching Models to Verbalize Reward Hacking in Chain-of-Thought Reasoning
Autor: Turpin, Miles, a další
Vydáno: (2025)

ODIN: Disentangled Reward Mitigates Hacking in RLHF
Autor: Chen, Lichang, a další
Vydáno: (2024)

Monitoring Emergent Reward Hacking During Generation via Internal Activations
Autor: Wilhelm, Patrick, a další
Vydáno: (2026)

AIR: Complex Instruction Generation via Automatic Iterative Refinement
Autor: Liu, Wei, a další
Vydáno: (2025)

Mitigating Reward Hacking in RLHF via Advantage Sign Robustness
Autor: Ono, Shinnosuke, a další
Vydáno: (2026)

Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification
Autor: Zhang, Anqi, a další
Vydáno: (2025)

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards
Autor: Ackermann, Johannes, a další
Vydáno: (2026)

SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents
Autor: Zhao, Bingchen, a další
Vydáno: (2026)

Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment
Autor: Wang, Ye, a další
Vydáno: (2026)

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR
Autor: Khalifa, Muhammad, a další
Vydáno: (2026)

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards
Autor: Liu, Xiaoyuan, a další
Vydáno: (2025)

Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models
Autor: Denison, Carson, a další
Vydáno: (2024)

SCIR: A Self-Correcting Iterative Refinement Framework for Enhanced Information Extraction Based on Schema
Autor: Fang, Yushen, a další
Vydáno: (2025)

Iterative Translation Refinement with Large Language Models
Autor: Chen, Pinzhen, a další
Vydáno: (2023)

Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement
Autor: Xu, Wenda, a další
Vydáno: (2024)

Iterative Reasoning Preference Optimization
Autor: Pang, Richard Yuanzhe, a další
Vydáno: (2024)

Beyond the Binary: Capturing Diverse Preferences With Reward Regularization
Autor: Padmakumar, Vishakh, a další
Vydáno: (2024)

De Jure: Iterative LLM Self-Refinement for Structured Extraction of Regulatory Rules
Autor: Guliani, Keerat, a další
Vydáno: (2026)

Reward Model Overoptimisation in Iterated RLHF
Autor: Wolf, Lorenz, a další
Vydáno: (2025)

Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs
Autor: Sahoo, Subramanyam
Vydáno: (2026)

Tiny Reward Models
Autor: Pan, Sarah
Vydáno: (2025)

Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement
Autor: Yu, Simon, a další
Vydáno: (2024)

RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation
Autor: Zhou, Changzhi, a další
Vydáno: (2025)

Let's Think Dot by Dot: Hidden Computation in Transformer Language Models
Autor: Pfau, Jacob, a další
Vydáno: (2024)

Self-Improvement as Coherence Optimization: A Theoretical Account
Autor: Qiu, Tianyi, a další
Vydáno: (2026)

History-Guided Iterative Visual Reasoning with Self-Correction
Autor: Yang, Xinglong, a další
Vydáno: (2026)

Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
Autor: Liu, Chris Yuhao, a další
Vydáno: (2024)

Self-Rewarding Language Models
Autor: Yuan, Weizhe, a další
Vydáno: (2024)

Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model
Autor: He, Zhiwei, a další
Vydáno: (2024)

TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement
Autor: Feng, Zhaopeng, a další
Vydáno: (2024)

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents
Autor: Gao, Jiaxuan, a další
Vydáno: (2026)

SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment
Autor: Ai, Wei, a další
Vydáno: (2024)

FLAIRR-TS -- Forecasting LLM-Agents with Iterative Refinement and Retrieval for Time Series
Autor: Jalori, Gunjan, a další
Vydáno: (2025)

Evolutionary Guided Decoding: Iterative Value Refinement for LLMs
Autor: Liu, Zhenhua, a další
Vydáno: (2025)

Iterative Critique-Refine Framework for Enhancing LLM Personalization
Autor: Maram, Durga Prasad, a další
Vydáno: (2025)