Uloženo v:
| Hlavní autoři: | Pan, Jane, He, He, Bowman, Samuel R., Feng, Shi |
|---|---|
| Médium: | Preprint |
| Vydáno: |
2024
|
| Témata: | |
| On-line přístup: | https://arxiv.org/abs/2407.04549 |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
Podobné jednotky
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement
Autor: Gallego, Víctor
Vydáno: (2025)
Autor: Gallego, Víctor
Vydáno: (2025)
Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort
Autor: Wang, Xinpeng, a další
Vydáno: (2025)
Autor: Wang, Xinpeng, a další
Vydáno: (2025)
LLM Evaluators Recognize and Favor Their Own Generations
Autor: Panickssery, Arjun, a další
Vydáno: (2024)
Autor: Panickssery, Arjun, a další
Vydáno: (2024)
Reward Shaping to Mitigate Reward Hacking in RLHF
Autor: Fu, Jiayi, a další
Vydáno: (2025)
Autor: Fu, Jiayi, a další
Vydáno: (2025)
Feedback Loops With Language Models Drive In-Context Reward Hacking
Autor: Pan, Alexander, a další
Vydáno: (2024)
Autor: Pan, Alexander, a další
Vydáno: (2024)
Teaching Models to Verbalize Reward Hacking in Chain-of-Thought Reasoning
Autor: Turpin, Miles, a další
Vydáno: (2025)
Autor: Turpin, Miles, a další
Vydáno: (2025)
ODIN: Disentangled Reward Mitigates Hacking in RLHF
Autor: Chen, Lichang, a další
Vydáno: (2024)
Autor: Chen, Lichang, a další
Vydáno: (2024)
Monitoring Emergent Reward Hacking During Generation via Internal Activations
Autor: Wilhelm, Patrick, a další
Vydáno: (2026)
Autor: Wilhelm, Patrick, a další
Vydáno: (2026)
AIR: Complex Instruction Generation via Automatic Iterative Refinement
Autor: Liu, Wei, a další
Vydáno: (2025)
Autor: Liu, Wei, a další
Vydáno: (2025)
Mitigating Reward Hacking in RLHF via Advantage Sign Robustness
Autor: Ono, Shinnosuke, a další
Vydáno: (2026)
Autor: Ono, Shinnosuke, a další
Vydáno: (2026)
Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification
Autor: Zhang, Anqi, a další
Vydáno: (2025)
Autor: Zhang, Anqi, a další
Vydáno: (2025)
Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards
Autor: Ackermann, Johannes, a další
Vydáno: (2026)
Autor: Ackermann, Johannes, a další
Vydáno: (2026)
SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents
Autor: Zhao, Bingchen, a další
Vydáno: (2026)
Autor: Zhao, Bingchen, a další
Vydáno: (2026)
Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment
Autor: Wang, Ye, a další
Vydáno: (2026)
Autor: Wang, Ye, a další
Vydáno: (2026)
Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR
Autor: Khalifa, Muhammad, a další
Vydáno: (2026)
Autor: Khalifa, Muhammad, a další
Vydáno: (2026)
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards
Autor: Liu, Xiaoyuan, a další
Vydáno: (2025)
Autor: Liu, Xiaoyuan, a další
Vydáno: (2025)
Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models
Autor: Denison, Carson, a další
Vydáno: (2024)
Autor: Denison, Carson, a další
Vydáno: (2024)
SCIR: A Self-Correcting Iterative Refinement Framework for Enhanced Information Extraction Based on Schema
Autor: Fang, Yushen, a další
Vydáno: (2025)
Autor: Fang, Yushen, a další
Vydáno: (2025)
Iterative Translation Refinement with Large Language Models
Autor: Chen, Pinzhen, a další
Vydáno: (2023)
Autor: Chen, Pinzhen, a další
Vydáno: (2023)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement
Autor: Xu, Wenda, a další
Vydáno: (2024)
Autor: Xu, Wenda, a další
Vydáno: (2024)
Iterative Reasoning Preference Optimization
Autor: Pang, Richard Yuanzhe, a další
Vydáno: (2024)
Autor: Pang, Richard Yuanzhe, a další
Vydáno: (2024)
Beyond the Binary: Capturing Diverse Preferences With Reward Regularization
Autor: Padmakumar, Vishakh, a další
Vydáno: (2024)
Autor: Padmakumar, Vishakh, a další
Vydáno: (2024)
De Jure: Iterative LLM Self-Refinement for Structured Extraction of Regulatory Rules
Autor: Guliani, Keerat, a další
Vydáno: (2026)
Autor: Guliani, Keerat, a další
Vydáno: (2026)
Reward Model Overoptimisation in Iterated RLHF
Autor: Wolf, Lorenz, a další
Vydáno: (2025)
Autor: Wolf, Lorenz, a další
Vydáno: (2025)
Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs
Autor: Sahoo, Subramanyam
Vydáno: (2026)
Autor: Sahoo, Subramanyam
Vydáno: (2026)
Tiny Reward Models
Autor: Pan, Sarah
Vydáno: (2025)
Autor: Pan, Sarah
Vydáno: (2025)
Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement
Autor: Yu, Simon, a další
Vydáno: (2024)
Autor: Yu, Simon, a další
Vydáno: (2024)
RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation
Autor: Zhou, Changzhi, a další
Vydáno: (2025)
Autor: Zhou, Changzhi, a další
Vydáno: (2025)
Let's Think Dot by Dot: Hidden Computation in Transformer Language Models
Autor: Pfau, Jacob, a další
Vydáno: (2024)
Autor: Pfau, Jacob, a další
Vydáno: (2024)
Self-Improvement as Coherence Optimization: A Theoretical Account
Autor: Qiu, Tianyi, a další
Vydáno: (2026)
Autor: Qiu, Tianyi, a další
Vydáno: (2026)
History-Guided Iterative Visual Reasoning with Self-Correction
Autor: Yang, Xinglong, a další
Vydáno: (2026)
Autor: Yang, Xinglong, a další
Vydáno: (2026)
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
Autor: Liu, Chris Yuhao, a další
Vydáno: (2024)
Autor: Liu, Chris Yuhao, a další
Vydáno: (2024)
Self-Rewarding Language Models
Autor: Yuan, Weizhe, a další
Vydáno: (2024)
Autor: Yuan, Weizhe, a další
Vydáno: (2024)
Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model
Autor: He, Zhiwei, a další
Vydáno: (2024)
Autor: He, Zhiwei, a další
Vydáno: (2024)
TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement
Autor: Feng, Zhaopeng, a další
Vydáno: (2024)
Autor: Feng, Zhaopeng, a další
Vydáno: (2024)
From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents
Autor: Gao, Jiaxuan, a další
Vydáno: (2026)
Autor: Gao, Jiaxuan, a další
Vydáno: (2026)
SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment
Autor: Ai, Wei, a další
Vydáno: (2024)
Autor: Ai, Wei, a další
Vydáno: (2024)
FLAIRR-TS -- Forecasting LLM-Agents with Iterative Refinement and Retrieval for Time Series
Autor: Jalori, Gunjan, a další
Vydáno: (2025)
Autor: Jalori, Gunjan, a další
Vydáno: (2025)
Evolutionary Guided Decoding: Iterative Value Refinement for LLMs
Autor: Liu, Zhenhua, a další
Vydáno: (2025)
Autor: Liu, Zhenhua, a další
Vydáno: (2025)
Iterative Critique-Refine Framework for Enhancing LLM Personalization
Autor: Maram, Durga Prasad, a další
Vydáno: (2025)
Autor: Maram, Durga Prasad, a další
Vydáno: (2025)
Podobné jednotky
-
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement
Autor: Gallego, Víctor
Vydáno: (2025) -
Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort
Autor: Wang, Xinpeng, a další
Vydáno: (2025) -
LLM Evaluators Recognize and Favor Their Own Generations
Autor: Panickssery, Arjun, a další
Vydáno: (2024) -
Reward Shaping to Mitigate Reward Hacking in RLHF
Autor: Fu, Jiayi, a další
Vydáno: (2025) -
Feedback Loops With Language Models Drive In-Context Reward Hacking
Autor: Pan, Alexander, a další
Vydáno: (2024)