সংরক্ষণ করুন:
| প্রধান লেখক: | Zhou, Zhanhui, Liu, Jie, Shao, Jing, Yue, Xiangyu, Yang, Chao, Ouyang, Wanli, Qiao, Yu |
|---|---|
| বিন্যাস: | Preprint |
| প্রকাশিত: |
2023
|
| বিষয়গুলি: | |
| অনলাইন ব্যবহার করুন: | https://arxiv.org/abs/2310.03708 |
| ট্যাগগুলো: |
ট্যাগ যুক্ত করুন
কোনো ট্যাগ নেই, প্রথমজন হিসাবে ট্যাগ করুন!
|
অনুরূপ উপাদানগুলি
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
অনুযায়ী: Liu, Jie, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Liu, Jie, অন্যান্য
প্রকাশিত: (2024)
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
অনুযায়ী: Zhou, Zhanhui, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Zhou, Zhanhui, অন্যান্য
প্রকাশিত: (2024)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
অনুযায়ী: Guo, Yiju, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Guo, Yiju, অন্যান্য
প্রকাশিত: (2024)
Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
অনুযায়ী: Wang, Haoxiang, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Wang, Haoxiang, অন্যান্য
প্রকাশিত: (2024)
Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey
অনুযায়ী: Dong, Zhichen, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Dong, Zhichen, অন্যান্য
প্রকাশিত: (2024)
Inference-Time Language Model Alignment via Integrated Value Guidance
অনুযায়ী: Liu, Zhixuan, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Liu, Zhixuan, অন্যান্য
প্রকাশিত: (2024)
Meta-Aligner: Bidirectional Preference-Policy Optimization for Multi-Objective LLMs Alignment
অনুযায়ী: Xu, Wenzhe, অন্যান্য
প্রকাশিত: (2026)
অনুযায়ী: Xu, Wenzhe, অন্যান্য
প্রকাশিত: (2026)
Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment
অনুযায়ী: Hou, Xiaoyang, অন্যান্য
প্রকাশিত: (2026)
অনুযায়ী: Hou, Xiaoyang, অন্যান্য
প্রকাশিত: (2026)
Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models
অনুযায়ী: Agnihotri, Akhil, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Agnihotri, Akhil, অন্যান্য
প্রকাশিত: (2025)
CompassDPO: Dynamics-Controlled Direct Preference Optimization for Robust Safety Alignment
অনুযায়ী: Liu, Jilong, অন্যান্য
প্রকাশিত: (2026)
অনুযায়ী: Liu, Jilong, অন্যান্য
প্রকাশিত: (2026)
Direct Preference-Based Evolutionary Multi-Objective Optimization with Dueling Bandit
অনুযায়ী: Huang, Tian, অন্যান্য
প্রকাশিত: (2023)
অনুযায়ী: Huang, Tian, অন্যান্য
প্রকাশিত: (2023)
Robust Multi-Objective Preference Alignment with Online DPO
অনুযায়ী: Gupta, Raghav, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Gupta, Raghav, অন্যান্য
প্রকাশিত: (2025)
Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier
অনুযায়ী: Badrinath, Anirudhan, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Badrinath, Anirudhan, অন্যান্য
প্রকাশিত: (2024)
Preference Orchestrator: Prompt-Aware Multi-Objective Alignment for Large Language Models
অনুযায়ী: Liu, Biao, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Liu, Biao, অন্যান্য
প্রকাশিত: (2025)
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
অনুযায়ী: Fu, Yuhan, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Fu, Yuhan, অন্যান্য
প্রকাশিত: (2024)
Listwise Direct Preference Optimization with Multi-Dimensional Preference Mixing
অনুযায়ী: Sun, Yuhui, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Sun, Yuhui, অন্যান্য
প্রকাশিত: (2025)
Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization
অনুযায়ী: Zhao, Zhiyuan, অন্যান্য
প্রকাশিত: (2023)
অনুযায়ী: Zhao, Zhiyuan, অন্যান্য
প্রকাশিত: (2023)
Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?
অনুযায়ী: Gölz, Paul, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Gölz, Paul, অন্যান্য
প্রকাশিত: (2025)
Orthogonal Finetuning for Direct Preference Optimization
অনুযায়ী: Yang, Chenxu, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Yang, Chenxu, অন্যান্য
প্রকাশিত: (2024)
Beyond One-Size-Fits-All: Adapting Counterfactual Explanations to User Objectives
অনুযায়ী: Mastromichalakis, Orfeas Menis, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Mastromichalakis, Orfeas Menis, অন্যান্য
প্রকাশিত: (2024)
Transition Models: Rethinking the Generative Learning Objective
অনুযায়ী: Wang, Zidong, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Wang, Zidong, অন্যান্য
প্রকাশিত: (2025)
Preference-Driven Multi-Objective Combinatorial Optimization with Conditional Computation
অনুযায়ী: Fan, Mingfeng, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Fan, Mingfeng, অন্যান্য
প্রকাশিত: (2025)
SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment
অনুযায়ী: Li, Xiangyu, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Li, Xiangyu, অন্যান্য
প্রকাশিত: (2025)
Beyond Preferences in AI Alignment
অনুযায়ী: Zhi-Xuan, Tan, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Zhi-Xuan, Tan, অন্যান্য
প্রকাশিত: (2024)
BPO: Revisiting Preference Modeling in Direct Preference Optimization
অনুযায়ী: Sun, Lin, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Sun, Lin, অন্যান্য
প্রকাশিত: (2025)
Direct Alignment with Heterogeneous Preferences
অনুযায়ী: Shirali, Ali, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Shirali, Ali, অন্যান্য
প্রকাশিত: (2025)
Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization
অনুযায়ী: Dong, Zhijin
প্রকাশিত: (2025)
অনুযায়ী: Dong, Zhijin
প্রকাশিত: (2025)
Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models
অনুযায়ী: Zhou, Zhanhui, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Zhou, Zhanhui, অন্যান্য
প্রকাশিত: (2024)
Preference-Guided Diffusion for Multi-Objective Offline Optimization
অনুযায়ী: Annadani, Yashas, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Annadani, Yashas, অন্যান্য
প্রকাশিত: (2025)
Multi-Objective Reward and Preference Optimization: Theory and Algorithms
অনুযায়ী: Agnihotri, Akhil
প্রকাশিত: (2025)
অনুযায়ী: Agnihotri, Akhil
প্রকাশিত: (2025)
Alignment with Preference Optimization Is All You Need for LLM Safety
অনুযায়ী: Alami, Reda, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Alami, Reda, অন্যান্য
প্রকাশিত: (2024)
Direct Judgement Preference Optimization
অনুযায়ী: Wang, Peifeng, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Wang, Peifeng, অন্যান্য
প্রকাশিত: (2024)
Direct Preference Optimization for LLM-Enhanced Recommendation Systems
অনুযায়ী: Sun, Chao, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Sun, Chao, অন্যান্য
প্রকাশিত: (2024)
Enhancing Multilingual Counterfactual Generation through Alignment-as-Preference Optimization
অনুযায়ী: Wang, Yilong, অন্যান্য
প্রকাশিত: (2026)
অনুযায়ী: Wang, Yilong, অন্যান্য
প্রকাশিত: (2026)
Data-Centric Human Preference with Rationales for Direct Preference Alignment
অনুযায়ী: Just, Hoang Anh, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Just, Hoang Anh, অন্যান্য
প্রকাশিত: (2024)
Forward versus Backward: Comparing Reasoning Objectives in Direct Preference Optimization
অনুযায়ী: Nikzad, Murtaza, অন্যান্য
প্রকাশিত: (2026)
অনুযায়ী: Nikzad, Murtaza, অন্যান্য
প্রকাশিত: (2026)
Self-Supervised Visual Preference Alignment
অনুযায়ী: Zhu, Ke, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Zhu, Ke, অন্যান্য
প্রকাশিত: (2024)
Self-Play Preference Optimization for Language Model Alignment
অনুযায়ী: Wu, Yue, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Wu, Yue, অন্যান্য
প্রকাশিত: (2024)
A Survey of Direct Preference Optimization
অনুযায়ী: Liu, Shunyu, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Liu, Shunyu, অন্যান্য
প্রকাশিত: (2025)
Preference Ranking Optimization for Human Alignment
অনুযায়ী: Song, Feifan, অন্যান্য
প্রকাশিত: (2023)
অনুযায়ী: Song, Feifan, অন্যান্য
প্রকাশিত: (2023)
অনুরূপ উপাদানগুলি
-
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
অনুযায়ী: Liu, Jie, অন্যান্য
প্রকাশিত: (2024) -
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
অনুযায়ী: Zhou, Zhanhui, অন্যান্য
প্রকাশিত: (2024) -
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
অনুযায়ী: Guo, Yiju, অন্যান্য
প্রকাশিত: (2024) -
Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
অনুযায়ী: Wang, Haoxiang, অন্যান্য
প্রকাশিত: (2024) -
Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey
অনুযায়ী: Dong, Zhichen, অন্যান্য
প্রকাশিত: (2024)