:: Library Catalog

প্রচ্ছদ

সংরক্ষণ করুন:

গ্রন্থ-পঞ্জীর বিবরন
প্রধান লেখক:	Zhou, Zhanhui, Liu, Jie, Shao, Jing, Yue, Xiangyu, Yang, Chao, Ouyang, Wanli, Qiao, Yu
বিন্যাস:	Preprint
প্রকাশিত:	2023
বিষয়গুলি:	Machine Learning Artificial Intelligence
অনলাইন ব্যবহার করুন:	https://arxiv.org/abs/2310.03708
ট্যাগগুলো:	ট্যাগ যুক্ত করুন কোনো ট্যাগ নেই, প্রথমজন হিসাবে ট্যাগ করুন!

অনুরূপ উপাদানগুলি

Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
অনুযায়ী: Liu, Jie, অন্যান্য
প্রকাশিত: (2024)

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
অনুযায়ী: Zhou, Zhanhui, অন্যান্য
প্রকাশিত: (2024)

Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
অনুযায়ী: Guo, Yiju, অন্যান্য
প্রকাশিত: (2024)

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
অনুযায়ী: Wang, Haoxiang, অন্যান্য
প্রকাশিত: (2024)

Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey
অনুযায়ী: Dong, Zhichen, অন্যান্য
প্রকাশিত: (2024)

Inference-Time Language Model Alignment via Integrated Value Guidance
অনুযায়ী: Liu, Zhixuan, অন্যান্য
প্রকাশিত: (2024)

Meta-Aligner: Bidirectional Preference-Policy Optimization for Multi-Objective LLMs Alignment
অনুযায়ী: Xu, Wenzhe, অন্যান্য
প্রকাশিত: (2026)

Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment
অনুযায়ী: Hou, Xiaoyang, অন্যান্য
প্রকাশিত: (2026)

Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models
অনুযায়ী: Agnihotri, Akhil, অন্যান্য
প্রকাশিত: (2025)

CompassDPO: Dynamics-Controlled Direct Preference Optimization for Robust Safety Alignment
অনুযায়ী: Liu, Jilong, অন্যান্য
প্রকাশিত: (2026)

Direct Preference-Based Evolutionary Multi-Objective Optimization with Dueling Bandit
অনুযায়ী: Huang, Tian, অন্যান্য
প্রকাশিত: (2023)

Robust Multi-Objective Preference Alignment with Online DPO
অনুযায়ী: Gupta, Raghav, অন্যান্য
প্রকাশিত: (2025)

Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier
অনুযায়ী: Badrinath, Anirudhan, অন্যান্য
প্রকাশিত: (2024)

Preference Orchestrator: Prompt-Aware Multi-Objective Alignment for Large Language Models
অনুযায়ী: Liu, Biao, অন্যান্য
প্রকাশিত: (2025)

Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
অনুযায়ী: Fu, Yuhan, অন্যান্য
প্রকাশিত: (2024)

Listwise Direct Preference Optimization with Multi-Dimensional Preference Mixing
অনুযায়ী: Sun, Yuhui, অন্যান্য
প্রকাশিত: (2025)

Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization
অনুযায়ী: Zhao, Zhiyuan, অন্যান্য
প্রকাশিত: (2023)

Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?
অনুযায়ী: Gölz, Paul, অন্যান্য
প্রকাশিত: (2025)

Orthogonal Finetuning for Direct Preference Optimization
অনুযায়ী: Yang, Chenxu, অন্যান্য
প্রকাশিত: (2024)

Beyond One-Size-Fits-All: Adapting Counterfactual Explanations to User Objectives
অনুযায়ী: Mastromichalakis, Orfeas Menis, অন্যান্য
প্রকাশিত: (2024)

Transition Models: Rethinking the Generative Learning Objective
অনুযায়ী: Wang, Zidong, অন্যান্য
প্রকাশিত: (2025)

Preference-Driven Multi-Objective Combinatorial Optimization with Conditional Computation
অনুযায়ী: Fan, Mingfeng, অন্যান্য
প্রকাশিত: (2025)

SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment
অনুযায়ী: Li, Xiangyu, অন্যান্য
প্রকাশিত: (2025)

Beyond Preferences in AI Alignment
অনুযায়ী: Zhi-Xuan, Tan, অন্যান্য
প্রকাশিত: (2024)

BPO: Revisiting Preference Modeling in Direct Preference Optimization
অনুযায়ী: Sun, Lin, অন্যান্য
প্রকাশিত: (2025)

Direct Alignment with Heterogeneous Preferences
অনুযায়ী: Shirali, Ali, অন্যান্য
প্রকাশিত: (2025)

Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization
অনুযায়ী: Dong, Zhijin
প্রকাশিত: (2025)

Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models
অনুযায়ী: Zhou, Zhanhui, অন্যান্য
প্রকাশিত: (2024)

Preference-Guided Diffusion for Multi-Objective Offline Optimization
অনুযায়ী: Annadani, Yashas, অন্যান্য
প্রকাশিত: (2025)

Multi-Objective Reward and Preference Optimization: Theory and Algorithms
অনুযায়ী: Agnihotri, Akhil
প্রকাশিত: (2025)

Alignment with Preference Optimization Is All You Need for LLM Safety
অনুযায়ী: Alami, Reda, অন্যান্য
প্রকাশিত: (2024)

Direct Judgement Preference Optimization
অনুযায়ী: Wang, Peifeng, অন্যান্য
প্রকাশিত: (2024)

Direct Preference Optimization for LLM-Enhanced Recommendation Systems
অনুযায়ী: Sun, Chao, অন্যান্য
প্রকাশিত: (2024)

Enhancing Multilingual Counterfactual Generation through Alignment-as-Preference Optimization
অনুযায়ী: Wang, Yilong, অন্যান্য
প্রকাশিত: (2026)

Data-Centric Human Preference with Rationales for Direct Preference Alignment
অনুযায়ী: Just, Hoang Anh, অন্যান্য
প্রকাশিত: (2024)

Forward versus Backward: Comparing Reasoning Objectives in Direct Preference Optimization
অনুযায়ী: Nikzad, Murtaza, অন্যান্য
প্রকাশিত: (2026)

Self-Supervised Visual Preference Alignment
অনুযায়ী: Zhu, Ke, অন্যান্য
প্রকাশিত: (2024)

Self-Play Preference Optimization for Language Model Alignment
অনুযায়ী: Wu, Yue, অন্যান্য
প্রকাশিত: (2024)

A Survey of Direct Preference Optimization
অনুযায়ী: Liu, Shunyu, অন্যান্য
প্রকাশিত: (2025)

Preference Ranking Optimization for Human Alignment
অনুযায়ী: Song, Feifan, অন্যান্য
প্রকাশিত: (2023)