Gespeichert in:
| Hauptverfasser: | Ali, Dalia, Zhao, Dora, Koenecke, Allison, Papakyriakopoulos, Orestis |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2511.14476 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Engaged AI Governance: Addressing the Last Mile Challenge Through Internal Expert Collaboration
von: Jarvers, Simon, et al.
Veröffentlicht: (2026)
von: Jarvers, Simon, et al.
Veröffentlicht: (2026)
Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models
von: Guo, Hanze, et al.
Veröffentlicht: (2025)
von: Guo, Hanze, et al.
Veröffentlicht: (2025)
VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models
von: Kim, Woojin, et al.
Veröffentlicht: (2026)
von: Kim, Woojin, et al.
Veröffentlicht: (2026)
LIVS: A Pluralistic Alignment Dataset for Inclusive Public Spaces
von: Mushkani, Rashid, et al.
Veröffentlicht: (2025)
von: Mushkani, Rashid, et al.
Veröffentlicht: (2025)
How Should AI Safety Benchmarks Benchmark Safety?
von: Yu, Cheng, et al.
Veröffentlicht: (2026)
von: Yu, Cheng, et al.
Veröffentlicht: (2026)
Relative Principals, Pluralistic Alignment, and the Structural Value Alignment Problem
von: LaCroix, Travis
Veröffentlicht: (2026)
von: LaCroix, Travis
Veröffentlicht: (2026)
Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment
von: Chen, Jiajun, et al.
Veröffentlicht: (2026)
von: Chen, Jiajun, et al.
Veröffentlicht: (2026)
Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models
von: Tan, Yingshui, et al.
Veröffentlicht: (2025)
von: Tan, Yingshui, et al.
Veröffentlicht: (2025)
AI Adoption Across Mission-Driven Organizations
von: Ali, Dalia, et al.
Veröffentlicht: (2025)
von: Ali, Dalia, et al.
Veröffentlicht: (2025)
The Pluralistic Moral Gap: Understanding Judgment and Value Differences between Humans and Large Language Models
von: Russo, Giuseppe, et al.
Veröffentlicht: (2025)
von: Russo, Giuseppe, et al.
Veröffentlicht: (2025)
Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models
von: Chen, Pin-Yu, et al.
Veröffentlicht: (2025)
von: Chen, Pin-Yu, et al.
Veröffentlicht: (2025)
DVMap: Fine-Grained Pluralistic Value Alignment via High-Consensus Demographic-Value Mapping
von: Zhu, Pengyun, et al.
Veröffentlicht: (2026)
von: Zhu, Pengyun, et al.
Veröffentlicht: (2026)
VISPA: Pluralistic Alignment via Automatic Value Selection and Activation
von: Zheng, Shenyan, et al.
Veröffentlicht: (2026)
von: Zheng, Shenyan, et al.
Veröffentlicht: (2026)
Not My Voice! A Taxonomy of Ethical and Safety Harms of Speech Generators
von: Hutiri, Wiebke, et al.
Veröffentlicht: (2024)
von: Hutiri, Wiebke, et al.
Veröffentlicht: (2024)
MixDPO: Modeling Preference Strength for Pluralistic Alignment
von: Imai, Saki, et al.
Veröffentlicht: (2026)
von: Imai, Saki, et al.
Veröffentlicht: (2026)
Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs
von: Fonseca, Joao, et al.
Veröffentlicht: (2025)
von: Fonseca, Joao, et al.
Veröffentlicht: (2025)
Whose View of Safety? A Deep DIVE Dataset for Pluralistic Alignment of Text-to-Image Models
von: Rastogi, Charvi, et al.
Veröffentlicht: (2025)
von: Rastogi, Charvi, et al.
Veröffentlicht: (2025)
Pluralistic Alignment Over Time
von: Klassen, Toryn Q., et al.
Veröffentlicht: (2024)
von: Klassen, Toryn Q., et al.
Veröffentlicht: (2024)
A Roadmap to Pluralistic Alignment
von: Sorensen, Taylor, et al.
Veröffentlicht: (2024)
von: Sorensen, Taylor, et al.
Veröffentlicht: (2024)
Pairwise Calibrated Rewards for Pluralistic Alignment
von: Halpern, Daniel, et al.
Veröffentlicht: (2025)
von: Halpern, Daniel, et al.
Veröffentlicht: (2025)
Pluralistic Off-policy Evaluation and Alignment
von: Huang, Chengkai, et al.
Veröffentlicht: (2025)
von: Huang, Chengkai, et al.
Veröffentlicht: (2025)
PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization
von: Jiang, Han, et al.
Veröffentlicht: (2025)
von: Jiang, Han, et al.
Veröffentlicht: (2025)
SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation
von: Zhang, Wenyu, et al.
Veröffentlicht: (2024)
von: Zhang, Wenyu, et al.
Veröffentlicht: (2024)
Position: Measure Dataset Diversity, Don't Just Claim It
von: Zhao, Dora, et al.
Veröffentlicht: (2024)
von: Zhao, Dora, et al.
Veröffentlicht: (2024)
Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs
von: Thakkar, Megh, et al.
Veröffentlicht: (2024)
von: Thakkar, Megh, et al.
Veröffentlicht: (2024)
Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models
von: Nair, Inderjeet, et al.
Veröffentlicht: (2026)
von: Nair, Inderjeet, et al.
Veröffentlicht: (2026)
Phare: A Safety Probe for Large Language Models
von: Jeune, Pierre Le, et al.
Veröffentlicht: (2025)
von: Jeune, Pierre Le, et al.
Veröffentlicht: (2025)
APPA: Adaptive Preference Pluralistic Alignment for Fair Federated RLHF of LLMs
von: Srewa, Mahmoud, et al.
Veröffentlicht: (2026)
von: Srewa, Mahmoud, et al.
Veröffentlicht: (2026)
Moral Persuasion in Large Language Models: Evaluating Susceptibility and Ethical Alignment
von: Huang, Allison, et al.
Veröffentlicht: (2024)
von: Huang, Allison, et al.
Veröffentlicht: (2024)
Unforgotten Safety: Preserving Safety Alignment of Large Language Models with Continual Learning
von: Alssum, Lama, et al.
Veröffentlicht: (2025)
von: Alssum, Lama, et al.
Veröffentlicht: (2025)
Benchmarking Multi-National Value Alignment for Large Language Models
von: Shi, Weijie, et al.
Veröffentlicht: (2025)
von: Shi, Weijie, et al.
Veröffentlicht: (2025)
Towards Context-Invariant Safety Alignment for Large Language Models
von: Wang, Yixu, et al.
Veröffentlicht: (2026)
von: Wang, Yixu, et al.
Veröffentlicht: (2026)
Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges
von: Lu, Haoran, et al.
Veröffentlicht: (2025)
von: Lu, Haoran, et al.
Veröffentlicht: (2025)
Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences?
von: Gu, Zhuojun, et al.
Veröffentlicht: (2025)
von: Gu, Zhuojun, et al.
Veröffentlicht: (2025)
A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs
von: Srewa, Mahmoud, et al.
Veröffentlicht: (2025)
von: Srewa, Mahmoud, et al.
Veröffentlicht: (2025)
Exploring Accuracy-Fairness Trade-off in Large Language Models
von: Zhang, Qingquan, et al.
Veröffentlicht: (2024)
von: Zhang, Qingquan, et al.
Veröffentlicht: (2024)
Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties
von: Sorensen, Taylor, et al.
Veröffentlicht: (2023)
von: Sorensen, Taylor, et al.
Veröffentlicht: (2023)
VC-Soup: Value-Consistency Guided Multi-Value Alignment for Large Language Models
von: Xu, Hefei, et al.
Veröffentlicht: (2026)
von: Xu, Hefei, et al.
Veröffentlicht: (2026)
Whose Truth? Pluralistic Geo-Alignment for (Agentic) AI
von: Janowicz, Krzysztof, et al.
Veröffentlicht: (2025)
von: Janowicz, Krzysztof, et al.
Veröffentlicht: (2025)
Lifelong Safety Alignment for Language Models
von: Wang, Haoyu, et al.
Veröffentlicht: (2025)
von: Wang, Haoyu, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Engaged AI Governance: Addressing the Last Mile Challenge Through Internal Expert Collaboration
von: Jarvers, Simon, et al.
Veröffentlicht: (2026) -
Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models
von: Guo, Hanze, et al.
Veröffentlicht: (2025) -
VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models
von: Kim, Woojin, et al.
Veröffentlicht: (2026) -
LIVS: A Pluralistic Alignment Dataset for Inclusive Public Spaces
von: Mushkani, Rashid, et al.
Veröffentlicht: (2025) -
How Should AI Safety Benchmarks Benchmark Safety?
von: Yu, Cheng, et al.
Veröffentlicht: (2026)