:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Ali, Dalia, Zhao, Dora, Koenecke, Allison, Papakyriakopoulos, Orestis
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2511.14476
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Engaged AI Governance: Addressing the Last Mile Challenge Through Internal Expert Collaboration
von: Jarvers, Simon, et al.
Veröffentlicht: (2026)

Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models
von: Guo, Hanze, et al.
Veröffentlicht: (2025)

VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models
von: Kim, Woojin, et al.
Veröffentlicht: (2026)

LIVS: A Pluralistic Alignment Dataset for Inclusive Public Spaces
von: Mushkani, Rashid, et al.
Veröffentlicht: (2025)

How Should AI Safety Benchmarks Benchmark Safety?
von: Yu, Cheng, et al.
Veröffentlicht: (2026)

Relative Principals, Pluralistic Alignment, and the Structural Value Alignment Problem
von: LaCroix, Travis
Veröffentlicht: (2026)

Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment
von: Chen, Jiajun, et al.
Veröffentlicht: (2026)

Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models
von: Tan, Yingshui, et al.
Veröffentlicht: (2025)

AI Adoption Across Mission-Driven Organizations
von: Ali, Dalia, et al.
Veröffentlicht: (2025)

The Pluralistic Moral Gap: Understanding Judgment and Value Differences between Humans and Large Language Models
von: Russo, Giuseppe, et al.
Veröffentlicht: (2025)

Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models
von: Chen, Pin-Yu, et al.
Veröffentlicht: (2025)

DVMap: Fine-Grained Pluralistic Value Alignment via High-Consensus Demographic-Value Mapping
von: Zhu, Pengyun, et al.
Veröffentlicht: (2026)

VISPA: Pluralistic Alignment via Automatic Value Selection and Activation
von: Zheng, Shenyan, et al.
Veröffentlicht: (2026)

Not My Voice! A Taxonomy of Ethical and Safety Harms of Speech Generators
von: Hutiri, Wiebke, et al.
Veröffentlicht: (2024)

MixDPO: Modeling Preference Strength for Pluralistic Alignment
von: Imai, Saki, et al.
Veröffentlicht: (2026)

Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs
von: Fonseca, Joao, et al.
Veröffentlicht: (2025)

Whose View of Safety? A Deep DIVE Dataset for Pluralistic Alignment of Text-to-Image Models
von: Rastogi, Charvi, et al.
Veröffentlicht: (2025)

Pluralistic Alignment Over Time
von: Klassen, Toryn Q., et al.
Veröffentlicht: (2024)

A Roadmap to Pluralistic Alignment
von: Sorensen, Taylor, et al.
Veröffentlicht: (2024)

Pairwise Calibrated Rewards for Pluralistic Alignment
von: Halpern, Daniel, et al.
Veröffentlicht: (2025)

Pluralistic Off-policy Evaluation and Alignment
von: Huang, Chengkai, et al.
Veröffentlicht: (2025)

PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization
von: Jiang, Han, et al.
Veröffentlicht: (2025)

SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation
von: Zhang, Wenyu, et al.
Veröffentlicht: (2024)

Position: Measure Dataset Diversity, Don't Just Claim It
von: Zhao, Dora, et al.
Veröffentlicht: (2024)

Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs
von: Thakkar, Megh, et al.
Veröffentlicht: (2024)

Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models
von: Nair, Inderjeet, et al.
Veröffentlicht: (2026)

Phare: A Safety Probe for Large Language Models
von: Jeune, Pierre Le, et al.
Veröffentlicht: (2025)

APPA: Adaptive Preference Pluralistic Alignment for Fair Federated RLHF of LLMs
von: Srewa, Mahmoud, et al.
Veröffentlicht: (2026)

Moral Persuasion in Large Language Models: Evaluating Susceptibility and Ethical Alignment
von: Huang, Allison, et al.
Veröffentlicht: (2024)

Unforgotten Safety: Preserving Safety Alignment of Large Language Models with Continual Learning
von: Alssum, Lama, et al.
Veröffentlicht: (2025)

Benchmarking Multi-National Value Alignment for Large Language Models
von: Shi, Weijie, et al.
Veröffentlicht: (2025)

Towards Context-Invariant Safety Alignment for Large Language Models
von: Wang, Yixu, et al.
Veröffentlicht: (2026)

Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges
von: Lu, Haoran, et al.
Veröffentlicht: (2025)

Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences?
von: Gu, Zhuojun, et al.
Veröffentlicht: (2025)

A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs
von: Srewa, Mahmoud, et al.
Veröffentlicht: (2025)

Exploring Accuracy-Fairness Trade-off in Large Language Models
von: Zhang, Qingquan, et al.
Veröffentlicht: (2024)

Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties
von: Sorensen, Taylor, et al.
Veröffentlicht: (2023)

VC-Soup: Value-Consistency Guided Multi-Value Alignment for Large Language Models
von: Xu, Hefei, et al.
Veröffentlicht: (2026)

Whose Truth? Pluralistic Geo-Alignment for (Agentic) AI
von: Janowicz, Krzysztof, et al.
Veröffentlicht: (2025)

Lifelong Safety Alignment for Language Models
von: Wang, Haoyu, et al.
Veröffentlicht: (2025)