Salvato in:
| Autori principali: | Horvitz, Eric, Conitzer, Vincent, McIlraith, Sheila, Stone, Peter |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2404.04750 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Formal Methods Meet LLMs: Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems
di: Alamdari, Parand A., et al.
Pubblicazione: (2026)
di: Alamdari, Parand A., et al.
Pubblicazione: (2026)
Pluralistic Alignment Over Time
di: Klassen, Toryn Q., et al.
Pubblicazione: (2024)
di: Klassen, Toryn Q., et al.
Pubblicazione: (2024)
Being Considerate as a Pathway Towards Pluralistic Alignment for Agentic AI
di: Alamdari, Parand A., et al.
Pubblicazione: (2024)
di: Alamdari, Parand A., et al.
Pubblicazione: (2024)
Remembering to Be Fair: Non-Markovian Fairness in Sequential Decision Making
di: Alamdari, Parand A., et al.
Pubblicazione: (2023)
di: Alamdari, Parand A., et al.
Pubblicazione: (2023)
Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers
di: Lifshitz, Shalev, et al.
Pubblicazione: (2025)
di: Lifshitz, Shalev, et al.
Pubblicazione: (2025)
Language Models For Generalised PDDL Planning: Synthesising Sound and Programmatic Policies
di: Chen, Dillon Z., et al.
Pubblicazione: (2025)
di: Chen, Dillon Z., et al.
Pubblicazione: (2025)
Learning Bilevel Policies over Symbolic World Models for Long-Horizon Planning
di: Chen, Dillon Z., et al.
Pubblicazione: (2026)
di: Chen, Dillon Z., et al.
Pubblicazione: (2026)
Accurate Measures of Vaccination and Concerns of Vaccine Holdouts from Web Search Logs
di: Chang, Serina, et al.
Pubblicazione: (2023)
di: Chang, Serina, et al.
Pubblicazione: (2023)
Narrative Frames: A New Approach to Analysing Metaphors in AI Ethics and Policy Discourse
di: Stone, Daniel
Pubblicazione: (2026)
di: Stone, Daniel
Pubblicazione: (2026)
Cheap Talk, Empty Promise: Frontier LLMs easily break public promises for self-interest
di: Shi, Jerick, et al.
Pubblicazione: (2026)
di: Shi, Jerick, et al.
Pubblicazione: (2026)
From Hallucination to Scheming: A Unified Taxonomy and Benchmark Analysis for LLM Deception
di: Shi, Jerick, et al.
Pubblicazione: (2026)
di: Shi, Jerick, et al.
Pubblicazione: (2026)
STEVE-1: A Generative Model for Text-to-Behavior in Minecraft
di: Lifshitz, Shalev, et al.
Pubblicazione: (2023)
di: Lifshitz, Shalev, et al.
Pubblicazione: (2023)
Satisficing and Optimal Generalised Planning via Goal Regression (Extended Version)
di: Chen, Dillon Z., et al.
Pubblicazione: (2025)
di: Chen, Dillon Z., et al.
Pubblicazione: (2025)
Expert Survey: AI Reliability & Security Research Priorities
di: O'Brien, Joe, et al.
Pubblicazione: (2025)
di: O'Brien, Joe, et al.
Pubblicazione: (2025)
The Singapore Consensus on Global AI Safety Research Priorities
di: Bengio, Yoshua, et al.
Pubblicazione: (2025)
di: Bengio, Yoshua, et al.
Pubblicazione: (2025)
Can AI Model the Complexities of Human Moral Decision-Making? A Qualitative Study of Kidney Allocation Decisions
di: Keswani, Vijay, et al.
Pubblicazione: (2025)
di: Keswani, Vijay, et al.
Pubblicazione: (2025)
Now More Than Ever, Foundational AI Research and Infrastructure Depends on the Federal Government
di: Taufer, Michela, et al.
Pubblicazione: (2025)
di: Taufer, Michela, et al.
Pubblicazione: (2025)
Moral Change or Noise? On Problems of Aligning AI With Temporally Unstable Human Feedback
di: Keswani, Vijay, et al.
Pubblicazione: (2025)
di: Keswani, Vijay, et al.
Pubblicazione: (2025)
Managing extreme AI risks amid rapid progress
di: Bengio, Yoshua, et al.
Pubblicazione: (2023)
di: Bengio, Yoshua, et al.
Pubblicazione: (2023)
It's Not the AI - It's Each of Us! Ten Commandments for the Wise & Responsible Use of AI
di: Steffen, Barbara, et al.
Pubblicazione: (2025)
di: Steffen, Barbara, et al.
Pubblicazione: (2025)
On the Pros and Cons of Active Learning for Moral Preference Elicitation
di: Keswani, Vijay, et al.
Pubblicazione: (2024)
di: Keswani, Vijay, et al.
Pubblicazione: (2024)
Better Training Data Attribution via Better Inverse Hessian-Vector Products
di: Wang, Andrew, et al.
Pubblicazione: (2025)
di: Wang, Andrew, et al.
Pubblicazione: (2025)
An LLM's Apology: Outsourcing Awkwardness in the Age of AI
di: Stone, Twm, et al.
Pubblicazione: (2025)
di: Stone, Twm, et al.
Pubblicazione: (2025)
Defense Priorities in the Open-Source AI Debate: A Preliminary Assessment
di: Dahlgren, Masao
Pubblicazione: (2024)
di: Dahlgren, Masao
Pubblicazione: (2024)
The Essentials of AI for Life and Society: A Full-Scale AI Literacy Course Accessible to All
di: Xu, Zifan, et al.
Pubblicazione: (2025)
di: Xu, Zifan, et al.
Pubblicazione: (2025)
Ground-Compose-Reinforce: Grounding Language in Agentic Behaviours using Limited Data
di: Li, Andrew C., et al.
Pubblicazione: (2025)
di: Li, Andrew C., et al.
Pubblicazione: (2025)
Pushdown Reward Machines for Reinforcement Learning
di: Varricchione, Giovanni, et al.
Pubblicazione: (2025)
di: Varricchione, Giovanni, et al.
Pubblicazione: (2025)
On The Stability of Moral Preferences: A Problem with Computational Elicitation Methods
di: Boerstler, Kyle, et al.
Pubblicazione: (2024)
di: Boerstler, Kyle, et al.
Pubblicazione: (2024)
The Complexity of Computing Robust Mediated Equilibria in Ordinal Games
di: Conitzer, Vincent
Pubblicazione: (2024)
di: Conitzer, Vincent
Pubblicazione: (2024)
AI-Generated Figures in Academic Publishing: Policies, Tools, and Practical Guidelines
di: Chen, Davie
Pubblicazione: (2026)
di: Chen, Davie
Pubblicazione: (2026)
The Doctor Will (Still) See You Now: On the Structural Limits of Agentic AI in Healthcare
di: Dias, Gabriela Aránguiz, et al.
Pubblicazione: (2026)
di: Dias, Gabriela Aránguiz, et al.
Pubblicazione: (2026)
Academics and Generative AI: Empirical and Epistemic Indicators of Policy-Practice Voids
di: Ravenor, R. Yamamoto
Pubblicazione: (2025)
di: Ravenor, R. Yamamoto
Pubblicazione: (2025)
Assessing Privacy Policies with AI: Ethical, Legal, and Technical Challenges
di: Aydin, Irem, et al.
Pubblicazione: (2024)
di: Aydin, Irem, et al.
Pubblicazione: (2024)
The Essentials of AI for Life and Society: An AI Literacy Course for the University Community
di: Biswas, Joydeep, et al.
Pubblicazione: (2025)
di: Biswas, Joydeep, et al.
Pubblicazione: (2025)
Analysis of Generative AI Policies in Computing Course Syllabi
di: Ali, Areej, et al.
Pubblicazione: (2024)
di: Ali, Areej, et al.
Pubblicazione: (2024)
Bridging the Gap: Integrating Ethics and Environmental Sustainability in AI Research and Practice
di: Luccioni, Alexandra Sasha, et al.
Pubblicazione: (2025)
di: Luccioni, Alexandra Sasha, et al.
Pubblicazione: (2025)
Research Superalignment Should Advance Now with Alternating Competence and Conformity Optimization
di: Kim, HyunJin, et al.
Pubblicazione: (2025)
di: Kim, HyunJin, et al.
Pubblicazione: (2025)
Gauss-Newton Unlearning for the LLM Era
di: McKinney, Lev, et al.
Pubblicazione: (2026)
di: McKinney, Lev, et al.
Pubblicazione: (2026)
Centering Policy and Practice: Research Gaps around Usable Differential Privacy
di: Cummings, Rachel, et al.
Pubblicazione: (2024)
di: Cummings, Rachel, et al.
Pubblicazione: (2024)
Now You See Me: Designing Responsible AI Dashboards for Early-Stage Health Innovation
di: Surodina, Svitlana, et al.
Pubblicazione: (2026)
di: Surodina, Svitlana, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Formal Methods Meet LLMs: Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems
di: Alamdari, Parand A., et al.
Pubblicazione: (2026) -
Pluralistic Alignment Over Time
di: Klassen, Toryn Q., et al.
Pubblicazione: (2024) -
Being Considerate as a Pathway Towards Pluralistic Alignment for Agentic AI
di: Alamdari, Parand A., et al.
Pubblicazione: (2024) -
Remembering to Be Fair: Non-Markovian Fairness in Sequential Decision Making
di: Alamdari, Parand A., et al.
Pubblicazione: (2023) -
Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers
di: Lifshitz, Shalev, et al.
Pubblicazione: (2025)