:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Stein, Adam, Brown, Davis, Hassani, Hamed, Naik, Mayur, Wong, Eric
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Artificial Intelligence Computation and Language
Accesso online:	https://arxiv.org/abs/2604.11806
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Once Upon an Input: Reasoning via Per-Instance Program Synthesis
di: Stein, Adam, et al.
Pubblicazione: (2025)

Adaptively profiling models with task elicitation
di: Brown, Davis, et al.
Pubblicazione: (2025)

Do We Need Frontier Models to Verify Mathematical Proofs?
di: Naik, Aaditya, et al.
Pubblicazione: (2026)

Towards Compositionality in Concept Learning
di: Stein, Adam, et al.
Pubblicazione: (2024)

Evaluating the Performance of Large Language Models via Debates
di: Moniri, Behrad, et al.
Pubblicazione: (2024)

BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks
di: Anupam, Sagnik, et al.
Pubblicazione: (2025)

Instruction Following by Principled Boosting Attention of Large Language Models
di: Guardieiro, Vitoria, et al.
Pubblicazione: (2025)

One-Shot Safety Alignment for Large Language Models via Optimal Dualization
di: Huang, Xinmeng, et al.
Pubblicazione: (2024)

Delta Activations: A Representation for Finetuned Large Language Models
di: Xu, Zhiqiu, et al.
Pubblicazione: (2025)

Lobster: A GPU-Accelerated Framework for Neurosymbolic Programming
di: Biberstein, Paul, et al.
Pubblicazione: (2025)

ReasoningShield: Safety Detection over Reasoning Traces of Large Reasoning Models
di: Li, Changyi, et al.
Pubblicazione: (2025)

Many-Tier Instruction Hierarchy in LLM Agents
di: Zhang, Jingyu, et al.
Pubblicazione: (2026)

Governed Memory: A Production Architecture for Multi-Agent Workflows
di: Taheri, Hamed
Pubblicazione: (2026)

Multi-Agent LLMs for Generating Research Limitations
di: Azher, Ibrahim Al, et al.
Pubblicazione: (2025)

Agent-Based Detection and Resolution of Incompleteness and Ambiguity in Interactions with Large Language Models
di: Naik, Riya, et al.
Pubblicazione: (2025)

TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces
di: Yang, Shu-Xun, et al.
Pubblicazione: (2026)

Policy-Invisible Violations in LLM-Based Agents
di: Wu, Jie, et al.
Pubblicazione: (2026)

In Machina N400: Pinpointing Where a Causal Language Model Detects Semantic Violations
di: Zacharopoulos, Christos-Nikolaos, et al.
Pubblicazione: (2025)

Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval
di: Thakur, Nandan, et al.
Pubblicazione: (2023)

Uncertainty in Language Models: Assessment through Rank-Calibration
di: Huang, Xinmeng, et al.
Pubblicazione: (2024)

An Empirical Study of Many-to-Many Summarization with Large Language Models
di: Wang, Jiaan, et al.
Pubblicazione: (2025)

Why Do Safety Guardrails Degrade Across Languages?
di: Zhang, Max, et al.
Pubblicazione: (2026)

An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
di: Nelson, Benjamin W., et al.
Pubblicazione: (2025)

CatRAG: Functor-Guided Structural Debiasing with Retrieval Augmentation for Fair LLMs
di: Ranjan, Ravi, et al.
Pubblicazione: (2026)

Cultural Compass: A Framework for Organizing Societal Norms to Detect Violations in Human-AI Conversations
di: Cheng, Myra, et al.
Pubblicazione: (2026)

Multimodal Situational Safety
di: Zhou, Kaiwen, et al.
Pubblicazione: (2024)

Benchmarking Misuse Mitigation Against Covert Adversaries
di: Brown, Davis, et al.
Pubblicazione: (2025)

Many-Turn Jailbreaking
di: Yang, Xianjun, et al.
Pubblicazione: (2025)

One Patient, Many Contexts: Scaling Medical AI with Contextual Intelligence
di: Li, Michelle M., et al.
Pubblicazione: (2025)

Probabilistic Consensus through Ensemble Validation: A Framework for LLM Reliability
di: Naik, Ninad
Pubblicazione: (2024)

Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents
di: Li, Xu, et al.
Pubblicazione: (2026)

Measuring Competency, Not Performance: Item-Aware Evaluation Across Medical Benchmarks
di: Luo, Zhimeng, et al.
Pubblicazione: (2025)

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems
di: Fukui, Hiroki
Pubblicazione: (2026)

Personality Expression Across Contexts: Linguistic and Behavioral Variation in LLM Agents
di: Han, Bin, et al.
Pubblicazione: (2026)

It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers
di: Cho, Yong-eun
Pubblicazione: (2026)

Relational Programming with Foundation Models
di: Li, Ziyang, et al.
Pubblicazione: (2024)

Few-shot Transfer Learning for Knowledge Base Question Answering: Fusing Supervised Models with In-Context Learning
di: Patidar, Mayur, et al.
Pubblicazione: (2023)

The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages
di: Onyame, Eric, et al.
Pubblicazione: (2026)

ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages
di: Ye, Junjie, et al.
Pubblicazione: (2024)

CRASH: Cognitive Reasoning Agent for Safety Hazards in Autonomous Driving
di: Silva, Erick, et al.
Pubblicazione: (2026)