:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Choi, Dasol, Kim, Eugenia, Noh, Jaewon, Seo, Sang, Kim, Eunmi, Oh, Myunggyo, Park, Yunjin, Kartono, Brigitta Jesica, Pichlmeier, Josef, Berndt, Helena, Mendu, Sai Krishna, Tungka, Glenn Johannes, Gökçe, Özlem, Gehlot, Suresh, Pratt, Katherine, Minnich, Amanda, Park, Haon
Format:	Preprint
Publié:	2026
Sujets:	Computation and Language Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2605.05662
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
par: Choi, Dasol, et autres
Publié: (2026)

Responsible AI Technical Report
par: KT, et autres
Publié: (2025)

Agent-SafetyBench: Evaluating the Safety of LLM Agents
par: Zhang, Zhexin, et autres
Publié: (2024)

SafetyBench: Evaluating the Safety of Large Language Models
par: Zhang, Zhexin, et autres
Publié: (2023)

Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders
par: Kim, Jinseok, et autres
Publié: (2024)

Efficient Design of Fronthaul-Constrained Uplink Reception for Cell-Free XL-MIMO
par: Kim, Dogon, et autres
Publié: (2026)

Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs
par: Liu, Xuannan, et autres
Publié: (2025)

ELITE: Enhanced Language-Image Toxicity Evaluation for Safety
par: Lee, Wonjun, et autres
Publié: (2025)

Mild Reduction‐Mediated NK Cell Membrane Modification for ROS Scavenging Efficacy Overcome Immunosuppressive Tumor Microenvironment
par: Kyung Mu Noh, et autres
Publié: (2025)

Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models
par: Shi, Enyi, et autres
Publié: (2026)

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models
par: Liu, Xin, et autres
Publié: (2023)

Ko-PIQA: A Korean Physical Commonsense Reasoning Dataset with Cultural Context
par: Choi, Dasol, et autres
Publié: (2025)

Preparative, Enactive, and Intertwined Theories of Change: Cultural Practitioners Influencing Conflict in Ecuador
par: Sarah Ullom-Minnich
Publié: (2019)

Omni-SafetyBench: A Benchmark for Safety Evaluation of Audio-Visual Large Language Models
par: Pan, Leyi, et autres
Publié: (2025)

ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks
par: Kim, Hyunjun, et autres
Publié: (2025)

X-Teaming Evolutionary M2S: Automated Discovery of Multi-turn to Single-turn Jailbreak Templates
par: Kim, Hyunjun, et autres
Publié: (2025)

When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models
par: Choi, Dasol, et autres
Publié: (2026)

R1-ACT: Efficient Reasoning Model Safety Alignment by Activating Safety Knowledge
par: In, Yeonjun, et autres
Publié: (2025)

Assessing Socio-Cultural Alignment and Technical Safety of Sovereign LLMs
par: Chae, Kyubyung, et autres
Publié: (2025)

Chapter iSafeIncentive: Transforming Construction Safety Culture through Blockchain Incentives
par: Kim, Dohyeong, et autres
Publié: (2024)

When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs
par: Dingeto, Hiskias, et autres
Publié: (2025)

Safety Cultures, Safety Models
Publié: (2020)

Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
par: In, Yeonjun, et autres
Publié: (2025)

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers
par: Zong, Xuanjun, et autres
Publié: (2025)

M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs
par: Ha, Junwoo, et autres
Publié: (2025)

Reasoning Structure Matters for Safety Alignment of Reasoning Models
par: In, Yeonjun, et autres
Publié: (2026)

Jailbreaking on Text-to-Video Models via Scene Splitting Strategy
par: Lee, Wonjun, et autres
Publié: (2025)

Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models
par: Panpatil, Siddhant, et autres
Publié: (2025)

Inequalities and asymptotics for hook lengths in $\ell$-regular partitions and $\ell$-distinct partitions
par: Kim, Eunmi
Publié: (2025)

PHASOR: Phase-Anchored Universal Action Representations for Humanoid Embodiments
par: Kim, Kihyun, et autres
Publié: (2026)

Conical Kähler-Einstein metrics on K-unstable del Pezzo surfaces
par: Jeong, Dasol, et autres
Publié: (2025)

Cultural Diversity in Motion
par: Canyürek, Özlem
Publié: (2024)

CSTA: CNN-based Spatiotemporal Attention for Video Summarization
par: Son, Jaewon, et autres
Publié: (2024)

The Cultural Construction of Safety and Security
Publié: (2023)

The Cultural Construction of Safety and Security
Publié: (2025)

Guard Vector: Beyond English LLM Guardrails with Task-Vector Composition and Streaming-Aware Prefix SFT
par: Lee, Wonhyuk, et autres
Publié: (2025)

Safety-Guided Flow (SGF): A Unified Framework for Negative Guidance in Safe Generation
par: Kim, Mingyu, et autres
Publié: (2026)

sudo rm -rf agentic_security
par: Lee, Sejin, et autres
Publié: (2025)

IndoSafety: Culturally Grounded Safety for LLMs in Indonesian Languages
par: Azmi, Muhammad Falensi, et autres
Publié: (2025)

Promoting a Patient Safety Culture
Publié: (2025)