Enregistré dans:
| Auteurs principaux: | Choi, Dasol, Kim, Eugenia, Noh, Jaewon, Seo, Sang, Kim, Eunmi, Oh, Myunggyo, Park, Yunjin, Kartono, Brigitta Jesica, Pichlmeier, Josef, Berndt, Helena, Mendu, Sai Krishna, Tungka, Glenn Johannes, Gökçe, Özlem, Gehlot, Suresh, Pratt, Katherine, Minnich, Amanda, Park, Haon |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2605.05662 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
par: Choi, Dasol, et autres
Publié: (2026)
par: Choi, Dasol, et autres
Publié: (2026)
Responsible AI Technical Report
par: KT, et autres
Publié: (2025)
par: KT, et autres
Publié: (2025)
Agent-SafetyBench: Evaluating the Safety of LLM Agents
par: Zhang, Zhexin, et autres
Publié: (2024)
par: Zhang, Zhexin, et autres
Publié: (2024)
SafetyBench: Evaluating the Safety of Large Language Models
par: Zhang, Zhexin, et autres
Publié: (2023)
par: Zhang, Zhexin, et autres
Publié: (2023)
Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders
par: Kim, Jinseok, et autres
Publié: (2024)
par: Kim, Jinseok, et autres
Publié: (2024)
Efficient Design of Fronthaul-Constrained Uplink Reception for Cell-Free XL-MIMO
par: Kim, Dogon, et autres
Publié: (2026)
par: Kim, Dogon, et autres
Publié: (2026)
Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs
par: Liu, Xuannan, et autres
Publié: (2025)
par: Liu, Xuannan, et autres
Publié: (2025)
ELITE: Enhanced Language-Image Toxicity Evaluation for Safety
par: Lee, Wonjun, et autres
Publié: (2025)
par: Lee, Wonjun, et autres
Publié: (2025)
Mild Reduction‐Mediated NK Cell Membrane Modification for ROS Scavenging Efficacy Overcome Immunosuppressive Tumor Microenvironment
par: Kyung Mu Noh, et autres
Publié: (2025)
par: Kyung Mu Noh, et autres
Publié: (2025)
Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models
par: Shi, Enyi, et autres
Publié: (2026)
par: Shi, Enyi, et autres
Publié: (2026)
MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models
par: Liu, Xin, et autres
Publié: (2023)
par: Liu, Xin, et autres
Publié: (2023)
Ko-PIQA: A Korean Physical Commonsense Reasoning Dataset with Cultural Context
par: Choi, Dasol, et autres
Publié: (2025)
par: Choi, Dasol, et autres
Publié: (2025)
Preparative, Enactive, and Intertwined Theories of Change: Cultural Practitioners Influencing Conflict in Ecuador
par: Sarah Ullom-Minnich
Publié: (2019)
par: Sarah Ullom-Minnich
Publié: (2019)
Omni-SafetyBench: A Benchmark for Safety Evaluation of Audio-Visual Large Language Models
par: Pan, Leyi, et autres
Publié: (2025)
par: Pan, Leyi, et autres
Publié: (2025)
ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks
par: Kim, Hyunjun, et autres
Publié: (2025)
par: Kim, Hyunjun, et autres
Publié: (2025)
X-Teaming Evolutionary M2S: Automated Discovery of Multi-turn to Single-turn Jailbreak Templates
par: Kim, Hyunjun, et autres
Publié: (2025)
par: Kim, Hyunjun, et autres
Publié: (2025)
When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models
par: Choi, Dasol, et autres
Publié: (2026)
par: Choi, Dasol, et autres
Publié: (2026)
R1-ACT: Efficient Reasoning Model Safety Alignment by Activating Safety Knowledge
par: In, Yeonjun, et autres
Publié: (2025)
par: In, Yeonjun, et autres
Publié: (2025)
Assessing Socio-Cultural Alignment and Technical Safety of Sovereign LLMs
par: Chae, Kyubyung, et autres
Publié: (2025)
par: Chae, Kyubyung, et autres
Publié: (2025)
Chapter iSafeIncentive: Transforming Construction Safety Culture through Blockchain Incentives
par: Kim, Dohyeong, et autres
Publié: (2024)
par: Kim, Dohyeong, et autres
Publié: (2024)
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs
par: Dingeto, Hiskias, et autres
Publié: (2025)
par: Dingeto, Hiskias, et autres
Publié: (2025)
Safety Cultures, Safety Models
Publié: (2020)
Publié: (2020)
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
par: In, Yeonjun, et autres
Publié: (2025)
par: In, Yeonjun, et autres
Publié: (2025)
MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers
par: Zong, Xuanjun, et autres
Publié: (2025)
par: Zong, Xuanjun, et autres
Publié: (2025)
M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs
par: Ha, Junwoo, et autres
Publié: (2025)
par: Ha, Junwoo, et autres
Publié: (2025)
Reasoning Structure Matters for Safety Alignment of Reasoning Models
par: In, Yeonjun, et autres
Publié: (2026)
par: In, Yeonjun, et autres
Publié: (2026)
Jailbreaking on Text-to-Video Models via Scene Splitting Strategy
par: Lee, Wonjun, et autres
Publié: (2025)
par: Lee, Wonjun, et autres
Publié: (2025)
Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models
par: Panpatil, Siddhant, et autres
Publié: (2025)
par: Panpatil, Siddhant, et autres
Publié: (2025)
Inequalities and asymptotics for hook lengths in $\ell$-regular partitions and $\ell$-distinct partitions
par: Kim, Eunmi
Publié: (2025)
par: Kim, Eunmi
Publié: (2025)
PHASOR: Phase-Anchored Universal Action Representations for Humanoid Embodiments
par: Kim, Kihyun, et autres
Publié: (2026)
par: Kim, Kihyun, et autres
Publié: (2026)
Conical Kähler-Einstein metrics on K-unstable del Pezzo surfaces
par: Jeong, Dasol, et autres
Publié: (2025)
par: Jeong, Dasol, et autres
Publié: (2025)
Cultural Diversity in Motion
par: Canyürek, Özlem
Publié: (2024)
par: Canyürek, Özlem
Publié: (2024)
CSTA: CNN-based Spatiotemporal Attention for Video Summarization
par: Son, Jaewon, et autres
Publié: (2024)
par: Son, Jaewon, et autres
Publié: (2024)
The Cultural Construction of Safety and Security
Publié: (2023)
Publié: (2023)
The Cultural Construction of Safety and Security
Publié: (2025)
Publié: (2025)
Guard Vector: Beyond English LLM Guardrails with Task-Vector Composition and Streaming-Aware Prefix SFT
par: Lee, Wonhyuk, et autres
Publié: (2025)
par: Lee, Wonhyuk, et autres
Publié: (2025)
Safety-Guided Flow (SGF): A Unified Framework for Negative Guidance in Safe Generation
par: Kim, Mingyu, et autres
Publié: (2026)
par: Kim, Mingyu, et autres
Publié: (2026)
sudo rm -rf agentic_security
par: Lee, Sejin, et autres
Publié: (2025)
par: Lee, Sejin, et autres
Publié: (2025)
IndoSafety: Culturally Grounded Safety for LLMs in Indonesian Languages
par: Azmi, Muhammad Falensi, et autres
Publié: (2025)
par: Azmi, Muhammad Falensi, et autres
Publié: (2025)
Promoting a Patient Safety Culture
Publié: (2025)
Publié: (2025)
Documents similaires
-
COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
par: Choi, Dasol, et autres
Publié: (2026) -
Responsible AI Technical Report
par: KT, et autres
Publié: (2025) -
Agent-SafetyBench: Evaluating the Safety of LLM Agents
par: Zhang, Zhexin, et autres
Publié: (2024) -
SafetyBench: Evaluating the Safety of Large Language Models
par: Zhang, Zhexin, et autres
Publié: (2023) -
Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders
par: Kim, Jinseok, et autres
Publié: (2024)