Neidio i'r cynnwys
VuFind
  • Mewngofnodi
    • English
    • Deutsch
    • Español
    • Français
    • Italiano
    • 日本語
    • Nederlands
    • Português
    • Português (Brasil)
    • 中文(简体)
    • 中文(繁體)
    • Türkçe
    • עברית
    • Gaeilge
    • Cymraeg
    • Ελληνικά
    • Català
    • Euskara
    • Русский
    • Čeština
    • Suomi
    • Svenska
    • polski
    • Dansk
    • slovenščina
    • اللغة العربية
    • বাংলা
    • Galego
    • Tiếng Việt
    • Hrvatski
    • हिंदी
    • Հայերէն
    • Українська
    • Sámegiella
    • Монгол
    • Māori
Uwch
  • Dyfynnu hwn
  • Anfonwch hwn fel neges destun
  • E-bostio hwn
  • Argraffu
  • Allforio Cofnod
    • Allforio i RefWorks
    • Allforio i EndNoteWeb
    • Allforio i EndNote
  • Ychwanegu at ffefrynnau
  • Permanent link
Delwedd Flaen

Wedi'i Gadw mewn:
Manylion Llyfryddiaeth
Prif Awduron: Zou, Andy, Phan, Long, Chen, Sarah, Campbell, James, Guo, Phillip, Ren, Richard, Pan, Alexander, Yin, Xuwang, Mazeika, Mantas, Dombrowski, Ann-Kathrin, Goel, Shashwat, Li, Nathaniel, Byun, Michael J., Wang, Zifan, Mallen, Alex, Basart, Steven, Koyejo, Sanmi, Song, Dawn, Fredrikson, Matt, Kolter, J. Zico, Hendrycks, Dan
Fformat: Preprint
Cyhoeddwyd: 2023
Pynciau:
Machine Learning
Artificial Intelligence
Computation and Language
Computer Vision and Pattern Recognition
Computers and Society
Mynediad Ar-lein:https://arxiv.org/abs/2310.01405
Tagiau: Ychwanegu Tag
Dim Tagiau, Byddwch y cyntaf i dagio'r cofnod hwn!
  • Daliadau
  • Disgrifiad
  • Tabl Cynhwysion
  • Sylwadau
  • Eitemau Tebyg
  • Dangos Staff
Byddwch y cyntaf i adael sylw!
Rhaid i chi fewngofnodi yn gyntaf

Eitemau Tebyg

  • HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
    gan: Mazeika, Mantas, et al.
    Cyhoeddwyd: (2024)
  • TextQuests: How Good are LLMs at Text-Based Video Games?
    gan: Phan, Long, et al.
    Cyhoeddwyd: (2025)
  • Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress?
    gan: Ren, Richard, et al.
    Cyhoeddwyd: (2024)
  • Improving Alignment and Robustness with Circuit Breakers
    gan: Zou, Andy, et al.
    Cyhoeddwyd: (2024)
  • Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs
    gan: Mazeika, Mantas, et al.
    Cyhoeddwyd: (2025)

Opsiynau Chwilio

  • Hanes Chwilio
  • Chwiliad Uwch

Canfod Mwy

  • Pori'r Catalog
  • Pori yn ôl y Wyddor
  • Archwiliwch Sianeli
  • Cronfeydd y Cwrs
  • Eitemau Newydd

Angen Help?

  • Awgrymiadau Chwilio
  • Gofynnwch i Lyfrgellydd
  • Cwestiynau Cyffredin