Anar al contingut
VuFind
  • Iniciar sessió
    • English
    • Deutsch
    • Español
    • Français
    • Italiano
    • 日本語
    • Nederlands
    • Português
    • Português (Brasil)
    • 中文(简体)
    • 中文(繁體)
    • Türkçe
    • עברית
    • Gaeilge
    • Cymraeg
    • Ελληνικά
    • Català
    • Euskara
    • Русский
    • Čeština
    • Suomi
    • Svenska
    • polski
    • Dansk
    • slovenščina
    • اللغة العربية
    • বাংলা
    • Galego
    • Tiếng Việt
    • Hrvatski
    • हिंदी
    • Հայերէն
    • Українська
    • Sámegiella
    • Монгол
    • Māori
Avançada
  • Citar
  • Enviar aquest missatge de text
  • Enviar per correu electrònic aquest
  • Imprimir
  • Exportar registre
    • Exportar a RefWorks
    • Exportar a EndNoteWeb
    • Exportar a EndNote
  • Afegir a favorits
  • Enllaç permanent
Imatge de la portada

Guardat en:
Dades bibliogràfiques
Autors principals: Zou, Andy, Phan, Long, Chen, Sarah, Campbell, James, Guo, Phillip, Ren, Richard, Pan, Alexander, Yin, Xuwang, Mazeika, Mantas, Dombrowski, Ann-Kathrin, Goel, Shashwat, Li, Nathaniel, Byun, Michael J., Wang, Zifan, Mallen, Alex, Basart, Steven, Koyejo, Sanmi, Song, Dawn, Fredrikson, Matt, Kolter, J. Zico, Hendrycks, Dan
Format: Preprint
Publicat: 2023
Matèries:
Machine Learning
Artificial Intelligence
Computation and Language
Computer Vision and Pattern Recognition
Computers and Society
Accés en línia:https://arxiv.org/abs/2310.01405
Etiquetes: Afegir etiqueta
Sense etiquetes, Sigues el primer a etiquetar aquest registre!
  • Fons
  • Descripció
  • Taula de continguts
  • Comentaris
  • Ítems similars
  • Visualització del personal

Internet

https://arxiv.org/abs/2310.01405

Ítems similars

  • HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
    per: Mazeika, Mantas, et al.
    Publicat: (2024)
  • TextQuests: How Good are LLMs at Text-Based Video Games?
    per: Phan, Long, et al.
    Publicat: (2025)
  • Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress?
    per: Ren, Richard, et al.
    Publicat: (2024)
  • Improving Alignment and Robustness with Circuit Breakers
    per: Zou, Andy, et al.
    Publicat: (2024)
  • Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs
    per: Mazeika, Mantas, et al.
    Publicat: (2025)

Opcions de cerca

  • Historial de cerca
  • Cerca avançada

Trobar-ne més

  • Explorar el catàleg
  • Explorar alfabèticament
  • Explora canals
  • Bibliografia recomanada
  • Nous ítems

Necessites ajuda?

  • Consells de cerca
  • Pregunteu al bibliotecari
  • FAQs