Przejdź do treści
VuFind
  • Login
    • English
    • Deutsch
    • Español
    • Français
    • Italiano
    • 日本語
    • Nederlands
    • Português
    • Português (Brasil)
    • 中文(简体)
    • 中文(繁體)
    • Türkçe
    • עברית
    • Gaeilge
    • Cymraeg
    • Ελληνικά
    • Català
    • Euskara
    • Русский
    • Čeština
    • Suomi
    • Svenska
    • polski
    • Dansk
    • slovenščina
    • اللغة العربية
    • বাংলা
    • Galego
    • Tiếng Việt
    • Hrvatski
    • हिंदी
    • Հայերէն
    • Українська
    • Sámegiella
    • Монгол
    • Māori
Wyszukiwanie zaawansowane
  • Cytować
  • Wyślij wiadomość
  • Wyślij emailem
  • Drukuj
  • Eksportuj rekord
    • Eksportuj do RefWorks
    • Eksportuj do EndNoteWeb
    • Eksportuj do EndNote
  • Dodaj do listy ulubionych książek
  • Odnośnik bezpośredni
Okładka

Zapisane w:
Opis bibliograficzny
Główni autorzy: Cui, Ganqu, Yuan, Lifan, Wang, Zefan, Wang, Hanbin, Zhang, Yuchen, Chen, Jiacheng, Li, Wendi, He, Bingxiang, Fan, Yuchen, Yu, Tianyu, Xu, Qixin, Chen, Weize, Yuan, Jiarui, Chen, Huayu, Zhang, Kaiyan, Lv, Xingtai, Wang, Shuo, Yao, Yuan, Han, Xu, Peng, Hao, Cheng, Yu, Liu, Zhiyuan, Sun, Maosong, Zhou, Bowen, Ding, Ning
Format: Preprint
Wydane: 2025
Hasła przedmiotowe:
Machine Learning
Artificial Intelligence
Computation and Language
Dostęp online:https://arxiv.org/abs/2502.01456
Etykiety: Dodaj etykietę
Nie ma etykietki, Dołącz pierwszą etykiete!
  • Egzemplarz
  • Opis
  • Spis treści
  • Komentarze
  • Podobne zapisy
  • Wersja MARC

Internet

https://arxiv.org/abs/2502.01456

Podobne zapisy

  • Free Process Rewards without Process Labels
    od: Yuan, Lifan, i wsp.
    Wydane: (2024)
  • From $f(x)$ and $g(x)$ to $f(g(x))$: LLMs Learn New Skills in RL by Composing Old Ones
    od: Yuan, Lifan, i wsp.
    Wydane: (2025)
  • Noise Contrastive Alignment of Language Models with Explicit Rewards
    od: Chen, Huayu, i wsp.
    Wydane: (2024)
  • The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
    od: Cui, Ganqu, i wsp.
    Wydane: (2025)
  • RLPR: Extrapolating RLVR to General Domains without Verifiers
    od: Yu, Tianyu, i wsp.
    Wydane: (2025)

Opcje wyszukiwania

  • Historia wyszukiwania
  • Wyszukiwanie zaawansowane

Dalsze opcje

  • Przeglądaj katalog
  • Przeglądaj alfabetycznie
  • Przeglądaj kanały
  • Aparaty semestralne
  • Nowe nabytki

Pomoc

  • Wskazówka do wyszukiwania
  • Zapytaj bibliotekarza
  • Często zadawane pytania