• ↑↓ pour naviguer
  • pour ouvrir
  • pour sélectionner
  • ⌘ ⌥ ↵ pour ouvrir dans un panneau
  • esc pour rejeter
⌘ '
raccourcis clavier

a RL policy optimization where the critic model is the same size as the policy models

samples a group of ouputs {o1,o2,,oG}\{ o_{1}, o_{2}, \dots, o_{G} \} from given policy πθold\pi_{\theta_{\text{old}}} and optimize policy model πθ\pi_{\theta }:

IGRPO(θ)=E[qP(Q),{oi}i=1Gπθold(Oq)]\begin{aligned} \mathcal{I}_{\text{GRPO}}(\theta ) = \mathbf{E}[q \approx P(Q), \{ o_{i} \}^{G}_{i=1} \approx \pi_{\theta_{\text{old}}}(O|q)] \end{aligned}

**