【AI】LLM RL Modeling

 

RL Recap

RL Model

LLM Description

根据上一个states,经过一个LLM,生成另一个states,一共生成max_tokens作为一次生成。生成的长度是prompt_len + max_token。

Modeling

  • Objective
    • 生成尽可能多的Correct Format。
  • States
    • Input of current methods