【AI】LLM RL Modeling

RL Recap

根据上一个states，经过一个LLM，生成另一个states，一共生成max_tokens作为一次生成。生成的长度是prompt_len + max_token。