【AI】LLM RL Modeling 301-work-ai 2023年 10月08日 RL Recap RL Model LLM Description 根据上一个states,经过一个LLM,生成另一个states,一共生成max_tokens作为一次生成。生成的长度是prompt_len + max_token。 Modeling Objective 生成尽可能多的Correct Format。 States Input of current methods 上篇AI算法