主页

【AI】LLM RLHF

Problem to Solve Alignment Solutions Actor-Critic 要解决的问题 在RL的过程中,即学习策略,又学习价值函数,这样保证策略迭代的过程中,Value是逐渐变高的。 根本思想 为什么可以同时学习Value function和Policy function? 因为使用了能将二者结合的损失函数,例如时序差分残差 可以在总回报中引入基线函数以减小方差,例如这种形式: \[\nabla_\theta J(\theta)=\mathbb{E}\left[\sum_{t=0}^{\infty} \nabla_\theta \log \pi_\...

阅读更多

【AI】Multi-Modality Learning

Problem Trying to Solve 提升大模型对多模态(语音,图像,视频,文本)的理解和推理能力,从而实现多模态理解和生成的能力。 解决方法 LLaVA 要解决的关键问题 构建一个有reasoning ability的,可以follow instruction的多模态模型; Instruction following的MultiModal数据的缺失; 如何使用现有大模型把这几个功能融合在一起。 算法的根本思想 ==通过GPT-4 Prompting构建训练集(包括与图片相关的对话、细节描述和复杂推理)==,使用了预训练的Vision Encoder(CLIP)把Image ...

阅读更多

【AI】LLM RL Modeling

RL Recap RL Model LLM Description 根据上一个states,经过一个LLM,生成另一个states,一共生成max_tokens作为一次生成。生成的长度是prompt_len + max_token。 Modeling Objective 生成尽可能多的Correct Format。 States Input of current methods

阅读更多

【Blog】Structural Thinking

Overview 为什么突然想写这样一篇文章?因为最近我发现所有东西想做好,都需要有一套自己的SOP。简单来说就是一个structural thinking,对于一个较为常见的问题,有一个固定的思考套路。当然这不是说这个套路就是固定不变的,是说首先需要有,其次是需要根据这个套路不断迭代,优化这个套路直到这个套路可以快速的解决问题。可以是学习相关的,可以是工作相关的,但总体来说,我认为人就是他自己方法论的总和,这些方法论优化的越好,事情做的漂亮的可能性就越大。 Study Algorithm Algorithm类的本身比较单点,就是一个算法,但是可以发散的很多。比如有些算法其实是另一些算法的改进版,那光了解这一个算法肯定是不行的,需要了解之前的算法,而当一个算法需要的背景知识过多...

阅读更多

【AI】Reinforcement Learning

Reference Key concepts A (Long) Peek into Reinforcement Learning Policy Gradient Policy Gradient Algorithms Key Concepts What 定义 The agent’s policy $\pi(s)$ provides the guideline on what is the optimal action to take in a certain state with the goal to maximize the total rewards. 关键词,在某个state下,采取何种策略,能够...

阅读更多

【AI】LLM Deep Dive

Overview 什么是LLM? LLM的Intuitive是什么? LLM的原理是什么,底层是如何实现的? 相比于其他方法,LLM为什么能够达到更好的效果? LLM产业运行的难点在哪里? 如果我现在起步,做和LLM什么相关工作比较好?机会点在哪里? 如果有一个LLM相关工作的Roadmap,这个Roadmap是什么? 如何与我现在的工作内容产生联系,让我更好起步? 因为我算是LLM领域的小白,所以我想从NLP的历史出发,看看如何一步步演变成目前的形态。 Background NLP的Intuitive是什么?为什么这种方法可行。 Intuitive Statistical Model 参考这篇2001年的论文A Bit of Prog...

阅读更多

【AI】06/07 Github Trending

Top-5 Summary TransformerOptimus/SuperAGI SuperAGI是一个用于构建和运行有用的自主代理的框架。SuperAGI旨在构建基础设施,以实现这一目标。使用SuperAGI,您可以提供、生成和部署有用的自主人工智能代理。简单来说,SuperAGI是一套带UI界面的解决方案,你可以构建自己的数据库,embedding等,通过OpenAI的接口来和数据库的内容交互。 ruanyf/weekly 一个科技爱好者周刊 mlc-ai/mlc-llm MLC LLM(多语言模型转换与优化引擎)是一个通用解决方案,可以使任何语言模型在各种硬件后端和...

阅读更多

Ai Home

02/03/2025 <a href=/ai/ai_algorithms/vision/2025/03/02/omni-align.html title=AI> 【AI】OmniAlign - 上海Ai Lab的VLM工作 </a> 12/12/2024 <a href=/ai/ai_algorithms/vision/2024/12/12/advancement-vision-encoders.html title=AI> 【AI】The Advancement of Vision Encoders in VLMs </a> ...

阅读更多