「用 AI 训 AI」这事靠谱吗?

时间:2024-09-23 编辑: 浏览:(696)

文章来源:机器之心

来源:节选自 2024 年 Week04 业内通讯 

图片来源:由无界AI生成

在大语言模型领域,微调是改进模型的重要步骤。伴随开源模型数量日益增多,针对LLM的微调方法同样在推陈出新。2024年初,Meta和纽约大学等机构的研究者提出了一项「自我奖励方法」,可以让大模型自己生成自己的微调数据。研究者对 Llama 2 70B 进行了三个迭代的微调,其生成的模型在 AlpacaEval 2.0 排行榜上优于 Claude 2、Gemini Pro 和 GPT-4 等现有大模型。

奖励模型能干什么?

大型语言模型通过以逐步思考链格式生成解决方案,解决需要复杂多步推理的任务。许多研究关注如何检测和减少幻觉对于提高推理能力。其中,通过训练奖励模型以区分期望的和不期望的输出则是一种有效的方法,奖励模型可以用于强化学习流程或通过拒绝采样进行搜索。如何有效地训练可靠的奖励模型至关重要。OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法在 ChatGPT 发布时引起极大关注。该技术模型可以从人类偏好中学习奖励模型,再冻结奖励模型并结合强化学习训练 LLM。通过使用人类偏好数据调整大语言模型(LLM)可以提高预训练模型的指令跟踪性能。但 RLHF 存在依赖人类反馈的局限性。在此背景下,Meta 提出的「自我奖励语言模型」(Self-Rewarding Language Models, SRLMs)是一种新型的语言模型,在训练过程中利用自身生成的反馈来自我提升。自我奖励语言模型不是被冻结,而是在 LLM 调整期间不断更新,避免了冻结奖励模型质量的瓶颈。自我奖励模型的核心思路是什么?对比传统奖励模型有什么优势?自我奖励语言模型(SRLMs)的核心思想在于创建一个智能体,该智能体在训练期间集成了所需的全部能力,而非将任务分离为奖励模型和语言模型。这种方法允许通过多任务训练实现任务迁移,从而在预训练和后续训练中跟随指令并生成响应。Meta 等提出的自我奖励模型具备双重角色:一方面,它遵循模型的指令来生成给定提示的响应;另一方面,它也能够根据示例生成和评估新的指令,进而将其添加到训练集中。该模型建立在假设之上,即利用基础的预训练语言模型和少量的人工注释数据,可以创建一个同时具备指令遵循和自指令创建能力的模型。

图:自我奖励语言模型的对齐方法含两个步骤,(i)自指令创建:新创建的提示用于从模型 Mt 生成候选响应,该模型还通过“LLM作为法官”提示预测自己的奖励。(ii)指令遵循训练:从生成的数据中选择偏好对,这些对用于通过DPO(确定性策略梯度)进行训练,从而产生模型 Mt+1。然后可以迭代整个程序,从而提高指令遵循和奖励建模能力。这种自对齐能力使得模型能够使用人工智能反馈(AIF)进行迭代训练,提升自身组件的性能。自我奖励模型的一个关键特点是其自指令创建机制,它不仅生成候选响应,还自行评估这些响应的质量,充当自身的奖励模型,从而减少了对外部模型的依赖。这一过程通过“LLM-as-a-Judge”机制实现,即将响应评估任务转化为指令遵循任务,而模型自身创建的 AIF 偏好数据则被用作训练集。在微调阶段,模型同时扮演“学习者”和“法官”的角色,通过上下文微调进一步提升性能。整个过程是一个迭代的自对齐过程,通过构建一系列逐渐改进的模型来实现。与传统的固定奖励模型不同,自我奖励模型在语言模型对齐过程中不断更新,从而避免了发展瓶颈,并提高了模型自我改进的潜力。相较于传统奖励模型,自我奖励模型的优势在于其动态性和自我迭代的能力。它通过整合奖励模型到同一系统中,实现了任务迁移,允许奖励建模任务和指令遵循任务相互促进和提升。自我奖励模型和 RLAIF 有关联吗?RLAIF(Reinforcement Learning from AI Feedback)与自我奖励模型在思路上存在明显差异。RLAIF 采用了 AI 反馈强化学习的方法,使用 AI 而非人类来进行偏好标注,以此扩展强化学习的规模。具体来说,RLAIF 利用 LLM 生成的偏好标签来训练奖励模型(RM),随后使用该 RM 提供奖励以进行强化学习。Anthropic 在 2022 年 12 月发布的论文《Constitutional AI: Harmlessness from AI Feedback》中首次提出了 RLAIF 的概念,并发现 LLM 在某些任务上的表现甚至可以超越人类。而在 2023 年 9 月,谷歌发表的论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》进一步推动了 RLAIF 方法的发展。RLAIF 的关键步骤之一是使用 LLM 来标记偏好。研究者利用现成的 LLM 在成对的候选项中标记偏好,例如,给定一段文本和两个候选摘要,LLM 的任务是评判哪个摘要更为优秀。这种方法不仅提高了训练效率,还解决了传统 RLHF(Reinforcement Learning from Human Feedback)中因人类标注成本高昂和规模受限的问题。RLAIF 通过 AI 反馈来增强强化学习的能力,使得模型能够处理更大规模的数据集,同时降低了对人类标注的依赖。这种方法为训练更高效、更大规模的语言模型提供了新的可能性,并有助于推动自然语言处理领域的进一步发展。使用 AI 合成数据训模型有风险吗?最近还有谁正在做AI自我迭代?小模型监督大模型的方法好用吗?目前,模型训练大部分的数据来自于互联网,如 Twitter、GitHub、Arxiv、Wikipedia、Reddit 等网站。随着模型的规模继续增大,人们需要投喂更多的数据来训练模型。在使用模型生成的数据来训练新模型时,会产生「哈布斯堡诅咒」或称「模型自噬」现象......

最新 更多 >
  • 1 猩猩币feg官网最新消息

    猩猩币feg官网最新消息的摘要是:最新版本的猩猩币已经发布,新增了更多的功能和改进,提供更好的用户体验和安全保障。同时,官方也宣布启动了一系列的活动和奖励计划,激励用户参与社区建设和推广。感兴趣的用户可以登录官网查看更多详细信息。

  • 2 欧意官网下载

    欧意官网是欧意集团的官方网站,提供了关于欧意集团的最新动态、产品信息、服务介绍等内容。用户可以在网站上浏览各种产品和解决方案,了解欧意集团的发展历程以及在全球范围内的业务网络。欧意官网还提供在线下载产品资料、技术文档等功能,方便用户获取所需信息。总的来说,欧意官网是一个全面展示欧意集团业务和品牌形象的平台,为用户提供便捷的信息查询和下载服务。

  • 3 btc发行数量多少

    比特币(BTC)的发行数量总量是2,100万枚。比特币是一种基于区块链技术的加密货币,它的发行量是通过挖矿的方式逐渐释放到市场中的。比特币的发行数量设计有上限,这也是为什么比特币被认为是一种稀缺资产,可以提升其价值和抗通货膨胀能力的原因之一。因此,比特币的总发行量是2,100万枚。

  • 4 aib币是骗局吗

    aib币是一种虚拟货币,目前市场上存在很多关于aib币的骗局。一些不法分子通过虚假宣传和承诺高额回报来诱使投资者购买aib币,但实际上这些aib币可能并没有真实的价值支撑,投资者最终可能会遭受损失。因此,投资者应当谨慎对待aib币,避免成为骗局的受害者。

  • 5 aus是什么币种

    AUS是澳大利亚的货币单位,全称为“澳大利亚元”。澳大利亚元是澳大利亚的法定货币,通常简写为AUD。澳大利亚元是世界上受欢迎的货币之一,也被用于澳大利亚和其它国家的贸易和金融交易中。

  • 6 br币发行量

    br币的发行量是指在市场上流通的br币的总量,通常表示为br币的总额。发行量通常由发行方或者中央银行根据市场需求和货币政策设定,并通过监管机构进行监管和管理。br币的发行量直接影响着br币的价值和购买力,因此对于一个经济体的稳定和发展至关重要。控制好br币的发行量可以保持货币的稳定,防止通货膨胀,促进经济的持续增长。

  • 7 欧意官网商城

    欧意官网商城是一个致力于为用户提供高品质商品的在线购物平台。无论是时尚服装、家居用品还是美妆产品,您都可以在这里找到您所需的商品。我们提供安全便捷的支付方式,快速的物流配送服务,以及贴心的售后保障,让您轻松愉快地购物。欢迎来欧意官网商城选购您喜欢的商品,让您的生活更加美好!

  • 8 波场币的价格 今日行情

    波场币今日价格为0.066美元,价格相对稳定,交易量逐渐增加。市场对波场币仍然持有乐观态度,预计未来有进一步上涨的可能性。总体来说,波场币的表现仍然值得关注。

  • 9 欧意交易所最新消息

    欧意交易所最新消息是关于其推出全新的数字资产交易平台,该平台将支持多种加密货币交易对,并提供安全可靠的交易环境。此外,欧意交易所还宣布与多家金融机构合作,推出更多多样化的金融产品和服务,以满足不同投资者的需求。该交易所致力于为用户提供优质的交易体验,并致力于成为欧洲领先的数字资产交易平台之一。

  • 10 Oe交易所APP官方下载

    OE交易所APP官方下载是一款为用户提供数字资产交易、行情查看、资金管理等多种功能的移动应用。通过该应用,用户可以随时随地进行交易操作,查看最新的行情数据,管理自己的资产情况。用户可以通过该应用快速便捷地进行数字货币的买卖交易,实时跟踪各种数字资产的价格波动,全方位了解市场动态。同时,应用还提供了安全可靠的资金管理功能,保障用户的资产安全。欢迎大家前往官方渠道下载OE交易所APP,体验便捷高效的数