「用 AI 训 AI」这事靠谱吗?

时间:2024-09-24 编辑: 浏览:(848)

文章来源:机器之心

来源:节选自 2024 年 Week04 业内通讯 

图片来源:由无界AI生成

在大语言模型领域,微调是改进模型的重要步骤。伴随开源模型数量日益增多,针对LLM的微调方法同样在推陈出新。2024年初,Meta和纽约大学等机构的研究者提出了一项「自我奖励方法」,可以让大模型自己生成自己的微调数据。研究者对 Llama 2 70B 进行了三个迭代的微调,其生成的模型在 AlpacaEval 2.0 排行榜上优于 Claude 2、Gemini Pro 和 GPT-4 等现有大模型。

奖励模型能干什么?

大型语言模型通过以逐步思考链格式生成解决方案,解决需要复杂多步推理的任务。许多研究关注如何检测和减少幻觉对于提高推理能力。其中,通过训练奖励模型以区分期望的和不期望的输出则是一种有效的方法,奖励模型可以用于强化学习流程或通过拒绝采样进行搜索。如何有效地训练可靠的奖励模型至关重要。OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法在 ChatGPT 发布时引起极大关注。该技术模型可以从人类偏好中学习奖励模型,再冻结奖励模型并结合强化学习训练 LLM。通过使用人类偏好数据调整大语言模型(LLM)可以提高预训练模型的指令跟踪性能。但 RLHF 存在依赖人类反馈的局限性。在此背景下,Meta 提出的「自我奖励语言模型」(Self-Rewarding Language Models, SRLMs)是一种新型的语言模型,在训练过程中利用自身生成的反馈来自我提升。自我奖励语言模型不是被冻结,而是在 LLM 调整期间不断更新,避免了冻结奖励模型质量的瓶颈。自我奖励模型的核心思路是什么?对比传统奖励模型有什么优势?自我奖励语言模型(SRLMs)的核心思想在于创建一个智能体,该智能体在训练期间集成了所需的全部能力,而非将任务分离为奖励模型和语言模型。这种方法允许通过多任务训练实现任务迁移,从而在预训练和后续训练中跟随指令并生成响应。Meta 等提出的自我奖励模型具备双重角色:一方面,它遵循模型的指令来生成给定提示的响应;另一方面,它也能够根据示例生成和评估新的指令,进而将其添加到训练集中。该模型建立在假设之上,即利用基础的预训练语言模型和少量的人工注释数据,可以创建一个同时具备指令遵循和自指令创建能力的模型。

图:自我奖励语言模型的对齐方法含两个步骤,(i)自指令创建:新创建的提示用于从模型 Mt 生成候选响应,该模型还通过“LLM作为法官”提示预测自己的奖励。(ii)指令遵循训练:从生成的数据中选择偏好对,这些对用于通过DPO(确定性策略梯度)进行训练,从而产生模型 Mt+1。然后可以迭代整个程序,从而提高指令遵循和奖励建模能力。这种自对齐能力使得模型能够使用人工智能反馈(AIF)进行迭代训练,提升自身组件的性能。自我奖励模型的一个关键特点是其自指令创建机制,它不仅生成候选响应,还自行评估这些响应的质量,充当自身的奖励模型,从而减少了对外部模型的依赖。这一过程通过“LLM-as-a-Judge”机制实现,即将响应评估任务转化为指令遵循任务,而模型自身创建的 AIF 偏好数据则被用作训练集。在微调阶段,模型同时扮演“学习者”和“法官”的角色,通过上下文微调进一步提升性能。整个过程是一个迭代的自对齐过程,通过构建一系列逐渐改进的模型来实现。与传统的固定奖励模型不同,自我奖励模型在语言模型对齐过程中不断更新,从而避免了发展瓶颈,并提高了模型自我改进的潜力。相较于传统奖励模型,自我奖励模型的优势在于其动态性和自我迭代的能力。它通过整合奖励模型到同一系统中,实现了任务迁移,允许奖励建模任务和指令遵循任务相互促进和提升。自我奖励模型和 RLAIF 有关联吗?RLAIF(Reinforcement Learning from AI Feedback)与自我奖励模型在思路上存在明显差异。RLAIF 采用了 AI 反馈强化学习的方法,使用 AI 而非人类来进行偏好标注,以此扩展强化学习的规模。具体来说,RLAIF 利用 LLM 生成的偏好标签来训练奖励模型(RM),随后使用该 RM 提供奖励以进行强化学习。Anthropic 在 2022 年 12 月发布的论文《Constitutional AI: Harmlessness from AI Feedback》中首次提出了 RLAIF 的概念,并发现 LLM 在某些任务上的表现甚至可以超越人类。而在 2023 年 9 月,谷歌发表的论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》进一步推动了 RLAIF 方法的发展。RLAIF 的关键步骤之一是使用 LLM 来标记偏好。研究者利用现成的 LLM 在成对的候选项中标记偏好,例如,给定一段文本和两个候选摘要,LLM 的任务是评判哪个摘要更为优秀。这种方法不仅提高了训练效率,还解决了传统 RLHF(Reinforcement Learning from Human Feedback)中因人类标注成本高昂和规模受限的问题。RLAIF 通过 AI 反馈来增强强化学习的能力,使得模型能够处理更大规模的数据集,同时降低了对人类标注的依赖。这种方法为训练更高效、更大规模的语言模型提供了新的可能性,并有助于推动自然语言处理领域的进一步发展。使用 AI 合成数据训模型有风险吗?最近还有谁正在做AI自我迭代?小模型监督大模型的方法好用吗?目前,模型训练大部分的数据来自于互联网,如 Twitter、GitHub、Arxiv、Wikipedia、Reddit 等网站。随着模型的规模继续增大,人们需要投喂更多的数据来训练模型。在使用模型生成的数据来训练新模型时,会产生「哈布斯堡诅咒」或称「模型自噬」现象......

最新 更多 >
  • 1 MGP币最高的时候是多少钱?

    MGP币最高的时候是多少钱?对于投资者而言,数字货币的价格波动可能会带来极高的回报,但同时也带来了高风险。Maggie Token(简称MGP)作为一种新型数字货币,在不断的发展和探索中,也经历了许多波折。那么,MGP币最高的时候是多少钱呢?2019年2月,MGP价格涨到了3.2美元,而在同年7月,MGP价格冲破了6美元大关,达到了6.66美元的高点。这个价格波动的时间段,无疑是MGP历史上最高的

  • 2 BABYPEPE币去哪里买

    BABYPEPE币是一种数字货币,是以Pepe the Frog(佩佩青蛙)形象为基础所创建的加密货币。Pepe the Frog是一个网络迷因,并逐渐演变成为一个具有各种不同表情和形态的角色形象。BABYPEPE币以这个形象为基础,旨在为用户提供一个安全、快速和隐私保护的交易平台。对于想要购买BABYPEPE币的用户来说,选择一个可靠的交易所是至关重要的。以下是三个著名的交易所,供用户选择。一、

  • 3 BBPP币交易所有哪些

    BBPP币是一种加密数字货币,它基于区块链技术的发展而产生。BBPP币的目标是提供一种安全、高效和去中心化的交易方式,以满足用户的各种需求。它的特点包括匿名性、可追溯性和不可篡改性,这使得它成为了众多投资者和交易者的首选。在众多交易所中,欧易交易所是一家备受欢迎的平台。该交易所拥有多年的经验和专业团队,提供了丰富的交易产品和优质的交易体验。欧易交易所的优势在于其稳定性和安全性,用户可以放心地进行交

  • 4 BACON币怎么买卖

    在加密货币市场中,BACON币(BACON Coin)作为一种数字货币,给用户提供了一种快速、安全和匿名的交易方式。BACON币的出现为投资者提供了一种新的机会,通过买卖这种数字资产来获取利润。本文将介绍BACON币的买卖方式,并分享三个著名的交易所,即欧易交易所、币安交易所和火必交易所。首先,让我们了解一下BACON币。作为一种加密货币,BACON币采用了区块链技术,确保了交易的安全性和透明性。

  • 5 MEISHU币历史价格走势怎么样?

    MEISHU币的发展历程MEISHU币是一个基于区块链技术的数字货币,在2018年10月份被正式推出。MEISHU币的创始人们希望借助数字货币的发展,将艺术市场与数字货币市场完美结合起来,打造出一个全新的、多层次且透明的市场体系。MEISHU币的创立引起了业内人士的广泛关注,也吸引了许多投资者的眼球。随着时间的推移,MEISHU币的价格经历了多次波动和起伏。下面我们将详细介绍一下MEISHU币价格

  • 6 MET币的创始人是谁

    在区块链时代中,各种数字货币成为了热门话题,其中MET币也是备受关注的数字货币之一。那么,MET币的创始人是谁呢?接下来我们一起来解析一下。MET币简介MET是Metronome的简称,中文意思是节拍器。MET币是一个相对稳定的数字货币,可以减少长期价格不稳定所带来的风险。MET采用了一个颠覆式的设计,使其成为具有长期潜力的数字资产。MET币的创始人是谁MET币的创始人是Jeff Garzik。他

  • 7 MNZ币的创始人是谁

    MNZ币的创始人是谁?MNZ币是一种新的数字货币,它的创始人是谁?如果你对数字货币比较关注的话,你可能已经听说了MNZ币,也许你甚至已经购买了一些。但是,你是否真的知道MNZ币的创始人是谁呢? 在这篇文章中,我们将一起探讨MNZ币的创始人。MNZ币的创造者MNZ币的创始人是一名匿名的开发者。根据公开资料显示,MNZ币的源代码最初是在2017年10月发布的。自此以后,该项目一直在不断发展和演变。MN

  • 8 BAFI币如何购买与销售

    BAFI币是一种数字货币,它基于区块链技术,旨在提供一种安全、快速和便捷的支付方式。相较于传统的货币,BAFI币具有更低的交易费用和更高的安全性,同时还可以实现无边界的转账和无需第三方的交易。由于其独特的特性和广泛的应用前景,越来越多的人开始关注和参与到BAFI币的购买和销售中。对于想要购买或销售BAFI币的人来说,选择一个可靠的交易所是非常重要的。下面将介绍三个知名的交易所:欧易交易所、币安交易

  • 9 BALTO币去哪里交易

    BALTO币是一种基于区块链技术的加密数字货币。作为一种去中心化的加密货币,BALTO币的创造和交易都依赖于区块链技术的安全和透明性。它的目标是为用户提供更快速、更安全、更便捷的支付和交易方式。在如今的加密货币市场中,找到一个靠谱的交易所是非常重要的。以下是三个著名的交易所,它们提供BALTO币的交易服务,并且在行业内拥有很高的声誉。1. 欧易交易所:欧易交易所是一个全球知名的加密货币交易平台,为

  • 10 BANK币交易所有哪些

    BANK币是一种虚拟货币,它在数字货币市场上日益受到关注和认可。作为一种基于区块链技术的数字资产,BANK币具有去中心化、安全性高以及快速交易等优势,吸引了众多投资者的目光。下面将介绍一些著名的BANK币交易所,它们是欧易交易所、币安交易所和火必交易所。首先,欧易交易所(EOX)是一家知名的数字资产交易平台,成立于2016年。该交易所支持多种数字货币的交易,其中包括BANK币。欧易交易所提供简洁易