「用 AI 训 AI」这事靠谱吗?

时间:2024-09-30 编辑: 浏览:(757)

文章来源:机器之心

来源:节选自 2024 年 Week04 业内通讯 

图片来源:由无界AI生成

在大语言模型领域,微调是改进模型的重要步骤。伴随开源模型数量日益增多,针对LLM的微调方法同样在推陈出新。2024年初,Meta和纽约大学等机构的研究者提出了一项「自我奖励方法」,可以让大模型自己生成自己的微调数据。研究者对 Llama 2 70B 进行了三个迭代的微调,其生成的模型在 AlpacaEval 2.0 排行榜上优于 Claude 2、Gemini Pro 和 GPT-4 等现有大模型。

奖励模型能干什么?

大型语言模型通过以逐步思考链格式生成解决方案,解决需要复杂多步推理的任务。许多研究关注如何检测和减少幻觉对于提高推理能力。其中,通过训练奖励模型以区分期望的和不期望的输出则是一种有效的方法,奖励模型可以用于强化学习流程或通过拒绝采样进行搜索。如何有效地训练可靠的奖励模型至关重要。OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法在 ChatGPT 发布时引起极大关注。该技术模型可以从人类偏好中学习奖励模型,再冻结奖励模型并结合强化学习训练 LLM。通过使用人类偏好数据调整大语言模型(LLM)可以提高预训练模型的指令跟踪性能。但 RLHF 存在依赖人类反馈的局限性。在此背景下,Meta 提出的「自我奖励语言模型」(Self-Rewarding Language Models, SRLMs)是一种新型的语言模型,在训练过程中利用自身生成的反馈来自我提升。自我奖励语言模型不是被冻结,而是在 LLM 调整期间不断更新,避免了冻结奖励模型质量的瓶颈。自我奖励模型的核心思路是什么?对比传统奖励模型有什么优势?自我奖励语言模型(SRLMs)的核心思想在于创建一个智能体,该智能体在训练期间集成了所需的全部能力,而非将任务分离为奖励模型和语言模型。这种方法允许通过多任务训练实现任务迁移,从而在预训练和后续训练中跟随指令并生成响应。Meta 等提出的自我奖励模型具备双重角色:一方面,它遵循模型的指令来生成给定提示的响应;另一方面,它也能够根据示例生成和评估新的指令,进而将其添加到训练集中。该模型建立在假设之上,即利用基础的预训练语言模型和少量的人工注释数据,可以创建一个同时具备指令遵循和自指令创建能力的模型。

图:自我奖励语言模型的对齐方法含两个步骤,(i)自指令创建:新创建的提示用于从模型 Mt 生成候选响应,该模型还通过“LLM作为法官”提示预测自己的奖励。(ii)指令遵循训练:从生成的数据中选择偏好对,这些对用于通过DPO(确定性策略梯度)进行训练,从而产生模型 Mt+1。然后可以迭代整个程序,从而提高指令遵循和奖励建模能力。这种自对齐能力使得模型能够使用人工智能反馈(AIF)进行迭代训练,提升自身组件的性能。自我奖励模型的一个关键特点是其自指令创建机制,它不仅生成候选响应,还自行评估这些响应的质量,充当自身的奖励模型,从而减少了对外部模型的依赖。这一过程通过“LLM-as-a-Judge”机制实现,即将响应评估任务转化为指令遵循任务,而模型自身创建的 AIF 偏好数据则被用作训练集。在微调阶段,模型同时扮演“学习者”和“法官”的角色,通过上下文微调进一步提升性能。整个过程是一个迭代的自对齐过程,通过构建一系列逐渐改进的模型来实现。与传统的固定奖励模型不同,自我奖励模型在语言模型对齐过程中不断更新,从而避免了发展瓶颈,并提高了模型自我改进的潜力。相较于传统奖励模型,自我奖励模型的优势在于其动态性和自我迭代的能力。它通过整合奖励模型到同一系统中,实现了任务迁移,允许奖励建模任务和指令遵循任务相互促进和提升。自我奖励模型和 RLAIF 有关联吗?RLAIF(Reinforcement Learning from AI Feedback)与自我奖励模型在思路上存在明显差异。RLAIF 采用了 AI 反馈强化学习的方法,使用 AI 而非人类来进行偏好标注,以此扩展强化学习的规模。具体来说,RLAIF 利用 LLM 生成的偏好标签来训练奖励模型(RM),随后使用该 RM 提供奖励以进行强化学习。Anthropic 在 2022 年 12 月发布的论文《Constitutional AI: Harmlessness from AI Feedback》中首次提出了 RLAIF 的概念,并发现 LLM 在某些任务上的表现甚至可以超越人类。而在 2023 年 9 月,谷歌发表的论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》进一步推动了 RLAIF 方法的发展。RLAIF 的关键步骤之一是使用 LLM 来标记偏好。研究者利用现成的 LLM 在成对的候选项中标记偏好,例如,给定一段文本和两个候选摘要,LLM 的任务是评判哪个摘要更为优秀。这种方法不仅提高了训练效率,还解决了传统 RLHF(Reinforcement Learning from Human Feedback)中因人类标注成本高昂和规模受限的问题。RLAIF 通过 AI 反馈来增强强化学习的能力,使得模型能够处理更大规模的数据集,同时降低了对人类标注的依赖。这种方法为训练更高效、更大规模的语言模型提供了新的可能性,并有助于推动自然语言处理领域的进一步发展。使用 AI 合成数据训模型有风险吗?最近还有谁正在做AI自我迭代?小模型监督大模型的方法好用吗?目前,模型训练大部分的数据来自于互联网,如 Twitter、GitHub、Arxiv、Wikipedia、Reddit 等网站。随着模型的规模继续增大,人们需要投喂更多的数据来训练模型。在使用模型生成的数据来训练新模型时,会产生「哈布斯堡诅咒」或称「模型自噬」现象......

最新 更多 >
  • 1 美国商品期货交易委员会主席表示,比特币和以太坊在伊利诺伊州被视为大宗商品

    在今天的参议院委员会听证会上,商品期货交易委员会主席Rostin Behnam表示,比特币和以太坊在伊利诺伊州都被裁定为商品。事实上,Behnam指出,上周地区法院在一起欺诈案中做出了有利于该机构的裁决,做出了具有重要影响的判决。 Behnam指出,该决定“重申了比特币和以太币都是《商品交易法》规定的商品。”加密货币作为证券或商品的地位问题一直是该行业与美国证券交易委员会(SEC)之间的一致问题。

  • 2 这些Alts正在超越加密货币市场的反弹

    随着加密货币市场有望从几周的动荡中复苏,altcoins出现了健康的反弹。 最值得注意的是,第一层网络Sui当天上涨5.3%,至0.72美元,而加密贷款协议Aave上涨4.5%,至86.60美元。 这是在最近几周市场面临巨大的抛售压力之后发生的。德国政府开始抛售因刑事案件而扣押的价值超过35亿美元的比特币。在此期间,已倒闭的Mt.Gox交易所一直准备将价值数十亿美元的比特币返还给债权人。 因此,加

  • 3 热度散去,比特币倒车接人?

    我们从最近跌跌不休的币价、加密货币贪婪恐惧指数28以及文章阅读量都可以看出,大家对市场的失望逐渐加深.越来越多的人离场装死,正常,大清洗下,能熬下来的寥寥无几,坚持的才能有希望,别图快,慢一点,这样才更折磨人,也才能筛选出下一轮牛市的盈利者。老有人问,现在可以屯比特币了吗?我说屯币随时都可以毕竟成本可以通过后续加仓控制,因此别再问这个问题,等等,等所有人,新闻等等都唱衰市场,更大利空出来时,价格再

  • 4 XRP和Cardano在领先的衍生品协议上获得重大上市

    去中心化衍生品平台Horizon Protocol确认批准HIP-16提案,将XRP、Cardano(ADA)和Chainlink(LINK)上市。 在最近的一篇X帖子中,交易和流动性池协议向地平线期货披露了新上市计划。去中心化衍生品协议敦促用户准备在衍生品市场上交易XRP、ADA和LINK。 地平线期货即将迎来新上市!⚡ 准备好以低费用和高达27.5倍的杠杆率交易$XRP、$ADA和$LINK

  • 5 现在你可以把你的比特币藏在你的皮肤下了

    一想到丢失一个装满比特币、以太坊或最新的模因币的加密钱包,任何投资者都会做噩梦。总部位于西雅图的Dangerous Things和VivoKey Technologies有一种新颖的方法可以随时将硬币放在身上:将硬币放进体内。 钱包是加密货币领域的标志,从一开始就是生态系统中至关重要且经常令人沮丧的一部分。它们有各种形状和尺寸,从台式电脑应用程序和浏览器插件到信用卡和USB拇指驱动器大小的设备。药

  • 6 DeFi先锋复合金融成为域名劫持的受害者

    7月11日,区块链安全公司PeckShield报告称,Compound Finance(Compound[.]Finance)的网站已被入侵。 “在进一步通知之前,不要与网站互动,”它警告说。 区块链侦探“ZachXBT”在他的调查Telegram频道上也报道了这次入侵。他说,复合金融网站似乎“可能被劫持”,然后补充道,“暂时不要访问该网站。” 他警告说,它“目前重定向到一个新注册的钓鱼网站”

  • 7 比特币力守5.7万 德国昨日又卖1万枚BTC 还剩多少?本周有望清仓?

    德国政府相关钱包自6 月19 日开始,将多笔大额比特币频繁转移至Coinbase、Kraken、Bitstamp 等交易所和做市商手中出售,被认为是除Mt. Gox 交易所启动还款外,另一个导致近期比特币下跌的主要原因。德国还剩多少比特币?根据据链上数据分析师余烬昨晚分享,德国在昨日(7 月10 日)共计转出10,853.5 枚比特币(约6.38 亿美元)后,其比特币持仓下滑到剩13,110 枚(

  • 8 Dora宣布向统一的多链和多虚拟机浏览器迈进

    [新闻稿-纽约,纽约,2024年7月11日] Dora 2.0更新允许跨10多个链进行搜索,同时跨所有支持的链进行桥接和交换,并扩展到新的VM生态系统 Dora是多链世界的统一搜索、发现和行动引擎,很高兴宣布对其服务进行一系列重大升级,这将为Dora用户提供统一的搜索视图和行动界面,以实现10多条链的桥接和交换,包括以太坊、Base、Rari、Xai、Palm Network、Gnosis、Scr

  • 9 FLOKI准备跳60%?解码价格图表

    FLOKI的价值在过去24小时内增加了3%以上。上周,迷因币的购买压力有所增加。 经过一周的下跌,FLOKI的价格终于获得了看涨的势头,因为它的日线图是绿色的。 还有一些更好的消息。如果考虑到最新数据,这可能只是一场大规模牛市的开始,这可能会使其从过去一周的损失中完全恢复,甚至走高。 Floki的看涨模式 根据CoinMarketCap的数据,模因币的价格在过去七天内下跌了11%以上。然而,随着模

  • 10 Vitalik Buterin深入以太坊并如何使其更强大

    Vitalik Buterin是最大的智能合约区块链的创建者之一,他在以太坊社区会议(EthCC)上登台讨论了该网络、其优势、劣势以及如何使其变得更好。在Brussel的活动上,Buterin指出了区块链已经取得的进步,但未来还有什么工作要做,以优化其产品,满足不断增长的用户群。 主题演讲面向1000多名观众,涵盖了各种主题。其中包括Buterin对交易审查的担忧。此外,这位联合创始人向与会者透露