「用 AI 训 AI」这事靠谱吗?

时间:2024-09-25 编辑: 浏览:(287)

文章来源:机器之心

来源:节选自 2024 年 Week04 业内通讯 

图片来源:由无界AI生成

在大语言模型领域,微调是改进模型的重要步骤。伴随开源模型数量日益增多,针对LLM的微调方法同样在推陈出新。2024年初,Meta和纽约大学等机构的研究者提出了一项「自我奖励方法」,可以让大模型自己生成自己的微调数据。研究者对 Llama 2 70B 进行了三个迭代的微调,其生成的模型在 AlpacaEval 2.0 排行榜上优于 Claude 2、Gemini Pro 和 GPT-4 等现有大模型。

奖励模型能干什么?

大型语言模型通过以逐步思考链格式生成解决方案,解决需要复杂多步推理的任务。许多研究关注如何检测和减少幻觉对于提高推理能力。其中,通过训练奖励模型以区分期望的和不期望的输出则是一种有效的方法,奖励模型可以用于强化学习流程或通过拒绝采样进行搜索。如何有效地训练可靠的奖励模型至关重要。OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法在 ChatGPT 发布时引起极大关注。该技术模型可以从人类偏好中学习奖励模型,再冻结奖励模型并结合强化学习训练 LLM。通过使用人类偏好数据调整大语言模型(LLM)可以提高预训练模型的指令跟踪性能。但 RLHF 存在依赖人类反馈的局限性。在此背景下,Meta 提出的「自我奖励语言模型」(Self-Rewarding Language Models, SRLMs)是一种新型的语言模型,在训练过程中利用自身生成的反馈来自我提升。自我奖励语言模型不是被冻结,而是在 LLM 调整期间不断更新,避免了冻结奖励模型质量的瓶颈。自我奖励模型的核心思路是什么?对比传统奖励模型有什么优势?自我奖励语言模型(SRLMs)的核心思想在于创建一个智能体,该智能体在训练期间集成了所需的全部能力,而非将任务分离为奖励模型和语言模型。这种方法允许通过多任务训练实现任务迁移,从而在预训练和后续训练中跟随指令并生成响应。Meta 等提出的自我奖励模型具备双重角色:一方面,它遵循模型的指令来生成给定提示的响应;另一方面,它也能够根据示例生成和评估新的指令,进而将其添加到训练集中。该模型建立在假设之上,即利用基础的预训练语言模型和少量的人工注释数据,可以创建一个同时具备指令遵循和自指令创建能力的模型。

图:自我奖励语言模型的对齐方法含两个步骤,(i)自指令创建:新创建的提示用于从模型 Mt 生成候选响应,该模型还通过“LLM作为法官”提示预测自己的奖励。(ii)指令遵循训练:从生成的数据中选择偏好对,这些对用于通过DPO(确定性策略梯度)进行训练,从而产生模型 Mt+1。然后可以迭代整个程序,从而提高指令遵循和奖励建模能力。这种自对齐能力使得模型能够使用人工智能反馈(AIF)进行迭代训练,提升自身组件的性能。自我奖励模型的一个关键特点是其自指令创建机制,它不仅生成候选响应,还自行评估这些响应的质量,充当自身的奖励模型,从而减少了对外部模型的依赖。这一过程通过“LLM-as-a-Judge”机制实现,即将响应评估任务转化为指令遵循任务,而模型自身创建的 AIF 偏好数据则被用作训练集。在微调阶段,模型同时扮演“学习者”和“法官”的角色,通过上下文微调进一步提升性能。整个过程是一个迭代的自对齐过程,通过构建一系列逐渐改进的模型来实现。与传统的固定奖励模型不同,自我奖励模型在语言模型对齐过程中不断更新,从而避免了发展瓶颈,并提高了模型自我改进的潜力。相较于传统奖励模型,自我奖励模型的优势在于其动态性和自我迭代的能力。它通过整合奖励模型到同一系统中,实现了任务迁移,允许奖励建模任务和指令遵循任务相互促进和提升。自我奖励模型和 RLAIF 有关联吗?RLAIF(Reinforcement Learning from AI Feedback)与自我奖励模型在思路上存在明显差异。RLAIF 采用了 AI 反馈强化学习的方法,使用 AI 而非人类来进行偏好标注,以此扩展强化学习的规模。具体来说,RLAIF 利用 LLM 生成的偏好标签来训练奖励模型(RM),随后使用该 RM 提供奖励以进行强化学习。Anthropic 在 2022 年 12 月发布的论文《Constitutional AI: Harmlessness from AI Feedback》中首次提出了 RLAIF 的概念,并发现 LLM 在某些任务上的表现甚至可以超越人类。而在 2023 年 9 月,谷歌发表的论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》进一步推动了 RLAIF 方法的发展。RLAIF 的关键步骤之一是使用 LLM 来标记偏好。研究者利用现成的 LLM 在成对的候选项中标记偏好,例如,给定一段文本和两个候选摘要,LLM 的任务是评判哪个摘要更为优秀。这种方法不仅提高了训练效率,还解决了传统 RLHF(Reinforcement Learning from Human Feedback)中因人类标注成本高昂和规模受限的问题。RLAIF 通过 AI 反馈来增强强化学习的能力,使得模型能够处理更大规模的数据集,同时降低了对人类标注的依赖。这种方法为训练更高效、更大规模的语言模型提供了新的可能性,并有助于推动自然语言处理领域的进一步发展。使用 AI 合成数据训模型有风险吗?最近还有谁正在做AI自我迭代?小模型监督大模型的方法好用吗?目前,模型训练大部分的数据来自于互联网,如 Twitter、GitHub、Arxiv、Wikipedia、Reddit 等网站。随着模型的规模继续增大,人们需要投喂更多的数据来训练模型。在使用模型生成的数据来训练新模型时,会产生「哈布斯堡诅咒」或称「模型自噬」现象......

最新 更多 >
  • 1 以太坊跌破2800美元,为2月以来首次

    每经AI快讯,8月5日,以太坊跌破2800美元,为2月以来首次。

  • 2 T-Mobile从其DNS中审查Solana DEX Jupiter

    据称,领先的移动运营商T-mobile已从其DNS中屏蔽了Jupiter Exchange域名。大多数用户抱怨说,如果没有VPN服务,他们无法访问交易所的网站。 Jupiter周五证实了这一情况,并指出这些问题主要影响西方用户,主要是移动用户。用户需要使用VPN服务或切换到桌面设备才能访问交易所的域。 我们意识到一些影响用户的问题,主要是在西方,主要是由于ISP相关的问题,在移动设备上。如果h

  • 3 近99%的Pump.fun代币失败

    Pump.fun–更像Pump.rekt。 允许任何人在Solana上创建模因币的无代码平台,代币到达去中心化交易所Raydium的成功率仅为1.4%。根据evelyn233创建的Dune Analytics仪表板,这意味着在最初创建的158万个代币中,有22330个成功推出。 Raydium要求代币的最低市值为69000美元,才能在其平台上进行交易。 Pump.fun代币发布-沙丘分析 像这样

  • 4 XT研究院:相似的历史 SOL是否又处在了突破的关键点?

    来源:XT研究院本周,比特币再次冲上7万美元,加密市场行情由BTC带动普遍回暖,在这场动荡中,一枝独秀的却是Solana。在本月Solana及其生态表现异常强劲,从月初的121美元一路上涨至193美元,价格上涨近60%,整个生态TVL也遥遥领先于其他公链,表现令人瞩目...尤其是在经历了前两年的巨幅下跌后,如今SOL的上涨让很多人都拍断大腿。谁还会记得去年大半年的时间内,SOL都在20几美元苦苦挣

  • 5 俄罗斯银行预计未来五到七年将采用数字卢布

    俄罗斯央行行长Elvira Nabiullina预计,该国央行数字货币(CBDC)数字卢布将在未来几年内被俄罗斯人主流采用。据当地媒体报道,纳比乌琳娜在联邦委员会的一次演讲中分享了这一观点。 俄罗斯去年推出了数字卢布,总统弗拉基米尔·普京签署了授权该国顶级银行运营CBDC的法律。自普京上台以来,俄罗斯央行一直在与13家地方银行进行试点。尽管其使用尚未广泛,但至少有30家公司已经提供数字卢布作为支付

  • 6 摩根士丹利顾问获准向投资者推介比特币ETF

    投资巨头摩根士丹利周五表示,将很快允许其财务顾问向符合条件的客户积极推广比特币ETF,这标志着华尔街大型银行首次采取这样的举措。 从下周三开始,该公司由约15000名财务顾问组成的庞大网络将被授权向合适的投资者推销贝莱德iShares比特币信托和富达Wise Origin比特币基金的股票。 CNBC首先报道了这一消息。一位知情人士向Decrypt证实,该报道是准确的。 Dragonfly Capi

  • 7 视频游戏表演者抗议华纳兄弟工作室使用人工智能

    100多名电子游戏表演者聚集在洛杉矶华纳兄弟工作室前,表达了他们对该行业不受控制和不受监管的人工智能使用的担忧。这些抗议活动是在游戏配音演员和动作捕捉工人最近投票抗议之后发生的。 这些抗议活动是SAG-AFTRA之间正在进行的谈判的一部分,SAG-AFTRA代表表演者和Activision、迪士尼和华纳兄弟等主要游戏公司。一年半以来,他们一直在为新的互动媒体协议进行谈判,以防止未经同意使用人工智能

  • 8 7月稳定币市值连续第10个月上涨,创2022年4月以来最高点:CCData

    据一家加密数据公司称,稳定币正在上涨。 平台CCData在一份新报告中指出,上个月稳定币市值上涨了2.11%,这是该行业连续第10个月末市值上涨。 “这是自4月以来稳定币市值的最高月度涨幅,表明7月份数字资产的积极价格走势反映了新资本流入市场。” 稳定币市值目前处于2022年4月以来的最高点。尽管欧洲稳定币的市值连续第七个月下降1.43%,但7月份的增长还是实现了。 关于旨在保持1:1盯住美元的稳

  • 9 由于美联储仍不确定,英格兰银行降息

    英格兰银行(BoE)刚刚在四年多来首次下调利率,将关键利率降至5%。这一决定以5票赞成、4票反对的微弱优势做出,结束了自2023年8月以来5.25%的16年高点。 这一决定的整个过程充满了不确定性,因为英国央行没有明确表示他们的计划,这让每个人都保持警觉。 市场在8月份的会议上已经预测降息25个基点的可能性为61%。这种猜测在事情的发展中发挥了巨大的作用。 市场反应和金边债券收益率 消息传出后,英

  • 10 Bybit&Ethena携手USDe解锁突破性奖励和高效抵押品管理

    新闻稿——2024年8月2日,阿拉伯联合酋长国迪拜] Bybit是世界上交易量第二大的加密货币交易所,很自豪地宣布将USDe(一种具有开创性的奖励的稳定保证金抵押品)整合到其平台中。这种整合标志着一个重要的里程碑,使交易者能够有效地管理他们的抵押品,同时解锁奖励并获得收益。 Bybit和Ethena之间的这种战略整合代表了一种前瞻性的举措,旨在重塑加密货币行业的稳定币格局。Bybit采用Ethen