破除AI数据壁垒 数据DAO正当时

时间:2024-09-23 编辑: 浏览:(172)

作者:Li Jin,Variant Fund合伙人;翻译:xiaozou

最近备受瞩目的数据授权交易(如OpenAI与News Corp和Reddit之间的交易)突显了人工智能(AI)对高质量数据的需求。前沿大模型已经在大部分互联网上进行了训练——例如,Common Crawl索引了大约10%的网页,用于LLM训练,包含超过100万亿枚代币。

进一步改进人工智能模型的一个途径是扩展和增强它们可用于训练的数据。我们一直在讨论聚合数据的机制——特别是以一种去中心化的方式。我们尤为感兴趣的是探索去中心化方法如何帮助生成新的数据集,并为贡献者和创建者提供经济奖励。

最近几年加密领域里的讨论话题之一就是数据DAO的概念,即创建、组织和管理数据的一群人。这个话题已经被Multicoin和其他人谈过了,但人工智能的快速发展催生了关于数据DAO的一个新的问题——“为什么现在正当时?”

本文,我们将分享我们对数据DAO的思考,以求回答这样一个问题:数据DAO如何加速人工智能的发展?

1、AI领域的数据现状

如今,人工智能模型是在公共数据上进行训练的,要么是通过News Corp和Reddit等合作来实现,要么是通过在开放的互联网上收集数据。例如,Meta的Llama 3是使用公开来源的15万亿代币进行训练的。这些方法在快速聚合大量数据方面是很有效的,但它们在收集哪类数据以及如何收集数据方面都有局限性。

首先,应收集什么样的收据:人工智能的发展受到数据质量和数量的瓶颈。Leopold Aschenbrenner曾写过限制算法进一步改进的“数据墙”相关内容:“很快,在更多的抓取数据上预训练更大的语言模型的朴素做法可能会开始遭遇严重的瓶颈。”

推倒数据墙的一种方法是开启新数据集的可用性。例如,模型公司无法在不违反大多数网站服务条款的情况下抓取登录数据,而且根据定义,它们无法访问尚未收集的数据。目前还有大量的私人数据是人工智能训练无法获取的:比如Google Drive和Slacks等公司、个人健康数据或私人信息。

其次,如何收集收据:在现有的模式下,数据收集公司获取了大部分价值。Reddit的S-1将数据授权作为主要的预期收入源:“我们预计,我们不断增长的数据优势和知识产权将继续成为未来LLM训练的关键要素。”生成实际内容的最终用户并没有从这些授权协议或人工智能模型本身获得任何经济利益。这种错位可能会扼杀参与积极性——已经有起诉生成式人工智能公司或选择退出训练数据集的运动。更不用说将收入集中在模型公司或平台的手中而不分给最终用户分毫所带来的社会经济影响。

2、数据DAO效应

上述数据问题有一个共同的主线:它们受益于来自不同的、有代表性的用户样本的大量贡献。任何单个数据点对模型性能的价值可能都可以忽略不计,但总体来看,一大群用户可以聚集对人工智能训练有价值的新的数据集。这就是数据DAO概念的用武之地。有了数据DAO,数据贡献者可以通过提供数据收获经济好处,并可管理数据的使用方式和货币化方式。

数据DAO可以在当前数据领域里的哪些方面做出贡献?下面是一些想法——请注意,这并非一个详尽列表,数据DAO肯定还有其他的机会:

(1)现实世界数据

在去中心化物理基础设施(DEPIN)领域,Hivemapper等网络旨在收集全世界最新的全球地图数据,方法是通过激励行车记录仪的所有者贡献他们的数据,以及激励用户通过他们的应用程序贡献数据(例如关于道路封闭或维修的数据)。可以将DEPIN视为现实世界的数据DAO,其中数据集是从硬件设备和/或用户网络生成的。这些数据对许多公司都有商业价值,收入将以代币奖励的形式回馈给贡献者。

(2)个人健康资料

生物黑客是一项社会运动,指的是个人和社区采取DIY的方法来研究生物学,通常是拿自己来做实验。例如,一个人可能会服用不同的益智药物来提高大脑的表现,或者测试不同的治疗方法或环境变化来改善睡眠,甚至还有人给自己注射实验性药物。

数据DAO可以通过组织参与者围绕共同的实验和系统地收集结果,为这些生物黑客的努力带来激励。这些个人健康DAO获得的收入,例如来自研究实验室或制药公司的收入,可以回到以自己的个人健康数据形式贡献结果的参与者。

(3)用人类反馈强化学习

使用RLHF(使用人类反馈强化学习)微调人工智能模型涉及到利用人类输入来提高人工智能系统的性能。通常,人们期待反馈者都是他们各自领域的专家,他们可以有效地评估模型的输出。例如,实验室可能会寻求数学博士的帮助来提高他们的LLM的数学能力,等等。代币奖励可以通过其投机优势在寻找和激励专家参与方面发挥作用,更不用说使用加密支付轨道所提供的全球访问权了。Sapien、Fraction和Sahara等公司都正在这一领域开展工作。

(4)私人数据

随着可供人工智能训练使用的公开数据越来越少,竞争的基础可能会转向专有数据集,包括私人用户数据。登录墙后面有大量高质量的数据仍然无法访问,例如私信、私人文件等。这些数据不仅可以有效地训练个人AI,而且还包含了在公共网络上无法访问的有价值的信息。

然而,访问和利用这些数据在法律和道德上都面临着重大挑战。数据DAO可以提供一种解决方案,允许有意愿的参与者上传和变现他们的数据,并可管理数据的使用方式。例如,Reddit数据DAO允许用户上传他们从Reddit平台导出的Reddit数据,其中包含评论、帖子和投票历史,这些数据可以以隐私保护的方式出售或出租给人工智能公司。代币激励让用户不仅可以通过一次性交易赚取收益,还可以基于使用其数据训练的人工智能模型所创造的价值大小赚取收益。

3、开放问题与挑战

虽然数据DAO的潜在好处是巨大的,但也存在一些考量和挑战。

(1)激励的扭曲影响

从Crypto使用代币激励的历史中可以看到一点,那就是外部激励会改变用户行为。这对利用代币激励来实现数据目的有直接影响:激励可能会扭曲参与者群体和其所贡献的数据类型。

代币激励的引入也引入了参与者寻求系统漏洞的可能性,例如提交低质量或捏造数据来让他们的收入最大化。这很重要,因为这些数据DAO的收益机会取决于数据质量。如果贡献偏离目标,就会破坏数据集的价值。

(2)数据测量和奖励

数据DAO的核心思想是,通过代币激励来奖励贡献者的数据提交,从长远来看,这将成为DAO所获得的收入。然而,考虑到数据价值的主观性,确切地知道应该对各种数据贡献给予多少奖励是极具挑战性的。在上面关于生物黑客的例子中,例如:某些用户的数据比其他用户的数据更有价值吗?如果是,决定因素有哪些?对于地图数据来说:某些地区的地图信息是否比其他地区更有价值?这种差异如何量化?(通过计算数据对模型性能的增量贡献来衡量人工智能中的数据价值这方面的研究非常活跃,但这种方法可能需要大量的计算。)

另外,建立健全的机制来验证数据的真实性和准确性至关重要。如果没有这些措施,系统可能容易面临欺诈性数据提交(例如创建虚假账户)或Sybil攻击。DEPIN网络试图通过在硬件设备级别进行集成来解决这个问题,但是依赖于用户贡献的其他类型的数据DAO可能容易受到操纵。

(3)新数据递增量

大多数开放网络已经被用作训练目的,因此数据DAO操作员必须考虑,通过分布式方式收集的数据集是否真的是开放网络上现有数据的增量和附加,以及研究人员是否可以从平台上获得这些数据或通过其他方式获取这些数据。上述想法强调了收集全新数据的重要性,这些数据超越了现有的数据,导致了接下来的考量:影响大小和收益机会。

(4)评估收益机会

从本质上讲,数据DAO正在构建一个双边市场,将数据买家和数据贡献者联系起来。因此,数据DAO的成功取决于能否吸引稳定且多样化的、愿意为数据付费的客户群。

数据DAO需要识别和验证其最终需求,并确保收益机会足够大(无论是基于总量还是基于单个贡献者),以激励所需数据的数量和质量。例如,创建一个用户数据DAO来汇集个人偏好以及出于广告目的浏览数据的想法已经讨论了好几年了,但最终,这样一个网络能够传递给用户的收益可能微乎其微。(作为对比参考,Meta在2023年底的全球ARPU为13.12美元。)随着人工智能公司计划在训练方面投入数万亿美元,分给每个用户的数据收益可能足以吸引大规模贡献,这就给数据DAO提出了一个有趣的问题:“为什么是现在?”

4、攻克数据墙

数据DAO代表了一种潜在的光明前景,可以生成新的高质量数据集,并攻克人工智能领域里的数据墙。具体如何实现还有待观察,但我们很高兴看到这个领域的发展。

最新 更多 >
  • 1 四叶草AI引领K线走势图深度解读 助力加密市场投资者稳健获利

    在加密货币市场的风起云涌中,投资者们一直在寻找能够准确洞察市场动态、把握交易时机的工具。K线走势图作为技术分析的基石,以其直观展现资产价格波动、揭示市场多空力量对比的特性,成为了投资者们不可或缺的参考依据。然而,K线图的解读往往因人而异,投资者们需要一种能够准确提炼信息、提供有效策略的工具来辅助决策。在这个背景下,四叶草AI应运而生,作为一款基于深度学习和大数据分析技术的交易点位提示应用工具,它成

  • 2 韭菜的共识也是共识、MEME确实是散户翻身最简便的方式了

    人与人的悲欢并不相通。除了互不接盘,还有大家关于市场热点的互不关注。比如今天,大家都只关心 NOT 的一路狂飙和 RoarKitty 回归带动 GME 相关 Meme 飞涨,却忘了今天仍是行业内一年一度的 Consensus 大会召开的重要日子。自 2015 年以来,由 CoinDesk 举办的 Consensus大会 已成为全球区块链与加密货币领域最重要的年度聚会之一。彼时它一度是技术创新的风向

  • 3 Coinbase表示,即使在以太坊ETF获得批准后,美国证券交易委员会仍“一心想扼杀加密货币行业”

    Coinbase表示,即使美国证券交易委员会(SEC)最近批准了现货以太坊ETF(交易所交易基金),它也将继续“扼杀”加密货币行业。 Coinbase的法律团队在5月31日向美国上诉法院提交的一份文件中,对美国证券交易委员会不愿为加密货币领域制定明确的监管准则提出质疑,因为它正在继续为加密货币行业争取公平规则。 尽管美国证券交易委员会于5月23日批准了现货ETH ETF,并于今年年初推出了与比特币

  • 4 DeFi新趋势:模块化借贷

    作者:Chris Powers 编译:Luccy,BlockBeats 编者按:DeFi 研究员 Chris Powers 探讨了借贷领域的新趋势——模块化借贷,并举例说明了模块化借贷在应对市场挑战和提供更好服务方面的潜力。 Chris Powers 对比了传统 DeFi 借贷领军者(MakerDAO、Aave 和 Compound),以及几个主要的模块化借贷项目,包括 Morpho、Euler

  • 5 吨币:吨币持有者的激增是否预示着市场情绪的转变?

    零售和大型TON投资者的数量增加,引发了价格的显著上涨。未平仓合约攀升,表明上升趋势强劲。 新一轮的上涨打击了Toncoin[TON],这一次它不仅限于价格或市值。相反,AMBCrypto发现,每个组中持有TON的地址数量都在增加。 根据Santiment的链上数据,其投资组合中拥有0.01至1吨的持有人数量激增。拥有10万到100万代币的鲸鱼也是如此。 这对于任何项目来说都是罕见的景象。对于通币

  • 6 OpenAI发布首款AI手机Kami 将搭载GPT-4

    旧金山——美国知名人工智能公司OpenAI今日正式发布了其首款AI智能手机——Kami。这款手机搭载了最新的GPT-4语言模型,标志着AI技术在移动设备领域的又一次重大突破。OpenAI首席执行官在发布会上表示,Kami不仅具备传统智能手机的功能,还将通过GPT-4提供一系列创新的AI服务。这些服务包括智能助手、自动化内容生成、实时翻译和高级数据分析等,旨在全面提升用户的生活和工作效率。智能助手,

  • 7 Tether正在成为比特币最具影响力的矿工吗?

    让一个典型的比特币用户说出最有影响力的矿业公司,他们几乎肯定会说出Bitmain的名字。该公司是迄今为止世界上占主导地位的采矿设备制造商,并领导着几乎大多数的采矿池:Antpool及其许多鞋垫。 然而,稳定币巨头Tether一直在悄悄地增加其在全球各种比特币矿工中的影响力。 这家稳定币巨头最近向Bitdeer投资了1亿美元,这是一家由Bitmain联合创始人运营的上市公司,也是比特币领先开发公司B

  • 8 数字世界 l 构筑加密资产的安全基石就在Dandelion!

    在当今日益数字化的世界中,区块链与加密技术已成为保护信息安全、构建信任和促进创新的关键技术。从加密货币到智能合约,再到去中心化应用(DApps),这些技术正在重塑我们的金融系统、商业运作乃至社会治理结构。在数字世界的深处,一项革命性的密码学理论——Delta理论,正悄然改变着我们对加密资产有效增值理解,它在交易市场中,创造了一个时间网格的参照物;让我们可以很快的找到时空转换的规律。同时,也改变着我

  • 9 ASML,比利时Imec开放实验室测试最新芯片制造工具

    在这篇文章ASML-NL关注你最喜欢的股票REATE FREE ACCOUNT 2023年6月16日,ASML标志出现在荷兰Veldhoven的总部。Piroschka Van De Wouw |路透社 最大的半导体制造设备制造商ASML周一表示,已与比利时芯片研究公司Imec一起为其高NA EUV光刻设备开设了一个测试实验室。荷兰Veldhoven的实验室经过多年的制造,将为领先的芯片制造商

  • 10 吉普预计2024年插电式混合动力SUV销量将增长50%

    在这篇文章STLA关注你最喜欢的股票REATE FREE ACCOUNT 2023年4月5日,星期三,在纽约举行的2023年纽约国际车展上,一辆吉普牧马人插电式混合动力汽车(PHEV)。Stephanie Keith |彭博社|盖蒂图片社 纽约——吉普计划今年将其插电式混合动力汽车在美国的销量增长50%,因为在电动汽车销售速度慢于预期的情况下,吉普将这项技术作为其传统耗油SUV和全电动汽车之间