在过去的十年中,人工智能主要通过吸收同一种资源而成长:公共网络数据。文本、图像、文档、论坛、新闻、博客、资料库……模型吸收了大量材料来构建其语言和认知能力。但这个阶段即将结束。
根据Messari引用的预测,可用于模型训练的公共文本总量——约300万亿个标记——可能在2026年至2032年间被完全耗尽。这意味着大型模型已经"吃掉了互联网",现在它们需要其他东西。人工智能的下一个前沿将不再是网络:而是现实世界。
这就是前沿数据概念发挥作用的地方,这种资源将定义未来模型的竞争力。视频、音频、感官、运动、机器人数据、行动数据,以及通过与物理世界或复杂数字界面互动产生的数据。这些数据不能简单地下载:它们必须被收集、协调、验证,最重要的是,被激励。
因此,区块链不是一个细节或边缘性的补充:它是使这种新数据经济协调成为可能的基础设施。
2025年最先进的模型——不仅是语言模型,还包括多模态、代理型和推理导向型模型——不再仅仅通过添加通用文本数据集来改进。它们需要更加具体且收集成本更高的东西:反映行动、意图、移动、互动、操作、上下文的数据。
例如,计算机使用代理就是这种情况,这种人工智能能够像人类一样直接与计算机交互。要训练这些系统,文本描述是不够的:需要"轨迹",即人们在屏幕上执行任务的实际记录。
报告中提到的Chakra协议开发了一个扩展程序,允许用户在执行日常任务时记录屏幕:导航管理系统、准备Excel文档、编辑图像、使用专业软件。这些记录成为训练像GLADOS-1这样的模型的宝贵材料,GLADOS-1是第一个几乎完全基于众包数据构建的计算机使用模型。
这正是关键所在:这些数据在有人产生它们之前是不存在的。而且必须为它们付费。就像为能源或推理付费一样。
另一个引人注目的例子来自游戏世界。像Shaga这样的平台,作为一个去中心化的云游戏网络诞生,产生了一个极其有价值的副产品:所谓的游戏行动配对(GAP),这是屏幕上发生的事情与玩家发出的命令之间的同步配对。
这些数据不能简单地通过观看YouTube上的视频来获取:它们需要在源头,即玩家的设备上捕获。根据Messari报告的估计,这类数据集每小时游戏时间的价值可高达50-100美元。
为了说明情况:Shaga已经累积了超过259,000小时的游戏时间,估计价值超过2600万美元。而OpenAI在一年前提出5亿美元收购Medal,一个专门从事游戏记录的类似平台,这也不是巧合。
这些数据用于训练世界模型,这些模型不仅仅解释语言,还模拟物理、因果关系和代理-环境互动。这些模型将使更智能的机器人、自主代理、先进的预测系统以及能够在复杂环境中"移动"的人工智能成为可能。
这正是我们到达前沿数据第二大浪潮的地方:机器人数据。
未来的人工智能不仅仅存在于数据中心。它将存在于机器人、无人机、自动驾驶汽车、分布式传感器和智能家居设备中。每个机器人都需要数据来学习如何移动、识别物体、做出决策和操控环境。而这种数据收集成本极高:它需要物理硬件、远程操作的人类操作员、持续维护和协调。
像PrismaX、BitRobot、GEODNET和NATIX这样的项目开始使用Web3典型的激励机制,将这种成本分散到全球贡献者网络中。不是由单一公司收集机器人数据,而是数千名用户可以协调一致地这样做,并获得直接补偿。
这与挖矿的逻辑相同:但这里的贡献不是计算能力,而是真实数据。
如果机器人和人工智能代理真正开始与物理世界互动,就需要一个全新的协调水平。机器人将需要:
这就是OpenMind和Peaq等倡议出现的地方,它们试图构建一个专用于机器人通信和身份的链上基础设施。相当于DNS,但是为机器设计的。在这个系统中,无人机、自动驾驶汽车、机械臂或工业系统可以表明它们的存在,证明它们的行动,向其他系统付款,并交换服务。
这是机器经济的开始,一个由非人类实体在去中心化网络上自主互动的经济。
该报告还重点关注IoTeX,这是一个近年来将其基础设施转变为收集、认证和协调现实世界数据的综合平台的协议。
IoTeX使传感器、物联网设备、家庭系统和工业设备的连接成为可能,提供:
如今,IoTeX协调超过16,000个设备和数十个垂直项目,为人工智能代理提供访问现实世界验证数据的能力。与简单的抓取相比,这是一个显著的差异。
根据Messari的说法,轨迹很明确:数据正在各方面成为金融资产。就像今天可以投资计算能力、GPU和托管一样,未来将可以投资"数据流",购买使用权,支持收集前沿数据的网络,并获得经济回报。
这几乎是不可避免的演变:如果数据变得稀缺、有价值且难以生产,那么它将拥有市场、价格、需求和供应。
区块链再次成为理想的层级,用于:
人工智能的进步不会通过越来越大的模型实现,而是通过更丰富的数据,这些数据来源于现实世界,并通过全球贡献者网络收集。这是下一个十年最大的淘金热:不是芯片的淘金热,而是数据的淘金热。
Web3协议不仅仅是一个细节:它们是收集、验证、分发和补偿那些提供这些数据的人的自然平台。如果说网络是第一波人工智能浪潮的原材料,那么现实世界将是第二波的原材料。
这一次,首次,收集不会由少数巨头控制,而是由网络控制。
开放、激励、去中心化的网络:前沿数据的新基础设施。

