Trong thập kỷ qua, trí tuệ nhân tạo đã phát triển chủ yếu bằng cách tiêu thụ cùng một nguồn tài nguyên: dữ liệu web công khai. Văn bản, hình ảnh, tài liệu, diễn đàn, tin tức, blog, kho lưu trữ... một lượng tài liệu khổng lồ mà các mô hình đã hấp thụ để xây dựng khả năng ngôn ngữ và nhận thức của chúng. Nhưng giai đoạn này sắp kết thúc.
Theo dự đoán được trích dẫn bởi Messari, tổng lượng văn bản công khai có sẵn để huấn luyện mô hình—khoảng 300 nghìn tỷ token—có thể sẽ hoàn toàn cạn kiệt giữa năm 2026 và 2032. Điều này có nghĩa là các mô hình lớn đã "nuốt chửng internet," và giờ đây chúng cần thứ gì đó khác. Ranh giới tiếp theo cho AI sẽ không còn là web: mà sẽ là thế giới thực.
Và đây là nơi khái niệm dữ liệu biên giới xuất hiện, nguồn tài nguyên sẽ định nghĩa tính cạnh tranh của các mô hình tương lai. Video, âm thanh, cảm biến, vận động, dữ liệu robot, dữ liệu hành động, dữ liệu được tạo ra từ tương tác với thế giới vật lý hoặc giao diện kỹ thuật số phức tạp. Dữ liệu không thể đơn giản được tải xuống: chúng phải được thu thập, phối hợp, xác minh và trên hết, được khuyến khích.
Vì lý do này, blockchain không phải là một chi tiết hay một bổ sung nhỏ: nó là cơ sở hạ tầng cho phép điều phối nền kinh tế dữ liệu mới này.
Các mô hình tiên tiến nhất của năm 2025—không chỉ về ngôn ngữ mà còn đa phương thức, tác nhân và định hướng lý luận—không còn cải thiện chỉ bằng việc bổ sung các bộ dữ liệu văn bản chung chung. Chúng đòi hỏi thứ gì đó cụ thể hơn nhiều và tốn kém hơn nhiều để thu thập: dữ liệu phản ánh hành động, ý định, chuyển động, tương tác, thao tác, bối cảnh.
Đây là trường hợp, ví dụ, với các tác nhân sử dụng máy tính, AI có khả năng tương tác trực tiếp với máy tính như con người. Để huấn luyện các hệ thống này, mô tả văn bản là không đủ: cần có "quỹ đạo", đó là các bản ghi thực tế về người thực hiện các tác vụ trên màn hình.
Một giao thức như Chakra, được đề cập trong báo cáo, đã phát triển một tiện ích mở rộng cho phép người dùng ghi lại màn hình của họ trong khi thực hiện các tác vụ hàng ngày: điều hướng hệ thống quản lý, chuẩn bị tài liệu Excel, chỉnh sửa hình ảnh, sử dụng phần mềm chuyên nghiệp. Những bản ghi này trở thành tài liệu vô giá để huấn luyện các mô hình như GLADOS-1, mô hình sử dụng máy tính đầu tiên được xây dựng gần như hoàn toàn trên dữ liệu cộng đồng.
Và đây chính xác là điểm quan trọng: những dữ liệu này không tồn tại cho đến khi ai đó tạo ra chúng. Và chúng phải được trả tiền. Giống như năng lượng hoặc suy luận được trả tiền.
Một ví dụ nổi bật khác đến từ thế giới trò chơi. Một nền tảng như Shaga, ra đời như một mạng lưới trò chơi điện toán đám mây phi tập trung, tạo ra một sản phẩm phụ cực kỳ có giá trị: cái gọi là Gameplay-Action Pairs (GAP), là các cặp đồng bộ hóa giữa những gì xảy ra trên màn hình và các lệnh mà người chơi đưa ra.
Đây là dữ liệu không thể lấy được đơn giản bằng cách xem video trên YouTube: chúng cần được ghi lại tại nguồn, trên thiết bị của người chơi. Và loại bộ dữ liệu này, theo ước tính được báo cáo bởi Messari, có thể có giá trị lên đến 50–100 đô la mỗi giờ chơi game.
Để đặt vào bối cảnh: Shaga đã tích lũy hơn 259,000 giờ chơi game, với giá trị ước tính hơn 26 triệu đô la. Và không phải ngẫu nhiên mà OpenAI, một năm trước đó, đã đề nghị nửa tỷ đô la để mua lại Medal, một nền tảng tương tự chuyên về ghi lại gameplay.
Những dữ liệu này được sử dụng để huấn luyện mô hình thế giới, các mô hình không chỉ đơn thuần diễn giải ngôn ngữ mà còn mô phỏng vật lý, nhân quả và tương tác giữa tác nhân với môi trường. Đây là những mô hình sẽ cho phép robot thông minh hơn, tác nhân tự chủ, hệ thống dự báo tiên tiến và AI có khả năng "di chuyển" trong môi trường phức tạp.
Và đây chính xác là nơi chúng ta đến với làn sóng lớn thứ hai của dữ liệu biên giới: dữ liệu robot.
AI của tương lai sẽ không chỉ nằm trong các trung tâm dữ liệu. Nó sẽ tồn tại trong robot, máy bay không người lái, xe tự lái, cảm biến phân tán và thiết bị nhà thông minh. Mỗi robot sẽ cần dữ liệu để học cách di chuyển, nhận dạng đối tượng, đưa ra quyết định và thao tác môi trường. Và việc thu thập dữ liệu này cực kỳ tốn kém: nó đòi hỏi phần cứng vật lý, người vận hành cho điều khiển từ xa, bảo trì liên tục và phối hợp.
Các dự án như PrismaX, BitRobot, GEODNET và NATIX đang bắt đầu sử dụng các cơ chế khuyến khích điển hình của Web3 để phân phối chi phí này trên một mạng lưới toàn cầu các cộng tác viên. Thay vì có một công ty duy nhất thu thập dữ liệu robot, hàng nghìn người dùng có thể làm điều đó một cách phối hợp, nhận được bồi thường trực tiếp.
Đó là cùng một logic như khai thác: nhưng thay vì sức mạnh tính toán, ở đây đóng góp là dữ liệu thực.
Nếu robot và AI Agent thực sự bắt đầu tương tác với thế giới vật lý, một cấp độ phối hợp hoàn toàn mới là cần thiết. Robot sẽ cần:
Đây là nơi các sáng kiến như OpenMind và Peaq xuất hiện, cố gắng xây dựng một cơ sở hạ tầng on-chain dành riêng cho giao tiếp và danh tính của robot. Một tương đương của DNS, nhưng dành cho máy móc. Một hệ thống mà máy bay không người lái, xe tự lái, cánh tay robot hoặc hệ thống công nghiệp có thể báo hiệu sự hiện diện của chúng, chứng nhận hành động của chúng, thanh toán cho các hệ thống khác và trao đổi dịch vụ.
Đó là sự khởi đầu của nền kinh tế máy móc, một nền kinh tế được dân cư hóa bởi các thực thể phi nhân loại tương tác tự chủ trên các mạng phi tập trung.
Báo cáo cũng đặt trọng tâm đáng kể vào IoTeX, một giao thức mà trong những năm gần đây đã chuyển đổi cơ sở hạ tầng của mình thành một nền tảng toàn diện cho việc thu thập, chứng nhận và điều phối dữ liệu thế giới thực.
IoTeX cho phép kết nối cảm biến, thiết bị IoT, hệ thống nhà và thiết bị công nghiệp, cung cấp:
Hiện nay, IoTeX điều phối hơn 16,000 thiết bị và hàng chục dự án theo chiều dọc, cung cấp cho AI Agent khả năng truy cập dữ liệu đã xác minh từ thế giới thực. Một sự khác biệt đáng kể so với việc scraping đơn giản.
Theo Messari, quỹ đạo là rõ ràng: dữ liệu đang trở thành một tài sản tài chính về mọi mặt. Giống như ngày nay người ta có thể đầu tư vào tính toán, GPU và colocation, trong tương lai sẽ có thể đầu tư vào "luồng dữ liệu", mua quyền sử dụng, hỗ trợ mạng lưới thu thập dữ liệu biên giới, và đổi lại, nhận được lợi nhuận kinh tế.
Đó là một sự tiến hóa gần như không thể tránh khỏi: nếu dữ liệu trở nên khan hiếm, có giá trị và khó sản xuất, thì nó sẽ có thị trường, giá cả, cung và cầu.
Blockchain, một lần nữa, là lớp lý tưởng để:
AI sẽ không tiến bộ thông qua các mô hình ngày càng lớn hơn, mà thông qua dữ liệu phong phú hơn, được lấy từ thế giới thực và thu thập thông qua mạng lưới toàn cầu các cộng tác viên. Đó là cuộc đổ xô tìm vàng lớn nhất của thập kỷ tới: không phải của chip, mà là của dữ liệu.
Các giao thức Web3 không phải là một chi tiết đơn thuần: chúng là nền tảng tự nhiên để thu thập, xác minh, phân phối và bồi thường cho những người cung cấp dữ liệu này. Nếu web là nguyên liệu thô của làn sóng AI đầu tiên, thế giới thực sẽ là nguyên liệu thô của làn sóng thứ hai.
Và lần này, lần đầu tiên, việc thu thập sẽ không được kiểm soát bởi một vài gã khổng lồ, mà bởi các mạng lưới.
Mạng lưới mở, được khuyến khích, phi tập trung: cơ sở hạ tầng mới của dữ liệu biên giới.


