2024-03-26

草是人工智能的数据层

作者 万有引力
草是人工智能的数据层

TL;DR: Grass 是一个去中心化网络,用于访问公共网络,从而访问训练人工智能模型所需的数据。随着它扩展到清理和准备结构化数据集的业务,它成为人工智能存在基础(人工智能的数据层)不可或缺的一部分。

介绍

最近,您可能听说人们将 Grass 称为“人工智能的数据层”。但这意味着什么?  

您可能已经意识到,就在我们说话的时候,人工智能革命正在展开,并且您可能知道,在还有时间的情况下,Grass 是赚取人工智能股份的最简单方法。但还有比这更复杂的事情——嗯,那就是令人头痛的事情开始了。这个话题很快就变得复杂,并且有很多噪音。

没关系。解释这些东西实际上是我们的工作。

因此,今天我们将更详细地了解人工智能的数据层是什么,并解释 Grass 最近开始执行的一些新服务。然后,您将更清楚地了解为什么 600,000 人似乎认为这是一个好主意,以及为什么您决定加入而做出了正确的选择。让我们深入了解一下。

  1. 什么是人工智能的数据层?

什么是人工智能的数据层?

好吧,在我们讨论之前,首先什么是人工智能?解释得像我5岁一样。

简而言之,人工智能是一种获取大量数据并从中发现模式的程序。然后,它在出现提示时使用这些模式进行预测。  

一个例子:想想 ChatGPT。它需要数十亿个单词,并注意到它们之间如何相互关联。它看到“蓝色”一词旁边的“天空”一词 10 或 15,000 次,现在它可以告诉你:天空是蓝色的。 

好吧,现在暂停。

您会注意到该段落中发生了三件事。

首先,模型获取要训练的数据。其次,它进行梳理以“学习”它能找到的所有模式和相关性。第三,当你问天空是什么颜色时,它告诉你“蓝色”。

当你想到人工智能协议时,特别是在加密领域,你可能会想到第二部分——训练。您会想到模型在梳理数据、寻找模式时使用的去中心化处理器网络。你是对的——这是一种人工智能协议。问题是,这不是最重要的部分。不过,请仔细阅读下一部分。  

虽然训练人工智能模型显然很重要,但使用它时得到的答案基于它在训练数据中发现的相关性。ChatGPT 可以告诉你天空是蓝色的,只是因为它在训练数据中遇到了足够多的答案。如果您从低质量的训练数据开始,最终会得到低质量的答案。没有训练数据?没有答案。   

换句话说,你可以拥有地球上最强大的模型,但如果它是根据两篇都说天空是绿色的 Medium 文章进行训练的,猜猜当你问天空是什么颜色时,你的模型会告诉你什么。嗡嗡声。错误的答案。

从这个角度来看,数据实际上是任何人工智能模型中最重要的部分。数据绝不是开发的敷衍序言,它实际上是任何功能模型的核心,而数据供应是任何培训的基础。这就是为什么根据一份报告,“为 AI 工具准备数据通常占实施 AI 系统总工作量的80% 。” 数据供应实际上是最重要的战斗! 

那么什么是数据层呢?  

数据层是人工智能发展的第一阶段。它是人工智能堆栈的一部分,在训练开始之前收集数据并为模型准备数据。我的朋友们,这就是草。这也是您可以做出贡献的地方,也是您可以获得人工智能寒武纪爆发的一些好处的地方。所以请留在我们身边。让我们继续……

  1. Grass是用来获取AI训练的数据吗?

我们很高兴您提出这个问题。是的,这正是草的用途!  

当您在 Grass 上运行节点时,您将出售未使用的互联网连接部分。我们并不是全天 24 小时都在播放流媒体视频,因此有大量的互联网是您付费的,但在任何特定时间都不会使用。  

这是人工智能实验室愿意付费的资源!使用我们的网络,他们可以上网查看公共网站并抓取人工智能数据。然后将其用于培训目的,创建明天的人工智能模型并为普通人的改变提供补偿。真的就是这么简单。

  1. 从互联网收集数据后,Grass 是否会使用 Grass 来准备这些数据?

感谢苏格拉底,我们新的内部人工智能开发垂直领域,确实如此。 

当从公共网站抓取数据时,数据是非结构化的。想象一下网站上的语言数据,只是你看到的不是句子和段落,而是一串字母和数字,有数千位数字长,没有可理解的顺序。结构化数据是指获取这些数字并将其转换为可识别格式的过程 - 在本例中,是对它们进行组织,以便实际上可以读取和解释它们。数据需要以特定的方式构建,以便人工智能模型使用它,因此这显然是人工智能管道中的关键一步。  

准备工作的另一个组成部分是清理数据。异常值可能会扭曲模型在学习时得出的结果,因此在训练开始之前将其丢弃非常重要。此外,随着数据战争的升温和公司试图互相破坏,我们开始看到更多故意中毒的例子。他们通过在自己的网站上故意包含虚假信息来实现这一目标,以阻止对手试图互相窃取公司情报  这也是为什么在没有仔细准备的情况下无法将数据简单地插入人工智能模型的另一个原因。  

苏格拉底最初是一个大型数据存储库,人工智能实验室可以专门出于培训法学硕士的目的请求访问该数据存储库。然而,目前正在训练自己的模型,用于自动化抓取和数据准备过程,以及在抓取后标记数据。这确实会让数据层超速运转,加速去中心化人工智能的全面发展。

  1. 为什么需要去中心化网络来执行这些服务?

现有的许多最大的网站都拥有私有、中心化人工智能公司的股份,并在阻止较小的竞争对手获得立足点方面拥有既得利益。即使是那些还没有开始意识到他们的数据价值有多大的人,他们也已经开始制定政策,使除了最大的人工智能实验室之外的所有实验室的访问成本都过高。例如,可以从 Reddit 获取大量语言数据,但该公司去年开始对其 API 收取过高的费用,现在试图阻止人们自行抓取这些数据。  

实际上,这通常是通过阻止已知数据中心的 IP 地址来实现的。许多公司运行像 Grass 这样的网络,与 Grass 的去中心化和公平设计相比,这些网络是集中式和提取式的,并且这些网络通常依赖于数据中心进行抓取。由于网站屏蔽了这些 IP 地址,人工智能实验室查看它们的唯一真正方式是通过 Grass 等去中心化网络。  

  1. Grass 与传统的数据供应方法相比有何优势?

Grass 的诞生有一个原因:人工智能的兴起是纠正 Web 2.0 中出现的一些错误的机会。我们对现在互联网的发展方式并不满意,我们相信建设这个基础设施是在Web3发展中弘扬我们价值观的最佳方式。  

以下是我们引以为傲的三件事:

  1. Grass 是一个由用户拥有和运营的网络。当您运行节点并赚取 Grass 积分时,您在帮助运营网络时就获得了网络本身的股份。与其他网络不同的是,其他网络如果对用户进行激励的话,奖励的金额微乎其微,而 Grass 被设计为一个公平的集体项目。这意味着随着人工智能的发展,我们所有人都会受益,而不仅仅是比尔·盖茨和埃隆·马斯克。
  2. 草丛是目前任何人接触人工智能兴起的最简单的方式。运行节点就像注册和安装 Chrome 扩展程序一样简单,应用程序会为您完成其余的工作。Grass 是一种被动而非主动的参与人工智能的方式,这意味着任何人都可以毫不费力地做出贡献。
  3. 除了在训练传统人工智能方面的有用性之外,Grass 还通过创建访问网络数据的替代途径来创建去中心化和开源人工智能。如果没有人这样做,像谷歌和微软这样的公司将有权把关公共网络,作为唯一对整个网络进行索引的实体。然后他们可以利用这种权力来垄断人工智能的发展,因为(正如你现在所知)没有训练数据=没有人工智能模型。通过提供这项服务并像苏格拉底那样创建结构化数据的轨道,Grass 致力于让所有人都能访问公共网络数据。

这是很多信息,但希望您能更好地了解 Grass 在人工智能开发中所扮演的角色、我们当前的使命是什么,以及为什么我们认为它如此重要。通过在这里参与我们,您不仅可以为构建网络所做的工作获得报酬。您正在帮助创造一个更美好、更公平、更公正的世界。就像人工智能本身一样,这一切都始于数据层。因此,感谢您帮助我们建设基础设施并创造我们想要生活的世界。

 

原文 https://www.getgrass.io/blog/grass-is-the-data-layer-of-ai

操作教程:https://168858.xyz/2024/03/25/grass%e6%8c%96%e7%9f%bf%e5%85%8d%e8%b4%b9%e4%ba%89%e5%8f%96%e4%bb%a3%e5%b8%81%e6%95%99%e7%a8%8b/

1、注册grass账号

https://app.getgrass.io/register/?referralCode=2AoxE605w1sNHcZ

邀请码 2AoxE605w1sNHcZ

用户名密码邮箱,即可注册。默认推荐码不用修改。

2、电脑安装谷歌浏览器,搜索安装grass插件,点击启用。

https://chrome.google.com/webstore/detail/grass-extension/ilehaonighjijnmpnagapkhpcdbhclfg?hl=en&authuser=0

 

根据你的网络质量评分。质量越高,奖励的代币越多。