原文作者 | @cebillhsu
编译 | Golem
GPT-4、Gemini 1.5 和微软 AI PC 等 AI 技术的进步令人印象深刻,但目前 AI 的发展也还面临着一些问题,AppWorks 的Web3研究员 Bill 深入研究了其中的问题,并且探讨了 Crypto 如何为 AI 赋能的 7 个方向。
数据代币化
传统的 AI 训练主要依赖于互联网上可用的公开数据,或者更准确地说,是公共领域的流量数据。除了少数公司提供开放的 API 外,大多数数据仍未被开发。如何在确保隐私被保护的前提下,使更多数据持有者能够贡献或授权他们的数据用于 AI 训练是一个关键方向。
然而,这一领域面临的最大挑战是数据很难像计算能力一样标准化。虽然分布式的计算能力可以通过 GPU 类型来量化,但私有数据的数量、质量和使用情况却难以衡量。如果分布式的计算能力像 ERC 20 ,那么数据集的代币化则类似于 ERC 721 ,这使得流动性和市场的形成比 ERC 20 更具挑战性。
Ocean Protocol的 Compute-to-Data 功能允许数据所有者在保护隐私的同时出售私人数据。 vana为 Reddit 用户提供了一种聚合数据并将其出售给训练 AI 大模型的公司的方法。
资源分配
目前,GPU 算力供需缺口很大,大公司垄断了大部分 GPU 资源,这使得小公司训练模型的成本非常高。很多团队都在努力通过去中心化网络集中小规模、使用率低的 GPU 资源来降低成本,但他们在保证算力稳定和带宽充足方面仍面临较大挑战。
激励性 RLHF
RLHF(基于人类反馈的强化学习)对于改进大型模型至关重要,但这需要专业人员进行训练。随着市场竞争的加剧,雇用这些专业人员的成本也在增加。为了在保持高质量标注的同时降低成本,可以使用质押和罚没系统。数据标注的最大开支之一是需要监督员检查质量。然而,多年来,区块链已经成功地利用经济激励机制来确保工作质量(PoW、PoS),相信创建一个良好的代币经济系统可以有效降低 RLHF 的成本。
例如, Sapien AI已引入 Tag 2 Earn 并与多家 gamefi 公会合作;Hivemapper 通过代币激励机制,已有 200 万公里道路的训练数据; QuillAudits 计划推出开源智能合约审计代理,允许所有审计人员共同训练代理并获得奖励。
可验证性
如何验证算力提供商是否按照特定需求或模型执行推理任务?用户无法验证 AI 模型及其输出的真实性和准确性。这种可验证性的缺乏可能会导致金融、医疗和法律等领域的不信任、错误甚至利益损害。
通过使用诸如 ZKP、OP 和 TEE 等加密验证系统,推理服务提供商可以证明输出是通过特定模型执行的。使用加密验证的好处包括模型提供商可以维护模型的机密性、用户能够验证模型执行是否正确、以及将证明加密汇总到智能合约中可以规避区块链的计算能力的限制。同时还可以考虑直接在设备端运行 AI 来解决性能问题,但是到目前为止还没有看到令人满意的答案,在这一领域进行建设的项目有Ritual、ORA、Aizel Network。
深度伪造
随着生产式 AI 的出现,人们越来越重视深度伪造(DeepFake)问题。然而,深度伪造技术的进步速度快于检测技术,因此检测深度伪造变得越来越困难。虽然数字水印技术(如 C 2 PA)可以帮助识别深度伪造,但它们也有局限性,因为加工过的图像已经被修改,公众无法验证原始图像上的签名,只通过加工后的图像,验证将变得非常困难。
区块链技术可以通过多种方式解决深度伪造问题。硬件认证可以使用防篡改芯片相机在每张原始照片中嵌入加密证明,以验证图像的真实性。区块链具有不可篡改性,允许将带有元数据的图像添加到带有时间戳的区块中,防止篡改并验证原始来源。此外,可以使用钱包将加密签名附在发布的帖子上,以验证发布内容的作者身份,基于 zk 技术的 KYC 基础设施可以将钱包与经过验证的身份绑定,同时保护用户隐私。从经济激励的角度来讲,作者应为发布了虚假信息而受到惩罚,用户则可以通过识别了虚假信息而获得奖励。
Numbers Protocol多年来一直在这个领域深耕;Fox News 的验证工具以 Polygon 区块链为基础,允许用户从区块链中查找文章并检索相关数据。
隐私
当 AI 模型输入涉及金融、医疗保健和法律等领域的敏感信息时,在使用的同时保护数据隐私也极为重要。同态加密 (FHE) 可以在不解密的情况下对数据进行处理,从而在使用 LLM 模型时保护隐私,工作流程如下:
用户在本地设备上开始推理过程,并在完成初始层后停止。该初始层不包含在与服务器共享的模型中;
客户端对中间操作进行加密,并将其转发给服务器;
服务器对此加密数据进行部分注意力机制(attention mechanism)处理,并将结果发送回客户端;
客户端解密结果并在本地继续推理。 通过这种方式,FHE 确保在整个处理过程中的用户数据隐私得到保护。
Zama正在构建全同态加密 (FHE)解决方案,并且近期已经完成了 7300 万美元融资来支持开发。
AI 代理
AI 代理的想法很具未来感,如果 AI 代理能够拥有资产并进行交易那么未来会是怎样?人们可能会从使用通用的大型模型辅助决策转向将任务分配给专门的代理。
这些代理将相互协作,就像合理的经济关系可以提高人类的协作能力一样,为 AI 代理增加经济关系也可以提高他们的效率。 区块链可以成为这一概念的试验场地。例如, Colony正在通过游戏试验这一想法,为 AI 代理提供钱包,以便与其他代理或真实玩家进行交易以实现特定目标。
结语
大多数问题实际上与开源 AI 有关。为了确保未来十年如此重要技术不会被少数公司垄断,代币经济系统可以快速利用去中心化的计算资源和训练数据集,缩小开源和闭源 AI 之间的资源差距。区块链可以跟踪 AI 训练和推理,以实现更好的数据治理,而加密技术可以确保后 AI 时代的信任,应对深度伪造和隐私保护问题。