Author: Loopy Lu, BeWater
近日,Vitalik Buterin 对香港区块链大会的突然造访令与会者无不振奋。而这也与一定程度反映了当下加密市场的情况。近期,以太坊走势一直相较比特币生态稍显疲软,以太坊流动性的割裂、性能的受限,再次使其受到质疑。
而在本次大会上,Vitalik 对以太坊未来的进展给出了明确的建议。在主旨演讲《Reaching the Limits of Protocol Design》中,Vitalik 积极展望了 ASIC 芯片的作用,借助 ASIC 芯片进行 ZK 计算的硬件加速,可以将以太坊的效率的安全提升到全新的水平。
要解读 ZK 硬件加速,自然要从 ZK 开始谈起。ZKP 并不是全新的概念。从上世纪八十年代起,计算机科学家们就在这个方向上不断的进行探索。当前,热门 ZK Rollup 项目陆续上线、更多的 ZK 应用正在涌现,对应的则是 ZK 技术和市场在不断演进。我们发现,ZK 硬件加速正在成熟,ZK + DePIN 模式崭露头角,这个周期的 ZKP 似乎与此前不一样了。
零知识证明(Zero-Knowledge Proof,ZKP)被誉为加密技术领域的“圣杯”,不仅为长久以来的隐私保护难题引入了新的解决方案,还为存在多年的区块链扩容问题提供了强大的解决方案。
众所周知,ZK 的效率问题一直是困扰着诸多的用户的项目方。Vitalik 在香港大会上表示,ZK-SNARKs、MPC、FHE(完全同态加密)和 BLS 聚合等基于高级密码学的协议虽发展迅速,但同时也存在效率和安全问题。
(图片来源:Foresight News)
其中,以太坊 Slot 出块时间为 12 秒,“普通”区块验证时间约为 400 毫秒,ZK-SNARK 证明时间约为 20 分钟,而以太坊的目标是实现实时证明。
为了解决这一问题,Vitalik 给出了三种解决方案,分别是“并行化与聚合树”、使用 SNARK algos 与哈希提升效率、使用 ASIC 进行 ZK 硬件加速。
我们并不对三种方案进行优劣判断,在此只对 ZK 的硬件加速进行深入探讨。本文试图从 ZKP 出发,向投资者解读,为什么 Vitalik 看好“硬件加速”这一目前被鲜少提及的赛道?“ZK 加速”、“ZK”、“ZK Rollups”这些相似的名词,又都有何区别,如何准确辨析?
从整个生态的角度来看,硬件加速赛道为何重要?为以太坊、ZK、整个加密世界提供了何种价值?我们将以 Cysic 为例,详细探讨硬件加速的昨日、现在和未来。
Vitalik 看好的硬件加速有何作用?
对于加密世界来说,ZKP(SNARKs/STARKs)被视为扩容技术的圣杯。zk-SNARKs 通过 Verification Computation 来验证原始计算的正确性,即首先由证明者(Prover)为原始计算生成简洁证明(Succinct Proof),同时验证者(Verifier)使用更小规模计算来验证证明(Proof)的正确性。
在各路扩容方案中,ZKP 促成了链下计算的发展。即交易不再在一层网络执行,而是在链下的 rollup 完成,并将多笔交易的状态根等部份数据打包发布到主网完成验证和结算。主网节点可以对 Rollup 上的交易历史通过 ZKP 进行验证,其安全仍然由一层保证。ZKP 通过零知识证明通过数学的方式解决验证过程中的信任问题,且所需链上空间小,ZK Rollup 相对一层能达到数十倍交易处理速度和处理效率。
L2 BEAT 数据显示,前五大 ZK Rollup 总 TVL 已达约 30 亿美元。这一数字距离以太坊 TVL 的 500 亿美元、整个 DeFi 市场的 910 亿美元规模仍具有相当大的差距。我们相信随着 ZK 技术的成熟,ZK Rollup 的渗透率势必将会进一步提高。在以太坊完成坎昆升级之后,EIP-4844 的引入让 Layer 2 的费用大幅降低。在各主流 Layer 2 适配“Blob 交易”之后,实测数据显示各 ZK Rollup gas 费用明显下降。例如,Starknet 降幅约为 85% 、zkSync Era 降幅约为 65% 。
市场上的 ZK 系项目正在快速成长,市值超过 10 亿美元的基于 ZK 技术的项目中,Polyhedra, Immutable、StakNet、zkSync、Mina、dYdX 等被广为人知。这一赛道大体可分为三层:基础设施、ZK-Rollup、ZK 应用。
基础设施主要包括编程框架和工具、ZKP 证明市场、证明生成的硬件加速、ZK 机器学习等。这些赛道的项目大多围绕 ZKP 的生成和计算展开,他们为 ZK 应用(无论是网络或者 dApp)的部署提供了技术基础。
而最受瞩目的,则是 ZK Rollup。ZK Rollup 的爆发为可扩展性和“大规模采用”的叙事提供了充足的支撑。当然,在此之上还有采用了 ZK 技术的各种 dApp,它们大多利用 ZK 的特性为加密用户提供了隐私等其他应用。
然而 ZK 证明生成所需要的过高的计算资源却是一个禁锢赛道进一步前进的瓶颈。
距离用例的落地还有多远?
既然 ZK 技术如此强大,为何现在仍未被广泛采用?主要原因是 ZK 技术的核心算法和实现机制极为复杂。目前,被广泛采用的主要有两种 ZK 证明系统——zk-SNARKs和zk-STARKs。例如,zkSync、Aztec、Axiom、Scroll、Taiko 等都采用的是基于 zk-SNARK 的证明系统,而 StarkNet、dYdX、Polygon 等则采用了基于 ZK-STARKs 的证明系统。
使用零知识证明系统通常包括:“拍平计算”,“生成证明”,“验证证明”。这其中“生产证明”的步骤需要大量的算力支撑。
“拍平计算”是将一个原始计算,通过某种约束语言(例如 R 1 CS),表达成 ZK 电路的形式。以 zk-SNARKs 为例,目前常用的证明系统包括 Groth 16、Marlin 和 Halo/Halo 2 等。其中,Groth 16 使用了 R 1 CS 作为拍平计算用的约束语言。而对较新的证明系统,例如 Halo/Halo 2 则使用了 Plonk 体系的电路约束语言,这被广泛的运用于一些较新的 ZK 项目中,例如 Scroll、Taiko、Aximo 等。
正如我们之前提到的,ZK 证明的生成需要大量计算。我们用 KGZ-based Halo 2 举例来简单的分析一下这些计算的类型。首先,当我们通过前端约束语言构造好 ZK 电路之后,我们会需要把这些电路通过某种方式转化多项式的形式,而其中多项式的阶数和电路的规模正相关。之后,会使用一些密码学的手段,例如 KZG 将这些多项式最终转换为证明的形式。在这个过程中,主要的耗时的计算类型包括 MSM 和 NTT 两种。
MSM(Multi-Scalar Multiplication)计算用于处理与椭圆曲线相关的计算。MSM 是椭圆曲线密码学中的核心组成部分,主要用于生成和验证证明。MSM 类型的计算任务约占到计算任务的 60-70% 。
NTT (Number Theoretic Transform)是一种在有限域上进行的快速傅里叶变换(FFT)NTT 用于处理与多项式相关的计算。在 ZK 证明生成的计算中,NTT 类型的计算任务大约占到全部计算任务的 25% 左右。
而 ZK-STARKs 虽然采用了不同的算法,但也拥有自己的性能瓶颈。在证明的生成过程中,证明者需要创建一个由多个约束组成的系统,这些约束必须同时满足才能生成有效的证明。而这些这些约束通常都是随机生成的,FRI 算法(Fast Recursive Integer Gaussian Sampling)用户生成和验证证明中的高斯采样,以此来确保这些约束的随机性。因此,FRI 算法的效率对于 ZK-STARKs 的性能至关重要。
但无论采用何种路线,庞大的计算量让这一计算的时间变得殊为缓慢。因此,如何加速这些计算的速度、提高证明生成的生成效率,成为了限制 ZKP 在当下普及的关键。
为了解决这一问题,使用硬件进行计算加速,成为了一种可行的解决方案。而目前市场已经产生了多个硬件加速解决方案,而究竟选用何种硬件,并无标准答案。
当下 ZKP 市场主流的硬件加速方案分为三种,其灵活性从高到低分别为 GPU、FPGA、ASIC。
由于 ZKP 算法中的某些步骤(如多项式乘法和 FFT 变换)可以并行处理,使用 GPU 自然可以更高效的完成 ZKP 算法中的计算过程,这就如同多年前的显卡挖矿一样。但是问题在于,GPU 的灵活性和通用型让性能很难超越 FPGA。
FPGA 则可以通过编程来实现特定的逻辑功能。这种结局方案提供了更高的效率,同时也保持了一定的灵活性,可以根据需要定制电路。在针对特定的 ZKP 算法进行优化之后,FPGA 的性能优于 GPU。
ASIC 则是为特定任务量身打造的专用芯片,正如 ASIC 矿机为比特币提供了强大的算力一样,ZKP 的 ASIC 硬件加速也可为计算过程提供最高级别的性能优化。但通常来说 ASIC 只能适配单一解决方案,无法通用现存所有的 ZKP 证明任务。更普适的 ASIC 芯片从设计到流片都会遇到更大的调整。
ASIC 算力最为强大,但掣肘在于灵活性问题。因为 ZK 算法的多样化,加速解决方案仍然需要对多种算法进行加速。考虑到市场上 ZKP 证明在不断推陈出新的情况下,FPGA 的快速重配置能力使其在多个场景上具有重复使用的优势,能够灵活适应不同证明系统需求。因此在现阶段的市场条件下,作为硬件加速服务商,只能提供仅加速单一证明系统的 ASIC 芯片服务,并不是“此时此刻”最好的选择。
但 ASIC 在未来不存在爆发的潜力吗?答案自然是否定的。
选择合适的证明系统是一个十分谨慎的重大抉择。由于 ZK 电路极高的设计成本,一旦确定了证明系统,ZK 项目几乎不会轻易的变更证明系统。项目方投入资源开发了特定证明系统的电路后,通常不会轻易更换系统。虽然 FPGA 提供了一定的灵活性,但对于已经确定并投入开发的 ZK 项目来说,ASIC 仍然可以提供较高的计算效能比,这对于大规模的、计算密集型的 ZK 应用尤为重要。因此,尽管 ASIC 的初始开发成本较高,但在流片成功之后所带来的高收益比,仍然在会市场上占有一席之地。因此,ASIC 解决方案在市场上具有一定的稳定性和需求。
在可预见的将来,ASIC 加速方案仍是硬件加速的最终解决方案之一。
我们以硬件加速赛道的 Cysic 项目为例。Cysic 提供了包括 FPGA,ASIC,以及 GPU 在内的全硬件加速服务,这些加速服务不仅能够提高特定 ZK 证明的生产效率,还能够适应不同区块链平台/ZK 项目方的需求。
例如 Cysic 开发了基于 FPGA 的 MSM 计算加速器,名为 SolarMSM。这个解决方案显著提高了 MSM 计算的效率,能够在短时间内处理大规模的 MSM 任务。从数据来看,Cysic 的 SolarMSM 可以轻松的在 300 ms 的内完成 2 ³⁰规模的 MSM 计算,这一性能在行业中处于顶尖水平。
通过这种硬件加速,Cysic 能够有效地减少 ZK 证明生成所需的时间,从而使得基于 ZKP 的区块链应用和协议更加高效和实用。这对于推动 ZKP 技术的广泛应用,特别是在需要快速和高效证明生成的场景中具有重要意义。
目前 Cysic 已经实现了 MSM 加速方案的 POC 设计工作。基于 FPGA 的 POC 是目前所有公开的 FPGA-MSM 硬件加速结果中性能最高,是目前公开基准测试结果的 1 – 2 个数量级以上,ASIC 的设计和流片工作也正在进行之中。未来,Cysic 将在第二阶段研发 12 nm 的 ASIC 芯片。目标将实现单颗 ASIC 芯片的算力可支持 MSM 和 NTT ,和其他密码学底层算子,同时实现单颗芯片功耗降低到两个数量级。
此外,Cysic 也积极拥抱了基于 GPU 的加速方案,提供更灵活的 ZK,乃至 AI 计算的加速服务。
只要 ZKP 计算的更快,加密世界就距离夺取 ZKP“圣杯”更近了一步。
DePIN 原语驱动市场规模增长
硬件加速的重要性毋庸置疑。而另一个投资者的主要疑惑是 ZK 硬件加速将会有多大的市场规模?
Paradigm 曾做出预测,ZK 加速的市场规模与 POW 挖矿市场规模相当。正如前文所述,随着坎昆升级的完成,ZK Rollup 的更大规模采用将为 ZK 计算带来大量的需求。
隐私保护是另一个主要的市场需求。如 Semaphore、MACI、Penumbra 和 Aztec Network 等正在探索利用 ZK 技术来增强用户隐私和推动大规模采用。同时,身份验证领域也是 ZK 技术的主要用例之一,包括时下大火的 WorldID,还有 Sismo、Clique、Axiom 等项目,都致力于将 ZK 技术应用于身份管理,以提供更安全、更隐私保护的解决方案。
ZKML(Zero-Knowledge Machine Learning,零知识机器学习)则是另一个发展迅速的领域。在 AI 爆发的当下,验证 AI 正确地、透明地工作成为刚需。而 ZKML 可使得推理等环节可以上链,理论上将在不透露具体内容的情况下进行验证。
因此,无论是 ZK Rollup 的广泛采纳、隐私等 dApp 的涌现、或 ZKML 的发展均推升了 ZKP 加速的需求。
然而,ZK 加速门槛仍然较高,对于很多中小型项目方仍然极不友好。很多 ZKP 的需求方仍然需要通过中心化的方式采购加速硬件,自行部署加速服务。而且还需要根据自身的 ZKP 生成继续路线,选择合适的加速方案。
一个富有弹性的验证者网络(ZK prover network)成为了行业共识的解决方案。而在此基础上形成的 ZK Compute-as-a-Service(ZK CaaS,ZK 计算即服务)新型产品形态将解决上述困境。
以 Cysic 为例。Cysic 将加速硬件组建一个验证者网络,FPGA、ASIC 或其他硬件,都可在网络中为用户提供 ZK 加速算力,个人设备也可以接入其中。对于 ZK 项目方来说,当需要算力支持来进行 ZKP 验证时,则可直接接入 Cysic 的 ZK 算力网络,而无需进行硬件采购。对于具体的加速方案细节也无需过多的关注。目前 Cysic 已经上线了数万张高阶显卡,为验证者网络储备了充足的 ZK 算力。
当前, Cysic 已与 Scroll、zk P2P、Inference、Kinetex 等多家项目达成合作,覆盖 ZK Rollup、ZKML、应用层等多种类型项目,其采用的证明系统包括 Halo 2、RapidSnark、Plonky2x 等多种体系,因此,Cysic 的加速计算解决方案具有较高的灵活性和通用性。
Cysic 通过加密原生的去中心化方式来配置算力的供给和需求。ZK 算力的供给端从中心化、不可拓展的硬件,升级为支持用户均可接入的算力网络,也给个人投资者提供了更深入参与市场的机会。需求端,ZK CaaS 可为 ZK 计算提供更强的弹性和稳定性,去中心化市场通过智能合约更高效地调度、匹配算力供需。
因此,ZK CaaS 将硬件加速变成了“开箱即用”的服务,且创建了一个人人皆可进行 ZK 计算加速的场景,以 DePIN 的去中心化硬件设施的网络来改造 ZK 领域,为专有或闲置的算力提供收益,使得我们有望再次迎来 ZK + DePIN 的挖矿蓝海。
Reference:
《ABCDE:为什么我们要投资 Cysic?》, Siyuan Han
《New Paradigm in Designing ZK-ASICs, the zkVM way》, Cysic
《ZK Hardware Acceleration: The Past, the Present and the Future》 ,Luke Pearson Cysic 团队