原文来源:Filecoin Network
本文基于 Simon Worthington 于 2023 年 5 月在波士顿峰会上的演讲。
Bacalhau 通过支持数据本地计算,彻底改变数据处理格局:将代码发送到数据所在位置运行分析,而不是将数据移动到代码之上。通过保留数据并允许对其进行授权、审计和控制计算,可以使用更多数据,同时降低误用风险,这就是解决数据治理问题的答案。数据量的增长速度比网络带宽快 45% , 57% 的数据存储于云或传统数据中心之外,对任何大规模运营的组织而言,移动数据都太慢且成本高昂。
将数据保存在本地还有一个很好的理由:控制权。无论是通过《健康保险便携和问责法》(Health Insurance Portability and Accountability Act, HIPAA)或《通用数据保护条例》(General Data Protection regulation, GDPR)等强制性法规,还是对敏感财务或公司机密的本地保护,几乎 100% 的数据都处于某种形式的治理之下。将数据转移到计算中会使其脱离其通常所处的安全区域,并增加其被滥用的风险。
大多数数据并非严格意义上的开放或封闭,而是存在于一定范围内。在该范围内,可以为特定用途授予特定人员访问权限。
资料来源:The ODI
2008 年以来,全球在数据治理方面的罚款总额接近 2500 亿美元。因此,大多数企业对数据共享心存恐惧也就不足为奇了,这也导致 68% 的企业数据未被开发利用。事实上,大多数受控数据原则上都可以共享并用于更有效的决策——但前提是要有正确的人和正确目的。
数据共享需要技术强制执行
大多数组织试图通过严格的数据共享协议或合同来满足这一需求。这些协议的建立既昂贵又耗时——对于像国家政府或金融机构这样的企业来说,甚至需要花费数月时间通过数据治理来实现内部团队之间的数据共享。
更糟糕的是,这些协议根本不起作用——大多数数据共享协议完全无法执行,只能起到虚假安全感的作用。一旦数据越过信任边界,只有软机制(例如信任大家会遵守协议)才能防止滥用。大家对共享数据的实际操作不可见,也很难监管。
“事实证明,数据提供者和数据使用者之间的合同或协议常常不能发挥作用。
在 Cambridge Analytica 丑闻中,合同条款被完全忽视,个人数据被滥用。
缺乏任何有力的技术证据可能会使法庭无法获取有效信息,并使监管机构、政界人士、记者和公众难以了解发生了什么。”
——《数据信任中的信任》(Putting the trust in data trusts),Register Dynamics, 2019
显然,我们需要的是一种跨信任边界重复使用数据的新方法:通过该方法,分析师可以简单、受控地访问数据,同时数据所有者不会面临监管罚款和上头条新闻的风险。
Bacalhau 使数据共享可见且可审计
在 Bacalhau,我们相信数据本地计算是解决数据治理难题的答案。通过保留数据并允许对其进行授权、审计和控制计算,可以使用更多数据,同时降低误用风险。
更重要的是,由于 Bacalhau 是一个分布式计算平台,不需要将数据转移至中央存储。数据可以保存在组织中它应该存在的任何地方,从而避免了艰难的组织变革,也不会剥夺数据所有者的任何控制权。
我们非常自豪地在此宣布,作为 Bacalhau 1.0 的一部分,我们新增了作业和数据管控功能。通过 Bacalhau,数据所有者可以控制谁、做什么、在何处、为什么以及如何对其私有数据进行计算。
Bacalhau 管控代码和输出
Bacalhau 采用两步法进行作业管控。首先,数据所有者有机会检查作业是否符合其政策。这一预管控阶段发生在作业开始运行之前,并允许管控人员根据将要使用的数据、请求作业的人员以及针对该作业执行的代码来批准或拒绝计算。
虽然人工始终处于控制地位,但并非每个决策都需要人工做出。预管控过程非常灵活,可根据需要实现自动化。数据所有者可以设置策略,深度检查即将运行的计算,针对不同人员设置不同策略,并调用分析安全和风险的复杂算法。当某项工作不适合自动管控时,可由人工做出最终决策。
Bacalhau 为计算提供两个网关——一个在计算之前,一个在计算之后。
经批准后,Bacalhau 将把作业发送给适当执行器,该执行器只能访问请求数据,并且与主机系统安全隔离。Bacalhau 对作业进行资源限制,从而控制处理能力和内存使用。
虽然预管控提供了合理的第一道信任防线,但一般来说,在不运行计算机程序的情况下决定它将做什么是个难题,这需要技术技能。英国国家统计局和其他相关受控研究环境几十年来一直在安全地允许受控访问数据,我们从中汲取了经验并借鉴了其在数字领域的做法。因此,除了执行前控制之外, Bacalhau 还允许在执行后对结果进行修改,然后再发布给任务提交者。
当 Bacalhau 完成计算时,它会将结果保存至私有的预发布领域。然后,管理员根据作业的背景检查结果,判断这些结果是否是该作业预期产生的结果。如果管理员认为这些内容适合共享,则可以下载结果。更重要的是,私人存储区域的访问权限被严格锁定,用户只能通过 Bacalhau 的下载功能为自己的作业流式传输结果。
与预管控一样,可以对结果进行整套复杂分析。通过Amplify 技术,数据所有者可以自动检测个人身份信息(PII),总结 CSV 等表格数据,并分析图像和视频片段中的内容。生成的元数据既可以用于自动发布结果,也可以为人类决策提供有价值信息。
管控开启全新联合学习
在被信任边界分隔的数据上进行计算,可以实现大量数据共享,但目前还没有安全的技术解决方案。如果一个组织持有的数据在更大范围内共享能够产生共同价值,那么这些组织现在就可以应用 Bacalhau 作业管控(job moderation)并开放数据访问,而无需复杂的数据治理。
例如,一所大学可以向公民科学家或外部研究人员提供更多数据,一个政府部门可以允许另一个部门分析其数据,或者高度监管金融机构中的一个团队可以允许另一个团队深度分析其数据。综上所述,重要的是不要将原始数据发布给信任度较低的用户。Bacalhau 可确保用户获得他们的分析结果,仅此而已。
相同的分布式受控计算模型还可以在不同组织的参与者之间实现联合学习。通过 Bacalhau,独立组织可以从汇总数据中进行深度分析,而无需共享数据。通过联合学习技术,数据科学家现在可以在许多不同的独立甚至竞争性组织的数据集上训练机器学习或 AI 模型,而不会让这些组织失去数据控制权并能够准确看到数据使用情况。
例如,负责制定宏观政策的中央政府机构可以利用地方组织所掌握的数据。同样,保险监管机构等行业机构可以通过向其所有成员保险公司提交联合学习 Bacalhau 工作来训练模型。
若将数据集中在一处,很可能会导致出售或滥用这些宝贵的综合数据;但若将数据保留在本地,每个保险公司都可以确定其数据仅被用于双方同意的互利目的。
为特定主题分析计算岛屿
最后,Bacalhau 提供的对作业执行的精细化管控现在能够让管理员成为进入计算岛的网关。在这种结构中,有兴趣为特定目的提供资源的独立计算提供者和数据所有者可以将作业授权委托给可信的管控人。
例如,科学家们合作收集了有助于治疗癌症的医疗数据,可以通过他们信任的外部管控人来提供数据和计算。管控人只接受符合约定政策的作业——在本例中,只允许有助于癌症新疗法的作业。
通过该方式,科学家们将外部访问请求委托给管控人,便可以专注于更大的公益目标。有了 Bacalhau 强大的审计日志,科学家们可以在日后核实管控人是否按照商定政策行事。
Bacalhau 是数据共享之未来
我们很高兴在 Bacalhau 1.0 中发布作业和数据管控功能!我们相信,数据计算代表了数据共享的新思路——简而言之,通过不共享数据来保证数据安全!
如今,一些公司和政府机构已经认识到跨信任边界的管控计算所带来的潜力,我们也在与之开展合作。若您想进一步了解这些功能如何为您所用,请加入 Bacalhau Slack 或直接与我们联系。