읽기, 색인화부터 분석까지, Web3 데이터 색인화 트랙에 대한 간략한 소개-web3资讯-ODAILY

1 소개

2017년 Etheroll, ETHLend 및 CryptoKitties의 첫 번째 dApp부터 시작하여 오늘날 다양한 블록체인을 기반으로 하는 다양한 금융, 게임 및 소셜 dApp의 확산에 이르기까지 분산형 온체인 애플리케이션에 대해 이야기할 때 우리는 그것에 대해 생각해 본 적이 있습니까? 이러한 dApp이 상호 작용하는 데 사용되는 다양한 데이터 소스는 무엇입니까?

2024년에는 AI와 Web3가 중심이 될 것입니다. 인공지능의 세계에서 데이터는 성장과 진화를 위한 생명의 원천과 같습니다. 식물이 햇빛과 습기에 의존하여 번성하는 것처럼 AI 시스템도 지속적으로 학습하고 생각하기 위해 막대한 양의 데이터에 의존합니다. 데이터가 없으면 AI 알고리즘은 아무리 정교해도 지능과 효율성을 발휘할 수 없는 공중의 성에 지나지 않습니다.

이 글은 블록체인 데이터 접근성(Data Accessibility)의 관점에서 산업 발전 과정에서 블록체인 데이터 인덱싱의 진화에 대한 심층 분석을 제공하고, 기존 데이터 인덱스 프로토콜인 The Graph와 신흥 블록체인 데이터 서비스 프로토콜인 Chainbase를 비교합니다. 공간과 시간, 특히 AI 기술을 결합한 두 가지 새로운 프로토콜의 데이터 서비스 및 제품 아키텍처 기능의 유사점과 차이점을 탐구합니다.

2 데이터 인덱스의 복잡성과 단순성: 블록체인 노드에서 풀체인 데이터베이스까지

2.1 데이터 소스: 블록체인 노드

블록체인이 무엇인지를 이해하는 초기부터 우리는 다음 문장을 자주 보게 됩니다: 블록체인은 분산된 회계 장부입니다. 블록체인 노드는 전체 블록체인 네트워크의 기초이며 체인의 모든 거래 데이터를 기록, 저장 및 전파하는 역할을 담당합니다. 각 노드에는 블록체인 데이터의 완전한 사본이 있으므로 네트워크의 분산 특성이 유지됩니다. 하지만 일반 사용자가 블록체인 노드를 구축하고 유지하는 것은 쉽지 않습니다. 이를 위해서는 전문적인 기술이 필요할 뿐만 아니라 하드웨어 및 대역폭 비용도 많이 듭니다. 동시에 일반 노드는 쿼리 기능이 제한되어 있으며 개발자가 요구하는 형식으로 데이터를 쿼리할 수 없습니다. 따라서 이론적으로는 모든 사람이 자신의 노드를 실행할 수 있지만 실제로는 사용자가 타사 서비스에 의존하는 것을 선호하는 경우가 많습니다.

이 문제를 해결하기 위해 RPC(Remote Procedure Call) 노드 공급자가 등장했습니다. 이러한 공급자는 노드의 비용과 관리를 담당하고 RPC 끝점을 통해 데이터를 제공합니다. 이를 통해 사용자는 자체 노드를 구축하지 않고도 블록체인 데이터에 쉽게 접근할 수 있습니다. 공용 RPC 엔드포인트는 무료이지만 dApp의 사용자 경험에 부정적인 영향을 미칠 수 있는 속도 제한이 있습니다. 프라이빗 RPC 엔드포인트는 정체를 줄여 더 나은 성능을 제공하지만 간단한 데이터 검색에도 많은 양의 주고받는 통신이 필요합니다. 이로 인해 복잡한 데이터 쿼리에 대한 요청이 많고 비효율적입니다. 또한 개인 RPC 끝점은 확장하기 어렵고 다양한 네트워크 간의 호환성이 부족한 경우가 많습니다. 그러나 노드 공급자의 표준화된 API 인터페이스는 사용자에게 체인의 데이터에 액세스할 수 있는 더 낮은 임계값을 제공하여 후속 데이터 분석 및 적용을 위한 기반을 마련합니다.

2.2 데이터 분석: 프로토타입 데이터부터 사용 가능한 데이터까지

블록체인 노드에서 얻은 데이터는 종종 암호화되고 인코딩된 원시 데이터입니다. 이러한 데이터는 블록체인의 무결성과 보안을 유지하지만 복잡성으로 인해 데이터 분석의 어려움도 증가합니다. 일반 사용자나 개발자의 경우 이러한 프로토타입 데이터를 직접 처리하려면 많은 기술 지식과 컴퓨팅 리소스가 필요합니다.

이러한 맥락에서 데이터 분석 과정은 특히 중요합니다. 복잡한 프로토타입 데이터를 보다 쉽게 이해하고 조작할 수 있는 형식으로 파싱함으로써 사용자는 데이터를 보다 직관적으로 이해하고 활용할 수 있습니다. 데이터 분석의 성공은 블록체인 데이터 적용의 효율성과 효과를 직접적으로 결정하며 전체 데이터 인덱싱 프로세스의 핵심 단계입니다.

2.3 데이터 인덱서의 진화

블록체인 데이터의 양이 증가함에 따라 데이터 인덱서의 필요성도 증가합니다. 인덱서는 온체인 데이터를 구성하고 쉽게 쿼리할 수 있도록 데이터베이스로 보내는 데 중요한 역할을 합니다. 인덱서는 블록체인 데이터를 인덱싱하고 SQL과 유사한 쿼리 언어(GraphQL과 같은 API)를 통해 쉽게 사용할 수 있도록 하는 방식으로 작동합니다. 데이터 쿼리를 위한 통합 인터페이스를 제공함으로써 인덱서는 개발자가 표준화된 쿼리 언어를 사용하여 필요한 정보를 빠르고 정확하게 검색할 수 있도록 하여 프로세스를 크게 단순화합니다.

다양한 유형의 인덱서는 다양한 방식으로 데이터 검색을 최적화합니다.

전체 노드 인덱서: 이 인덱서는 전체 블록체인 노드를 실행하고 노드에서 직접 데이터를 가져오므로 데이터가 완전하고 정확하도록 보장하지만 상당한 저장 및 처리 능력이 필요합니다.
경량 인덱서: 이러한 인덱서는 전체 노드를 사용하여 필요에 따라 특정 데이터를 가져오므로 스토리지 요구 사항은 줄어들지만 잠재적으로 쿼리 시간이 늘어납니다.
전문 인덱서: 이러한 인덱서는 특정 유형의 데이터 또는 특정 블록체인을 전문으로 하며 NFT 데이터 또는 DeFi 거래와 같은 특정 사용 사례에 대한 검색을 최적화합니다.
집계된 인덱서: 이 인덱서는 오프체인 정보를 포함한 여러 블록체인 및 소스에서 데이터를 가져와 통합 쿼리 인터페이스를 제공하며, 이는 특히 다중 체인 dApp에 유용합니다.

현재 Geth 클라이언트의 Ethereum Archive Node의 아카이브 모드는 약 13.5TB의 저장 공간을 차지하는 반면, Erigon 클라이언트에서는 아카이브 요구 사항이 약 3TB입니다. 블록체인이 지속적으로 성장함에 따라 아카이브 노드에 저장되는 데이터의 양도 증가할 것입니다. 이러한 엄청난 양의 데이터에 직면한 주류 인덱서 프로토콜은 다중 체인 인덱싱을 지원할 뿐만 아니라 다양한 애플리케이션의 데이터 요구 사항에 따라 데이터 구문 분석 프레임워크를 사용자 정의합니다. 예를 들어 The Graph의 “Subgraph” 프레임워크가 대표적인 경우입니다.

인덱서의 출현으로 데이터 인덱싱 및 쿼리의 효율성이 크게 향상되었습니다. 인덱서는 대량의 데이터를 효율적으로 인덱싱하고 기존 RPC 엔드포인트에 비해 고속 쿼리를 지원할 수 있습니다. 이러한 인덱서를 통해 사용자는 복잡한 쿼리를 수행하고, 데이터를 쉽게 필터링하고, 추출 후 분석할 수 있습니다. 또한 일부 인덱서는 여러 블록체인의 데이터 소스 집계를 지원하여 다중 체인 dApp에 여러 API를 배포해야 하는 문제를 방지합니다. 여러 노드에 걸쳐 분산 실행함으로써 인덱서는 더 나은 보안과 성능을 제공할 뿐만 아니라 중앙 집중식 RPC 공급자로 인해 발생할 수 있는 중단 및 가동 중지 시간의 위험도 줄어듭니다.

반면, 인덱서는 사전 정의된 쿼리 언어를 사용하여 사용자가 기본 복잡한 데이터를 처리하지 않고도 필요한 정보를 직접 얻을 수 있도록 합니다. 이 메커니즘은 데이터 검색의 효율성과 신뢰성을 크게 향상시키며 블록체인 데이터 액세스에 있어 중요한 혁신입니다.

2.4 풀체인 데이터베이스: 스트림 우선 정렬

인덱스 노드를 사용하여 데이터를 쿼리한다는 것은 API가 체인의 데이터를 소화하는 유일한 포털이 된다는 것을 의미하는 경우가 많습니다. 그러나 프로젝트가 확장 단계에 진입하면 표준화된 API가 제공할 수 없는 보다 유연한 데이터 소스가 필요한 경우가 많습니다. 애플리케이션 요구 사항이 더욱 복잡해짐에 따라 기본 데이터 인덱서와 표준화된 인덱스 형식은 점차 검색, 크로스 체인 액세스 또는 오프 체인 데이터 매핑과 같은 점점 더 다양한 쿼리 요구 사항을 충족할 수 없게 되었습니다.

읽기, 색인화부터 분석까지, Web3 데이터 색인화 트랙에 대한 간략한 소개

최신 데이터 파이프라인 아키텍처에서는 기존 배치 처리의 한계에 대한 솔루션으로 스트림 우선 접근 방식이 등장하여 실시간 데이터 수집, 처리 및 분석이 가능해졌습니다. 이러한 패러다임 전환을 통해 조직은 들어오는 데이터에 즉각적으로 대응할 수 있어 거의 즉각적인 통찰력과 결정을 내릴 수 있습니다. 마찬가지로, 블록체인 데이터 서비스 제공업체의 개발도 블록체인 데이터 스트림을 구축하는 방향으로 나아가고 있습니다. 전통적인 인덱서 서비스 제공업체는 The Graph의 Substreams, Goldskys Mirror와 같이 실시간 블록체인 데이터를 데이터 스트림 방식으로 얻는 제품을 연속적으로 출시했습니다. , 블록체인을 기반으로 데이터 스트림을 생성하는 Chainbase 및 SubSquid와 같은 기타 실시간 데이터 레이크가 있습니다.

이러한 서비스는 블록체인 거래의 실시간 구문 분석과 보다 포괄적인 쿼리 기능에 대한 요구를 해결하도록 설계되었습니다. 스트림 우선 아키텍처가 대기 시간을 줄이고 응답성을 향상하여 기존 데이터 파이프라인에서 데이터가 처리되고 소비되는 방식을 혁신하는 것처럼, 이러한 블록체인 데이터 스트리밍 서비스 제공업체도 보다 발전되고 성숙한 데이터 소스 개발을 통해 더 많은 지원을 희망합니다. 온체인 데이터 분석을 지원합니다.

현대 데이터 파이프라인의 렌즈를 통해 온체인 데이터의 과제를 재정의하면 완전히 새로운 관점에서 온체인 데이터를 관리, 저장 및 제공하는 잠재력을 완전히 볼 수 있습니다. 하위 그래프 및 Ethereum ETL과 같은 인덱서를 최종 출력이 아닌 데이터 파이프라인의 데이터 흐름으로 생각하기 시작하면 고성능 데이터 세트를 모든 비즈니스 사용 사례에 맞게 조정할 수 있는 가능한 세상을 상상할 수 있습니다.

3 AI + 데이터베이스? 그래프, 체인베이스, 공간과 시간의 심층 비교

3.1 그래프

Graph 네트워크는 분산형 노드 네트워크를 통해 다중 체인 데이터 인덱싱 및 쿼리 서비스를 구현하므로 개발자는 쉽게 블록체인 데이터를 색인화하고 분산형 애플리케이션을 구축할 수 있습니다. 주요 제품 모델은 데이터 쿼리 실행 시장과 데이터 인덱스 캐싱 시장입니다. 이 두 시장은 본질적으로 사용자의 제품 쿼리 요구 사항을 충족합니다. 데이터 쿼리 실행 시장은 특히 필요한 데이터에 대한 적절한 공급자를 선택하는 소비자를 의미합니다. 데이터 인덱스 캐시 시장은 하위 그래프의 과거 인덱싱 인기도, 부과되는 쿼리 수수료, 하위 그래프 출력에 대한 온체인 큐레이터의 요구 사항을 기반으로 인덱스 노드가 리소스를 동원하는 시장입니다. .

하위 그래프는 The Graph 네트워크의 기본 데이터 구조입니다. 이는 블록체인에서 데이터를 추출하고 쿼리 가능한 형식(예: GraphQL 스키마)으로 변환하는 방법을 정의합니다. 누구나 하위 그래프를 만들 수 있으며 여러 애플리케이션에서 이러한 하위 그래프를 재사용할 수 있으므로 데이터 재사용성과 사용 효율성이 향상됩니다.

읽기, 색인화부터 분석까지, Web3 데이터 색인화 트랙에 대한 간략한 소개

Graph 제품 구조(출처: The Graph Whitepaper)

Graph 네트워크는 web3 애플리케이션에 대한 데이터 지원을 제공하기 위해 협력하는 인덱서, 큐레이터, 대리인 및 개발자의 네 가지 주요 역할로 구성됩니다. 각각의 책임은 다음과 같습니다.

Indexer: Indexer는 The Graph 네트워크의 노드 운영자입니다. Index 노드는 GRT(The Graph의 기본 토큰)를 스테이킹하여 네트워크에 참여하여 인덱싱 및 쿼리 처리 서비스를 제공합니다.
위임자: 위임자는 작업을 지원하기 위해 인덱스 노드에 GRT 토큰을 약속하는 사용자입니다. 위임자는 자신이 위임한 inode를 통해 보상의 일부를 얻습니다.
큐레이터: 큐레이터는 네트워크에서 어떤 하위 그래프를 색인화해야 하는지 신호를 보내는 역할을 담당합니다. 큐레이터는 귀중한 하위 플롯의 우선순위를 확인하는 데 도움을 줍니다.
개발자: 처음 3명이 공급측인 것과 달리 개발자는 수요측면이며 The Graph의 주요 사용자입니다. 그들은 하위 그래프를 생성하여 The Graph 네트워크에 제출하고 네트워크가 수요 데이터를 충족할 때까지 기다립니다.

읽기, 색인화부터 분석까지, Web3 데이터 색인화 트랙에 대한 간략한 소개

현재 The Graph는 포괄적인 분산형 하위 그래프 호스팅 서비스로 전환했으며 시스템 운영을 보장하기 위해 다양한 참가자들 사이에 경제적 인센티브가 순환하고 있습니다.

인덱스 노드 보상: 인덱스 노드는 소비자 쿼리 수수료와 GRT 토큰 블록 보상의 일부를 통해 수익을 얻습니다.
위임자 보상: 위임자는 자신이 지원하는 inode를 통해 보상의 일부를 받습니다.
큐레이터 보상: 큐레이터가 귀중한 하위 그래프를 신호하면 쿼리 비용의 일부 보상을 받을 수 있습니다.

실제로 더그래프의 제품들도 AI 물결 속에서 빠르게 발전하고 있다. The Graph 생태계의 핵심 개발 팀 중 하나인 Semiotic Labs는 AI 기술을 사용하여 지수 가격 책정 및 사용자 쿼리 경험을 최적화하는 데 전념해 왔습니다. 현재 Semiotic Labs가 개발한 AutoAgora, Allocation Optimizer 및 AgentC 도구는 여러 측면에서 생태계의 성능을 향상시켰습니다.

AutoAgora는 쿼리 볼륨 및 리소스 사용량에 따라 실시간으로 가격을 조정하고 가격 책정 전략을 최적화하며 인덱서의 경쟁력과 수익 극대화를 보장하는 동적 가격 책정 메커니즘을 도입합니다.
Allocation Optimizer는 하위 그래프 리소스 할당의 복잡한 문제를 해결하고 인덱서가 최적의 리소스 할당을 달성하여 수익과 성능을 개선하도록 돕습니다.
AgentC는 사용자가 자연어를 통해 The Graph의 블록체인 데이터에 접근할 수 있도록 하여 사용자 경험을 향상시키는 실험적 도구입니다.

이러한 도구를 적용하면 The Graph는 AI 지원을 통해 시스템의 지능과 사용자 친화성을 더욱 향상시킬 수 있습니다.

3.2 체인베이스

Chainbase는 모든 블록체인 데이터를 하나의 플랫폼으로 통합하여 개발자가 애플리케이션을 더 쉽게 구축하고 유지 관리할 수 있게 해주는 풀체인 데이터 네트워크입니다. 고유한 기능은 다음과 같습니다.

실시간 데이터 레이크: Chainbase는 특히 블록체인 데이터 스트리밍을 위한 실시간 데이터 레이크를 제공하여 데이터가 생성되는 즉시 즉시 액세스할 수 있도록 합니다.
이중 체인 아키텍처: Chainbase는 Eigenlayer AVS를 기반으로 실행 계층을 구축하여 CometBFT의 합의 알고리즘으로 병렬 이중 체인 아키텍처를 형성합니다. 이 디자인은 크로스체인 데이터의 프로그래밍 가능성과 구성성을 향상시키고 높은 처리량, 낮은 대기 시간 및 최종성을 지원하며 이중 담보 모델을 통해 네트워크 보안을 향상시킵니다.
혁신적인 데이터 형식 표준: 체인베이스는 암호화폐 산업에서 데이터가 구조화되고 활용되는 방식을 최적화하기 위해 원고라는 새로운 데이터 형식 표준을 도입했습니다.
Cryptoworld 모델: 거대한 블록체인 데이터 리소스를 갖춘 Chainbase는 AI 모델 기술을 결합하여 블록체인 트랜잭션을 효과적으로 이해하고 예측하며 상호 작용할 수 있는 AI 모델을 만듭니다. 기본 모델 Theia는 현재 공개적으로 사용 가능합니다.

읽기, 색인화부터 분석까지, Web3 데이터 색인화 트랙에 대한 간략한 소개

이러한 기능을 통해 Chainbase는 실시간 데이터의 접근성, 혁신적인 데이터 형식, 온체인 및 오프체인 데이터의 결합을 통해 통찰력을 향상시키는 더 스마트한 모델 생성에 특히 중점을 두고 블록체인 인덱싱 프로토콜 중에서 두각을 나타냅니다.

Chainbase의 AI 모델 Theia는 다른 데이터 서비스 프로토콜과 구별되는 핵심 특징입니다. Theia는 NVIDIA가 개발한 DORA 모델을 기반으로 온체인 및 오프체인 데이터와 시공간적 활동을 결합하고, 암호화 패턴을 학습 및 분석하고, 인과적 추론을 통해 대응함으로써 온체인의 잠재적 가치와 패턴을 깊이 탐구합니다. - 데이터를 체인화하여 사용자에게 더욱 지능화된 데이터 서비스를 제공합니다.

AI 기반 데이터 서비스로 인해 Chainbase는 더 이상 단순한 블록체인 데이터 서비스 플랫폼이 아니라 더욱 경쟁력 있는 지능형 데이터 서비스 제공업체가 되었습니다. 강력한 데이터 리소스와 AI의 사전 분석을 통해 Chainbase는 더 광범위한 데이터 통찰력을 제공하고 사용자의 데이터 처리 프로세스를 최적화할 수 있습니다.

3.3 공간과 시간

Space and Time(SxT)은 분산형 데이터 웨어하우스에서 영지식 증명을 확장하여 스마트 계약, 대규모 언어 모델 및 기업에 신뢰할 수 있는 데이터 처리를 제공하는 검증 가능한 컴퓨팅 계층을 만드는 것을 목표로 합니다. 현재 Space and Time은 Framework Ventures, Lightspeed Faction, Arrington Capital 및 Hivemind Capital이 주도하는 2천만 달러 규모의 시리즈 A 자금 조달 라운드를 받았습니다.

데이터 인덱싱 및 검증 분야에서 Space and Time은 새로운 기술 경로인 SQL 증명을 도입합니다. 이는 Space and Time이 개발한 혁신적인 영지식 증명(ZKP) 기술로, 분산형 데이터 웨어하우스에서 실행되는 SQL 쿼리가 변조 방지되고 검증 가능함을 보장합니다. 쿼리가 실행되면 SQL 증명은 쿼리 결과의 무결성과 정확성을 확인하는 암호화 증명을 생성합니다. 이 증거는 쿼리 결과에 첨부되어 모든 검증자(예: 스마트 계약 등)가 처리 중에 데이터가 변조되지 않았음을 독립적으로 확인할 수 있습니다. 기존 블록체인 네트워크는 일반적으로 데이터의 진위 여부를 확인하기 위해 합의 메커니즘에 의존하는 반면, Space and Time의 SQL 증명은 보다 효율적인 데이터 확인 방법을 구현합니다. 구체적으로 Space and Time 시스템에서는 한 노드가 데이터 획득을 담당하고, 다른 노드는 zk 기술을 통해 데이터의 진위 여부를 확인합니다. 이 방법은 데이터를 얻기 위해 최종 합의에 도달할 때까지 합의 메커니즘에 따라 동일한 데이터를 반복적으로 색인화하는 여러 노드의 리소스 소비를 변경하고 시스템의 전체 성능을 향상시킵니다. 이 기술이 성숙해짐에 따라 데이터 신뢰성에 중점을 두는 다양한 전통 산업이 블록체인에서 데이터 구조화된 제품을 사용할 수 있는 디딤돌을 만듭니다.

읽기, 색인화부터 분석까지, Web3 데이터 색인화 트랙에 대한 간략한 소개

동시에 SxT는 사용자가 자연어를 통해 블록체인 데이터를 더 쉽게 처리할 수 있도록 생성 AI 도구 개발을 가속화하기 위해 Microsoft AI 공동 혁신 연구소와 긴밀히 협력해 왔습니다. 현재 Space와 Time Studio에서 사용자는 자연어 쿼리 입력을 경험할 수 있으며, AI는 이를 자동으로 SQL로 변환하고 사용자를 대신하여 쿼리문을 실행하여 사용자가 원하는 최종 결과를 제시합니다.

3.4 차이점 비교

읽기, 색인화부터 분석까지, Web3 데이터 색인화 트랙에 대한 간략한 소개

결론 및 전망

요약하면, 블록체인 데이터 인덱싱 기술은 노드 데이터의 초기 소스에서 데이터 구문 분석 및 인덱서 개발을 거쳐 최종적으로 AI 기반 풀체인 데이터 서비스에 이르기까지 점진적인 개선 프로세스를 경험했습니다. 이러한 기술의 지속적인 발전은 데이터 액세스의 효율성과 정확성을 향상시킬 뿐만 아니라 사용자에게 전례 없는 지능형 경험을 제공합니다.

미래에는 AI 기술, 영지식 증명 등 신기술의 지속적인 개발로 블록체인 데이터 서비스가 더욱 지능적이고 안전해질 것입니다. 우리는 블록체인 데이터 서비스가 앞으로도 인프라로서 중요한 역할을 계속하여 업계 발전과 혁신을 강력하게 지원할 것이라고 믿을 이유가 있습니다.