我的資料屬於誰?資料層有哪些項目值得關注?

avatar
Asher
1天前
本文約2409字,閱讀全文需要約4分鐘
涵蓋Vana、Ocean Protocol、Masa、Open Ledger等項目,深入分析人工智慧訓練對資料的需求。

原文標題: My Data is Not Mine: The Emergence of Data Layers

原文作者: 0xJeff@Defi0xJeff

編譯:Asher( @Asher_ 0210

我的資料屬於誰?資料層有哪些項目值得關注?

由於當下人們的注意力大多集中在線上,數據是這個時代的數位黃金。 2024 年全球平均螢幕使用時間為每天 6 小時 40 分鐘,比往年增加。在美國,這一數字甚至更高,達到了每天 7 小時 3 分鐘。

在如此高的參與度下,產生的資料量令人震驚, 2024年每天產生 3.2877 TB 的資料。換算下來,考慮到所有新生成、捕獲、複製或消費的數據,每天大約是 0.4 ZB 的數據(1 ZB = 1,000,000,000 TB)。

然而,儘管每天產生和消費大量數據,但用戶擁有的卻很少:

  • 社群媒體:像X、Instagram 等平台上的數據由公司控制,儘管這些數據是由用戶產生的;

  • 物聯網(IoT):智慧型設備的資料通常屬於設備製造商或服務供應商,除非有具體協定另行說明;

  • 健康數據:雖然個人對自己的醫療記錄擁有權利,但來自健康應用程式或穿戴式裝置的大部分數據由提供這些服務的公司控制。

加密和社交數據

在加密領域,我們看到了Kaito AI的崛起,它索引了X 平台上的社交數據,並將其轉化為可操作的情感數據,供專案、KOL 和思想領袖使用。 「yap」和「mindshare」這兩個詞是由Kaito 團隊推廣的,因為他們在成長駭客方面的專業知識(透過他們受歡迎的mindshare 和yapper 儀表板)以及在Crypto Twitter 上吸引有機興趣的能力。

「Yap」旨在激勵在X 平台上創作優質內容,但許多問題仍未得到解答:

  • 「yaps」是如何「準確地」被評分的?

  • 提到 Kaito 會獲得額外的yaps嗎?

  • Kaito 是真正獎勵優質內容,還是更偏好有爭議的熱門觀點?

除了社交數據,關於數據所有權、隱私和透明度的討論也越來越激烈。隨著人工智慧的快速發展,新的問題浮出水面:誰擁有用於訓練人工智慧模型的資料?誰能從人工智慧產生的結果中獲益?這些問題為Web3 資料層的興起鋪平了道路——這是朝著去中心化、用戶主導的資料生態系統轉型的一步。

資料層的出現

在Web3 領域,一個日益壯大的資料層、協定和基礎設施生態系統正在形成,旨在實現個人資料主權,讓個人能夠更好地掌控自己的數據,並提供貨幣化的機會。

Vana

我的資料屬於誰?資料層有哪些項目值得關注?

Vana的核心使命是讓使用者掌控他們的數據,特別是在人工智慧的背景下,而數據對於訓練模型是無價的。 Vana 推出了DataDAOs,這是一個由社群驅動的實體,用戶在這裡匯集他們的資料以實現共同利益。每個DataDAO 專注於特定的資料集:

  • r/datadao:專注於Reddit 用戶數據,使用戶能夠控制和貨幣化他們的貢獻;

  • Volara:處理X 平台數據,讓用戶能夠從他們的社群媒體活動中受益;

  • DNA DAO:旨在以隱私和所有權為重心管理遺傳資料。

Vana 將資料分割成一種可交易的資產,稱為「DLP」。每個DLP 聚合特定領域的數據,用戶可以將代幣質押到這些池中以獲得獎勵,頂級池根據社群支援和數據品質獲得獎勵。 Vana 的突出之處在於其數據貢獻的簡單性。用戶只需先選擇一個DataDAO,然後透過API 整合直接匯總他們的數據或手動上傳數據,最後賺取DataDAO 代幣和VANA 代幣作為獎勵。

Ocean Protocol

我的資料屬於誰?資料層有哪些項目值得關注?

Ocean Protocol是一個去中心化的數據市場,允許數據提供者分享、出售或授權他們的數據,同時消費者可以存取這些數據以用於人工智慧和研究。 Ocean Protocol 使用「datatokens」(ERC 20 代幣)來表示對資料集的存取權,允許資料提供者在保持對存取條件的控制的同時實現資料的貨幣化。

在Ocean Protocol 上交易的資料類型具體有:

  • 公共數據指的是開放數據集,如天氣資訊、公共人口統計或歷史股票數據,這些對AI 訓練和研究非常有價值;

  • 私人數據則包括醫療記錄、財務交易、物聯網感測器數據或個人化用戶數據,這些數據需要嚴格的隱私控制。

Compute-to-Data 是Ocean Protocol 的另一個關鍵特性,允許在數據上進行計算而無需移動數據,從而確保敏感數據集的隱私和安全。

Masa

我的資料屬於誰?資料層有哪些項目值得關注?

Masa專注於為AI 訓練資料建立一個開放層,為AI 代理和開發者提供即時、高品質和低成本的資料。

Masa 在Bittensor 網路上啟動了兩個子網路:

  • 子網路42SN42 ):每天聚合和處理數百萬筆資料記錄,為人工智慧代理和應用程式開發提供基礎;

  • 子網路59SN59 )– AI Agent Arena:一個競爭環境,在這裡,AI 代理利用來自SN42的即時數據,根據心智份額、用戶參與度和自我提升等績效指標競爭TAO 釋放量。

此外,Masa 與Virtuals Protocol合作,為Virtuals Protocol 代理程式提供即時資料能力。它還推出了 TAOCAT 代幣,展示了其能力(目前在Binance Alpha 上)。

Open Ledger

我的資料屬於誰?資料層有哪些項目值得關注?

Open Ledger正在建立一個專為資料量身定制的區塊鏈,特別是針對人工智慧和機器學習應用,確保安全、去中心化和可驗證的資料管理,其亮點有:

  • Datanets:OpenLedger 內部的專業資料來源網絡,策劃和豐富用於AI 應用的真實世界資料;

  • SLMs:針對特定產業或應用客製化的人工智慧模型。其理念是提供不僅在小眾用例中更準確,而且符合隱私要求且不易受到通用模型中存在的偏見影響的模型;

  • 資料驗證:確保用於訓練特定語言模型(SLMs)的資料的準確性和可信度,這些模型在特定用例中是準確和可靠的。

人工智慧訓練對資料的需求

對高品質數據的需求正在激增,以推動人工智慧和自主代理的發展。除了初始訓練,人工智慧代理還需要即時數據以進行持續學習和適應,其中關鍵挑戰與機會為:

  • 數據品質勝於數量:AI 模型需要高品質、多樣化和相關的數據,以避免偏見或表現不佳;

  • 資料主權與隱私:如Vana 所示,使用者擁有的資料貨幣化正在受到推動,這可能會重塑AI 訓練資料的取得方式;

  • 合成資料:隨著隱私問題的關注,合成資料作為一種在減輕倫理問題的同時訓練人工智慧模型的方法,正越來越受到重視;

  • 數據市場:數據市場(中心化和去中心化)的興起正在創造一個數據作為可交易資產的經濟;

  • 資料管理中的人工智慧:人工智慧現在被用於管理、清理和增強資料集,提高人工智慧訓練的資料品質。

隨著人工智慧代理變得更加自主,它們對即時高品質資料的存取和處理能力將直接影響其效果。這種需求的增加催生了專門為人工智慧代理打造的數據市場,在這個市場中,人工智慧代理和人類都可以獲得優質的數據。

Web3 代理資料市場

Cookie DAO匯總了AI 代理的社交情感數據以及與代幣相關的訊息,將其轉化為人類和AI 代理可以操作的洞察。 Cookie DataSwarm API 使AI 代理能夠存取即時高品質數據,以獲得與交易相關的見解,這也是加密領域中最常見的應用之一。此外,Cookie 擁有 20 萬月活躍用戶和 2 萬日活躍用戶,是最大的AI 代理數據市場之一,COOKIE 代幣則是其核心。

最後,該領域其他值得關注的項目為:

本文翻譯自 https://x.com/defi0xjeff/status/1884644127352193099原文連結如若轉載請注明出處。

ODAILY提醒,請廣大讀者樹立正確的貨幣觀念和投資理念,理性看待區塊鏈,切實提高風險意識; 對發現的違法犯罪線索,可積極向有關部門舉報反映。

推薦閱讀
星球精選