Dữ liệu của tôi thuộc về ai? Những dự án nào trong lớp dữ liệu đáng chú ý?

avatar
Asher
Nửa tháng trước
Bài viết có khoảng 4204từ,đọc toàn bộ bài viết mất khoảng 6 phút
Bao gồm các dự án như Vana, Ocean Protocol, Masa, Open Ledger, v.v., phân tích chuyên sâu về nhu cầu dữ liệu của đào tạo trí tuệ nhân tạo.

Tiêu đề gốc: Dữ liệu của tôi không phải của tôi: Sự xuất hiện của các lớp dữ liệu

Tác giả gốc: 0xJeff ( @Defi0xJeff )

Biên soạn bởi: Asher ( @Asher_0210 )

Dữ liệu của tôi thuộc về ai? Những dự án nào trong lớp dữ liệu đáng chú ý?

Vì hầu hết sự chú ý của mọi người hiện nay đều tập trung trực tuyến nên dữ liệu chính là vàng kỹ thuật số của thời đại này. Thời gian sử dụng màn hình trung bình toàn cầu vào năm 2024 là 6 giờ 40 phút mỗi ngày, tăng so với những năm trước. Ở Hoa Kỳ, con số này thậm chí còn cao hơn, lên tới 7 giờ 3 phút mỗi ngày.

Với mức độ tương tác cao như vậy, lượng dữ liệu được tạo ra là rất lớn, với 3,2877 TB dữ liệu được tạo ra mỗi ngày vào năm 2024 . Điều này tương đương với khoảng 0,4 ZB dữ liệu mỗi ngày (1 ZB = 1.000.000.000 TB), bao gồm tất cả dữ liệu mới được tạo ra, thu thập, sao chép hoặc sử dụng.

Tuy nhiên, mặc dù có lượng dữ liệu khổng lồ được tạo ra và tiêu thụ mỗi ngày, người dùng lại sở hữu rất ít dữ liệu:

  • Phương tiện truyền thông xã hội: Dữ liệu trên các nền tảng như X, Instagram, v.v. do các công ty kiểm soát, mặc dù dữ liệu đó được tạo ra bởi người dùng;

  • Internet vạn vật (IoT): Dữ liệu từ các thiết bị thông minh thường thuộc về nhà sản xuất thiết bị hoặc nhà cung cấp dịch vụ trừ khi có quy định khác trong thỏa thuận cụ thể;

  • Dữ liệu sức khỏe: Mặc dù cá nhân có quyền đối với hồ sơ y tế của mình, nhưng phần lớn dữ liệu từ các ứng dụng sức khỏe hoặc thiết bị đeo được đều do các công ty cung cấp dịch vụ đó kiểm soát.

Mã hóa và dữ liệu xã hội

Trong không gian tiền điện tử, chúng ta đã chứng kiến sự trỗi dậy của Kaito AI , công cụ lập chỉ mục dữ liệu xã hội trên nền tảng X và biến dữ liệu đó thành dữ liệu tình cảm có thể hành động để các dự án, KOL và những người đi đầu trong lĩnh vực này sử dụng. Các thuật ngữ “yap” và “mindshare” đã được nhóm Kaito phổ biến nhờ chuyên môn của họ trong việc tăng trưởng nhanh (thông qua bảng thông tin mindshare và yapper phổ biến của họ) và khả năng thu hút sự quan tâm tự nhiên trên Crypto Twitter.

“Yap” có mục đích khuyến khích việc tạo ra nội dung chất lượng trên nền tảng X, nhưng vẫn còn nhiều câu hỏi chưa được giải đáp:

  • Làm thế nào để chấm điểm yaps một cách chính xác?

  • Nhắc đến Kaito có khiến bạn nhận được thêm tiếng yaps không?

  • Liệu Kaito có thực sự coi trọng nội dung chất lượng hay chỉ thích những ý kiến gây tranh cãi và phổ biến?

Ngoài dữ liệu xã hội, còn có những cuộc thảo luận ngày càng sôi nổi về quyền sở hữu dữ liệu, quyền riêng tư và tính minh bạch. Khi trí tuệ nhân tạo phát triển nhanh chóng, những câu hỏi mới xuất hiện: Ai sở hữu dữ liệu được sử dụng để đào tạo các mô hình AI? Ai được hưởng lợi từ kết quả do AI tạo ra? Những vấn đề này mở đường cho sự phát triển của lớp dữ liệu Web3 — một bước tiến tới hệ sinh thái dữ liệu phi tập trung do người dùng điều khiển.

Sự xuất hiện của lớp dữ liệu

Trong không gian Web3, một hệ sinh thái ngày càng phát triển của các lớp dữ liệu, giao thức và cơ sở hạ tầng đang nổi lên nhằm mục đích cho phép chủ quyền dữ liệu cá nhân, trao cho cá nhân quyền kiểm soát tốt hơn đối với dữ liệu của họ và cung cấp các cơ hội kiếm tiền.

Vana

Dữ liệu của tôi thuộc về ai? Những dự án nào trong lớp dữ liệu đáng chú ý?

Nhiệm vụ cốt lõi của Vana là trao cho người dùng quyền kiểm soát dữ liệu của họ, đặc biệt là trong bối cảnh AI, nơi dữ liệu vô cùng giá trị để đào tạo các mô hình. Vana đã ra mắt DataDAO, một tổ chức do cộng đồng điều hành, nơi người dùng tập hợp dữ liệu của họ vì lợi ích chung. Mỗi DataDAO tập trung vào một tập dữ liệu cụ thể:

  • r/datadao: Tập trung vào dữ liệu người dùng Reddit, cho phép người dùng kiểm soát và kiếm tiền từ những đóng góp của họ;

  • Volara: Xử lý dữ liệu nền tảng X để cho phép người dùng hưởng lợi từ các hoạt động truyền thông xã hội của họ;

  • DNA DAO: Nhằm mục đích quản lý dữ liệu di truyền tập trung vào quyền riêng tư và quyền sở hữu.

Vana phân đoạn dữ liệu thành một tài sản có thể giao dịch được gọi là “DLP”. Mỗi DLP tổng hợp dữ liệu trong một trường cụ thể và người dùng có thể đặt cược mã thông báo vào các nhóm này để nhận phần thưởng, trong đó các nhóm hàng đầu sẽ nhận được phần thưởng dựa trên sự hỗ trợ của cộng đồng và chất lượng dữ liệu. Điều làm cho Vana nổi bật là khả năng đóng góp dữ liệu dễ dàng. Người dùng chỉ cần chọn một DataDAO, tổng hợp dữ liệu trực tiếp thông qua tích hợp API hoặc tải dữ liệu lên theo cách thủ công và kiếm được token DataDAO và token VANA làm phần thưởng.

Giao thức đại dương

Dữ liệu của tôi thuộc về ai? Những dự án nào trong lớp dữ liệu đáng chú ý?

Ocean Protocol là một thị trường dữ liệu phi tập trung cho phép các nhà cung cấp dữ liệu chia sẻ, bán hoặc cấp phép dữ liệu của họ trong khi người tiêu dùng có thể truy cập dữ liệu này để sử dụng trong AI và nghiên cứu. Ocean Protocol sử dụng “datatokens” (token ERC 20) để biểu thị quyền truy cập vào các tập dữ liệu, cho phép các nhà cung cấp dữ liệu kiếm tiền từ dữ liệu của họ trong khi vẫn kiểm soát được các điều kiện truy cập.

Các loại dữ liệu được giao dịch trên Ocean Protocol là:

  • Dữ liệu công khai đề cập đến các tập dữ liệu mở, chẳng hạn như thông tin thời tiết, thông tin nhân khẩu học công khai hoặc dữ liệu chứng khoán lịch sử, rất có giá trị cho việc đào tạo và nghiên cứu AI;

  • Dữ liệu riêng tư bao gồm hồ sơ y tế, giao dịch tài chính, dữ liệu cảm biến IoT hoặc dữ liệu người dùng được cá nhân hóa, yêu cầu kiểm soát quyền riêng tư chặt chẽ.

Tính toán thành dữ liệu là một tính năng quan trọng khác của Ocean Protocol cho phép thực hiện tính toán trên dữ liệu mà không cần di chuyển dữ liệu, do đó đảm bảo tính riêng tư và bảo mật của các tập dữ liệu nhạy cảm.

Hạt giống

Dữ liệu của tôi thuộc về ai? Những dự án nào trong lớp dữ liệu đáng chú ý?

Masa tập trung vào việc tạo ra một lớp mở cho dữ liệu đào tạo AI, cung cấp dữ liệu thời gian thực, chất lượng cao và chi phí thấp cho các tác nhân và nhà phát triển AI.

Masa đã ra mắt hai mạng con trên mạng Bittensor:

  • Mạng con 42 ( SN42 ): Tổng hợp và xử lý hàng triệu bản ghi dữ liệu mỗi ngày, cung cấp nền tảng cho các tác nhân AI và phát triển ứng dụng;

  • Mạng con 59 ( SN59 ) – “AI Agent Arena”: Một môi trường cạnh tranh nơi các tác nhân AI tận dụng dữ liệu thời gian thực từ SN42 để cạnh tranh phát hành TAO dựa trên các số liệu hiệu suất như chia sẻ ý kiến, sự tham gia của người dùng và tự cải thiện.

Ngoài ra, Masa còn hợp tác với Virtuals Protocol để cung cấp khả năng dữ liệu thời gian thực cho các tác nhân Virtuals Protocol. Công ty cũng đã ra mắt token TAOCAT, chứng minh khả năng của nó (hiện có trên Binance Alpha).

Sổ cái mở

Dữ liệu của tôi thuộc về ai? Những dự án nào trong lớp dữ liệu đáng chú ý?

Open Ledger đang xây dựng một blockchain được thiết kế riêng cho dữ liệu, đặc biệt là cho các ứng dụng AI và máy học, đảm bảo quản lý dữ liệu an toàn, phi tập trung và có thể xác minh. Những điểm nổi bật bao gồm:

  • Mạng dữ liệu: Một mạng lưới các nguồn dữ liệu chuyên biệt trong OpenLedger giúp quản lý và làm giàu dữ liệu thực tế cho các ứng dụng AI;

  • SLM: Mô hình AI được tùy chỉnh cho các ngành công nghiệp hoặc ứng dụng cụ thể. Ý tưởng là cung cấp các mô hình không chỉ chính xác hơn trong các trường hợp sử dụng chuyên biệt mà còn tuân thủ các yêu cầu về quyền riêng tư và ít bị ảnh hưởng bởi các sai lệch thường thấy trong các mô hình mục đích chung;

  • Xác thực dữ liệu: Đảm bảo tính chính xác và độ tin cậy của dữ liệu được sử dụng để đào tạo Mô hình ngôn ngữ cụ thể (SLM) rằng các mô hình này chính xác và đáng tin cậy cho các trường hợp sử dụng cụ thể.

Nhu cầu về dữ liệu trong đào tạo AI

Nhu cầu về dữ liệu chất lượng cao đang tăng cao để thúc đẩy sự phát triển của trí tuệ nhân tạo và các tác nhân tự động. Ngoài việc đào tạo ban đầu, các tác nhân AI cũng cần dữ liệu thời gian thực để học tập và thích ứng liên tục. Những thách thức và cơ hội chính là:

  • Chất lượng dữ liệu quan trọng hơn số lượng: Các mô hình AI yêu cầu dữ liệu chất lượng cao, đa dạng và có liên quan để tránh thiên vị hoặc hiệu suất kém;

  • Chủ quyền dữ liệu và quyền riêng tư: Như Vana chỉ ra, có một động thái thúc đẩy kiếm tiền từ dữ liệu do người dùng sở hữu, điều này có thể định hình lại cách thu thập dữ liệu đào tạo AI;

  • Dữ liệu tổng hợp: Do lo ngại về quyền riêng tư, dữ liệu tổng hợp đang được ưa chuộng như một cách để đào tạo các mô hình AI đồng thời giảm thiểu các lo ngại về đạo đức.

  • Thị trường dữ liệu: Sự phát triển của các thị trường dữ liệu (tập trung và phi tập trung) đang tạo ra một nền kinh tế mà dữ liệu là tài sản có thể giao dịch;

  • AI trong quản lý dữ liệu: AI hiện đang được sử dụng để quản lý, dọn dẹp và cải thiện các tập dữ liệu, nâng cao chất lượng dữ liệu cho mục đích đào tạo AI.

Khi các tác nhân AI trở nên tự chủ hơn, khả năng tiếp cận và xử lý dữ liệu chất lượng cao theo thời gian thực của chúng sẽ ảnh hưởng trực tiếp đến hiệu quả của chúng. Sự gia tăng nhu cầu này đã làm nảy sinh một thị trường dữ liệu được xây dựng riêng cho các tác nhân AI, nơi cả tác nhân AI và con người đều có thể truy cập dữ liệu chất lượng cao.

Thị trường dữ liệu Proxy Web3

Cookie DAO tổng hợp dữ liệu tình cảm xã hội từ các tác nhân AI và thông tin liên quan đến mã thông báo, biến chúng thành thông tin chi tiết có thể hành động được cho con người và tác nhân AI. API Cookie DataSwarm cho phép các tác nhân AI truy cập dữ liệu chất lượng cao theo thời gian thực để có được thông tin chi tiết liên quan đến giao dịch, một trong những ứng dụng phổ biến nhất trong không gian tiền điện tử. Ngoài ra, với 200.000 người dùng hoạt động hàng tháng và 20.000 người dùng hoạt động hàng ngày, Cookie là một trong những thị trường dữ liệu tác nhân AI lớn nhất, với mã thông báo COOKIE là cốt lõi.

Cuối cùng, các dự án đáng chú ý khác trong lĩnh vực này là:

  • GoatIndex.ai tập trung vào thông tin chi tiết về hệ sinh thái Solana;

  • Decentralised.Co tập trung vào các bảng dữ liệu chuyên biệt như GitHub và phân tích dự án cụ thể.

Bài viết này được dịch từ https://x.com/defi0xjeff/status/1884644127352193099Link gốcNếu đăng lại, xin ghi rõ xuất xứ.

Odaily nhắc nhở, mời đông đảo độc giả xây dựng quan niệm đúng đắn về tiền tệ và khái niệm đầu tư, nhìn nhận hợp lý về blockchain, nâng cao nhận thức về rủi ro; Đối với manh mối phạm tội phát hiện, có thể tích cực tố cáo phản ánh với cơ quan hữu quan.

Đọc nhiều nhất
Lựa chọn của người biên tập