Phân tích dấu chân

avatar
Footprint
1năm trước
Bài viết có khoảng 22359từ,đọc toàn bộ bài viết mất khoảng 28 phút
Trong bài viết này, chúng tôi sẽ tập trung khám phá cách sử dụng công nghệ AI để cải thiện năng suất và trải nghiệm người dùng đối với dữ liệu Web3.

Sự xuất hiện của GPT đã thu hút sự chú ý của toàn cầu đối với các mô hình ngôn ngữ lớn, mọi tầng lớp xã hội đều cố gắng sử dụng công nghệ đen này để nâng cao hiệu quả công việc và đẩy nhanh sự phát triển của ngành. Future 3 Campus đã hợp tác với Footprint Analytics để tiến hành nghiên cứu chuyên sâu về khả năng vô hạn của sự kết hợp giữa AI và Web3, đồng thời cùng phát hành một báo cáo nghiên cứu có tiêu đề Phân tích tình hình hiện tại, bối cảnh cạnh tranh và các cơ hội trong tương lai của việc hội nhập Công nghiệp dữ liệu AI và Web3. Báo cáo nghiên cứu được chia thành hai phần, bài viết này là phần đầu tiên, được đồng biên tập bởi Lesley và Shelly, các nhà nghiên cứu tại Footprint Analytics. Bài viết tiếp theo được đồng biên tập bởi các nhà nghiên cứu của Future 3 Campus, Sherry và Humphrey.

Bản tóm tắt:

  • Sự phát triển của công nghệ LLM đã khiến mọi người chú ý hơn đến sự kết hợp giữa AI và Web3, đồng thời các mô hình ứng dụng mới đang dần lộ diện. Trong bài viết này, chúng tôi sẽ tập trung vào cách sử dụng AI để cải thiện trải nghiệm và năng suất của dữ liệu Web3.

  • Do đang ở giai đoạn đầu của ngành và đặc điểm của công nghệ blockchain, ngành dữ liệu Web3 phải đối mặt với nhiều thách thức, bao gồm nguồn dữ liệu, tần suất cập nhật, thuộc tính ẩn danh, v.v., khiến việc sử dụng AI để giải quyết những vấn đề này trở thành trọng tâm mới.

  • So với trí tuệ nhân tạo truyền thống, các ưu điểm của LLM như khả năng mở rộng, khả năng thích ứng, cải thiện hiệu quả, phân tách nhiệm vụ, khả năng truy cập và dễ sử dụng mang lại không gian tưởng tượng để cải thiện trải nghiệm và hiệu quả sản xuất dữ liệu blockchain.

  • LLM yêu cầu một lượng lớn dữ liệu chất lượng cao để đào tạo và lĩnh vực blockchain có kiến ​​thức theo chiều dọc và dữ liệu mở phong phú, có thể cung cấp tài liệu học tập cho LLM.

  • LLM cũng có thể giúp tạo và nâng cao giá trị của dữ liệu blockchain, chẳng hạn như làm sạch dữ liệu, chú thích, tạo dữ liệu có cấu trúc, v.v.

  • LLM không phải là thuốc chữa bách bệnh và cần được áp dụng cho các nhu cầu kinh doanh cụ thể. Cần tận dụng hiệu quả cao của LLM, đồng thời chú ý đến tính chính xác của kết quả.

1. Phát triển và kết hợp AI và Web3

1.1 Lịch sử phát triển của AI

Lịch sử của trí tuệ nhân tạo (AI) có thể bắt nguồn từ những năm 1950. Từ năm 1956, con người bắt đầu chú ý đến lĩnh vực trí tuệ nhân tạo và dần dần phát triển các hệ thống chuyên gia sớm giúp giải quyết các vấn đề trong lĩnh vực chuyên môn. Kể từ đó, sự phát triển của học máy đã mở rộng các lĩnh vực ứng dụng của AI và AI bắt đầu được sử dụng rộng rãi hơn trong mọi tầng lớp xã hội. Cho đến nay, sự bùng nổ của deep learning và trí tuệ nhân tạo tổng hợp đã mang đến cho con người những khả năng vô tận, mỗi bước đi đều chứa đầy những thách thức và đổi mới không ngừng nhằm theo đuổi mức độ trí tuệ cao hơn và lĩnh vực ứng dụng rộng hơn.

Phân tích dấu chân

Hình 1: Lịch sử phát triển AI

Vào ngày 30 tháng 11 năm 2022, ChatGPT đã được ra mắt, lần đầu tiên chứng minh khả năng tương tác ở ngưỡng thấp nhưng hiệu quả cao giữa AI và con người. ChatGPT đã khơi dậy một cuộc thảo luận rộng rãi hơn về trí tuệ nhân tạo, xác định lại cách tương tác với AI, làm cho nó hiệu quả, trực quan và nhân văn hơn, đồng thời thúc đẩy sự chú ý của mọi người đến trí tuệ nhân tạo có tính tổng quát hơn, Anthropic (Amazon), DeepMind (Google), Llama và các mô hình khác sau đó cũng lọt vào tầm nhìn của mọi người. Đồng thời, những người thực hành trong các ngành khác nhau đã bắt đầu tích cực khám phá cách AI sẽ thúc đẩy sự phát triển trong các lĩnh vực của họ hoặc tìm cách nổi bật trong ngành bằng cách kết hợp nó với công nghệ AI, đẩy nhanh hơn nữa sự thâm nhập của AI vào các lĩnh vực khác nhau.

1.2. Tích hợp AI và Web3

Tầm nhìn của Web3 bắt đầu bằng việc cải cách hệ thống tài chính, nhằm đạt được nhiều quyền lực hơn cho người dùng và được kỳ vọng sẽ dẫn đầu sự chuyển đổi của các nền kinh tế và văn hóa hiện đại. Công nghệ chuỗi khối cung cấp nền tảng kỹ thuật vững chắc để đạt được mục tiêu này, không chỉ thiết kế lại cơ chế truyền tải và khuyến khích giá trị mà còn hỗ trợ phân bổ nguồn lực và phân cấp quyền lực.

Phân tích dấu chân

Hình 2: Lịch sử phát triển Web3

Ngay từ năm 2020, các công ty đầu tư vào lĩnh vực blockchainFourth Revolution Capital(4 RC)Người ta chỉ ra rằng công nghệ blockchain sẽ được kết hợp với AI để lật đổ các ngành công nghiệp hiện có thông qua việc phân cấp các ngành toàn cầu như tài chính, chăm sóc y tế, thương mại điện tử và giải trí.

Hiện nay, sự kết hợp giữa AI và Web3 chủ yếu tập trung vào hai hướng chính:

● Sử dụng AI để cải thiện năng suất và trải nghiệm người dùng.

● Kết hợp với các tính năng kỹ thuật về tính minh bạch, bảo mật, lưu trữ phi tập trung, khả năng truy nguyên và xác minh của blockchain cũng như các mối quan hệ sản xuất phi tập trung của Web3, nó có thể giải quyết các điểm yếu mà công nghệ truyền thống không thể giải quyết được hoặc khuyến khích sự tham gia của cộng đồng để cải thiện hiệu quả sản xuất.

Sự kết hợp giữa AI và Web3 trên thị trường có các hướng thăm dò sau:

Phân tích dấu chân

Hình 3: Toàn cảnh sự kết hợp giữa AI và Web3

● Dữ liệu: Công nghệ chuỗi khối có thể được áp dụng để lưu trữ dữ liệu mô hình, cung cấp bộ dữ liệu được mã hóa, bảo vệ quyền riêng tư của dữ liệu, ghi lại nguồn và cách sử dụng dữ liệu mô hình cũng như xác minh tính xác thực của dữ liệu. Bằng cách truy cập và phân tích dữ liệu được lưu trữ trên blockchain, AI có thể trích xuất thông tin có giá trị và sử dụng nó để đào tạo và tối ưu hóa mô hình. Đồng thời, AI cũng có thể được sử dụng như một công cụ sản xuất dữ liệu để nâng cao hiệu quả sản xuất dữ liệu Web3.

● Thuật toán: Thuật toán trong Web3 có thể cung cấp môi trường điện toán an toàn, đáng tin cậy và được kiểm soát tự động hơn cho AI, đồng thời cung cấp khả năng bảo vệ mã hóa cho hệ thống AI. Hàng rào bảo mật được nhúng trong các tham số mô hình để ngăn hệ thống bị lạm dụng hoặc có ác ý vận hành. AI có thể tương tác với các thuật toán trong Web3, chẳng hạn như sử dụng hợp đồng thông minh để thực hiện các tác vụ, xác minh dữ liệu và thực thi các quyết định. Đồng thời, thuật toán AI cũng có thể cung cấp các quyết định và dịch vụ thông minh và hiệu quả hơn cho Web3.

● Sức mạnh tính toán: Tài nguyên tính toán phân tán của Web3 có thể cung cấp khả năng tính toán hiệu suất cao cho AI. AI có thể sử dụng tài nguyên điện toán phân tán trong Web3 để đào tạo mô hình, phân tích và dự đoán dữ liệu. Bằng cách phân phối các tác vụ điện toán tới nhiều nút trên mạng, AI có thể tăng tốc độ tính toán và xử lý lượng dữ liệu lớn hơn.

Trong bài viết này, chúng tôi sẽ tập trung khám phá cách sử dụng công nghệ AI để cải thiện năng suất và trải nghiệm người dùng đối với dữ liệu Web3.

2. Hiện trạng dữ liệu Web3

2.1.So sánh ngành dữ liệu Web2 Web3

Là thành phần cốt lõi của AI, “dữ liệu”, Web3 rất khác với Web2 mà chúng ta quen thuộc. Sự khác biệt chủ yếu nằm ở kiến ​​trúc ứng dụng của Web2 và Web3, dẫn đến các đặc tính dữ liệu khác nhau.

2.1.1.So sánh kiến ​​trúc ứng dụng Web2 Web3

Phân tích dấu chân

Hình 4: Kiến trúc ứng dụng Web2 Web3

Trong kiến ​​trúc Web2, một thực thể duy nhất (thường là một công ty) thường kiểm soát trang web hoặc APP. Công ty có quyền kiểm soát tuyệt đối đối với nội dung họ xây dựng. Họ có thể quyết định ai có thể truy cập nội dung và logic trên máy chủ của họ cũng như người dùng. Những quyền nào bạn có cũng có thể xác định nội dung sẽ tồn tại trực tuyến trong bao lâu. Nhiều trường hợp cho thấy các công ty Internet có quyền thay đổi các quy định trên nền tảng của mình, thậm chí tạm dừng dịch vụ đối với người dùng mà người dùng không thể giữ lại giá trị đã tạo ra.

Kiến trúc Web3 dựa trên khái niệm Lớp trạng thái phổ quát để đặt một phần hoặc toàn bộ nội dung và logic trên chuỗi khối công khai. Những nội dung và logic này được ghi lại công khai trên blockchain và mọi người đều có thể truy cập, người dùng có thể trực tiếp kiểm soát nội dung và logic trên chuỗi. Trong Web2, người dùng cần có tài khoản hoặc khóa API để tương tác với nội dung trên blockchain. Người dùng có thể trực tiếp kiểm soát nội dung và logic trên chuỗi tương ứng của họ. Không giống như Web2, người dùng Web3 không cần tài khoản được ủy quyền hoặc khóa API để tương tác với nội dung trên blockchain (ngoại trừ một số hoạt động quản trị nhất định).

2.1.2.So sánh đặc tính dữ liệu giữa Web2 và Web3

Phân tích dấu chân

Hình 5: So sánh đặc tính dữ liệu giữa Web2 và Web3

Dữ liệu Web2 thường bị đóng và bị hạn chế ở mức độ cao, với các biện pháp kiểm soát quyền phức tạp, mức độ hoàn thiện cao, nhiều định dạng dữ liệu, tuân thủ nghiêm ngặt các tiêu chuẩn ngành và tính trừu tượng logic nghiệp vụ phức tạp. Những dữ liệu này có quy mô lớn nhưng khả năng tương tác tương đối thấp, thường được lưu trữ trên các máy chủ trung tâm, không chú ý đến việc bảo vệ quyền riêng tư và hầu hết là không ẩn danh.

Ngược lại, dữ liệu Web3 cởi mở hơn và có quyền truy cập rộng hơn, mặc dù nó kém hoàn thiện hơn, bị chi phối bởi dữ liệu phi cấu trúc, việc tiêu chuẩn hóa rất hiếm và việc trừu tượng hóa logic nghiệp vụ tương đối đơn giản. Kích thước dữ liệu của Web3 nhỏ hơn Web2 nhưng có khả năng tương tác cao (chẳng hạn như khả năng tương thích EVM) và có thể lưu trữ dữ liệu theo cách phân tán hoặc tập trung, đồng thời nhấn mạnh đến quyền riêng tư của người dùng và người dùng thường tương tác ẩn danh trên chuỗi.

2.2 Hiện trạng và triển vọng của ngành dữ liệu Web3 và những thách thức gặp phải

Trong thời đại Web2, dữ liệu quý giá như “dự trữ” dầu mỏ, việc truy cập và thu thập dữ liệu quy mô lớn luôn là một thách thức lớn. Trong Web3, tính mở và chia sẻ dữ liệu bỗng khiến mọi người cảm thấy dầu ở khắp mọi nơi, giúp các mô hình AI dễ dàng thu được nhiều dữ liệu huấn luyện hơn, điều này rất quan trọng để cải thiện hiệu suất và trí thông minh của mô hình. Tuy nhiên, vẫn còn nhiều vấn đề cần giải quyết trong quá trình xử lý dữ liệu của Web3, “dầu mới”, chủ yếu bao gồm:

● Nguồn dữ liệu: Các “tiêu chuẩn” dữ liệu trên chuỗi rất phức tạp và phân tán, đồng thời việc xử lý dữ liệu tiêu tốn nhiều chi phí nhân công.

Khi xử lý dữ liệu trên chuỗi, quy trình lập chỉ mục tốn nhiều thời gian và công sức cần phải được thực hiện nhiều lần, đòi hỏi các nhà phát triển và nhà phân tích dữ liệu phải dành nhiều thời gian và nguồn lực để thích ứng với sự khác biệt về dữ liệu giữa các chuỗi khác nhau và các dự án khác nhau. Ngành công nghiệp dữ liệu on-chain thiếu các tiêu chuẩn sản xuất và xử lý thống nhất, ngoài việc được ghi lại trên sổ cái blockchain, các sự kiện, nhật ký và dấu vết về cơ bản đều do chính dự án xác định và tạo ra (hoặc tạo ra), dẫn đến các nhà giao dịch không chuyên nghiệp. Rất khó để nhận biết và tìm ra dữ liệu chính xác và đáng tin cậy nhất, điều này càng làm tăng thêm khó khăn cho họ trong việc thực hiện các giao dịch trực tuyến và đưa ra quyết định đầu tư. Ví dụ: các sàn giao dịch phi tập trung Uniswap và Pancakeswap có thể có sự khác biệt về phương pháp xử lý dữ liệu và cỡ dữ liệu, đồng thời các quy trình như kiểm tra và thống nhất các cỡ trong quy trình sẽ làm tăng thêm độ phức tạp của việc xử lý dữ liệu.

● Cập nhật dữ liệu: Dữ liệu trên chuỗi có khối lượng lớn và được cập nhật thường xuyên, gây khó khăn cho việc xử lý kịp thời thành dữ liệu có cấu trúc.

Chuỗi khối thay đổi liên tục và cập nhật dữ liệu được tính bằng giây hoặc thậm chí là mili giây. Việc tạo và cập nhật dữ liệu thường xuyên gây khó khăn cho việc duy trì xử lý dữ liệu chất lượng cao và cập nhật kịp thời. Do đó, quy trình xử lý tự động rất quan trọng, đây cũng là thách thức lớn đối với chi phí và hiệu quả xử lý dữ liệu. Ngành công nghiệp dữ liệu Web3 vẫn còn ở giai đoạn sơ khai. Với sự xuất hiện liên tục của các hợp đồng mới và các bản cập nhật lặp đi lặp lại, việc thiếu tiêu chuẩn và định dạng dữ liệu đa dạng càng làm tăng thêm độ phức tạp của việc xử lý dữ liệu.

● Phân tích dữ liệu: Thuộc tính ẩn danh của dữ liệu trên chuỗi khiến việc phân biệt danh tính của dữ liệu trở nên khó khăn

Dữ liệu trên chuỗi thường không chứa đủ thông tin để xác định rõ ràng từng địa chỉ, gây khó khăn cho việc liên kết dữ liệu với các diễn biến kinh tế, xã hội hoặc pháp lý ngoài chuỗi. Tuy nhiên, xu hướng dữ liệu trên chuỗi có liên quan chặt chẽ với thế giới thực. Hiểu được mối tương quan giữa các hoạt động trên chuỗi và các cá nhân hoặc tổ chức cụ thể trong thế giới thực là rất quan trọng đối với các tình huống cụ thể như phân tích dữ liệu.

Với cuộc thảo luận về những thay đổi năng suất được kích hoạt bởi công nghệ mô hình ngôn ngữ lớn (LLM), liệu AI có thể được sử dụng để giải quyết những thách thức này hay không cũng trở thành một trong những trọng tâm trong lĩnh vực Web3.

3. Phản ứng hóa học do sự va chạm giữa dữ liệu AI và Web3

3.1.So sánh đặc điểm giữa AI truyền thống và LLM

Về mặt huấn luyện mô hình, các mô hình AI truyền thống thường có quy mô nhỏ, số lượng tham số dao động từ hàng chục nghìn đến hàng triệu, tuy nhiên để đảm bảo tính chính xác của kết quả đầu ra cần một lượng lớn dữ liệu được dán nhãn thủ công. . Một phần lý do khiến LLM mạnh đến vậy là vì nó sử dụng kho ngữ liệu khổng lồ để chứa hàng chục tỷ và hàng trăm tỷ tham số, giúp cải thiện đáng kể khả năng hiểu ngôn ngữ tự nhiên của nó, nhưng điều đó cũng có nghĩa là cần nhiều dữ liệu hơn để đào tạo. đắt.

Xét về phạm vi năng lực và phương thức vận hành, AI truyền thống phù hợp hơn với các nhiệm vụ trong các lĩnh vực cụ thể và có thể đưa ra câu trả lời tương đối chính xác và chuyên nghiệp. Ngược lại, LLM phù hợp hơn với những công việc thông thường nhưng lại dễ gặp vấn đề về ảo giác, nghĩa là trong một số trường hợp, câu trả lời của nó có thể không đủ chính xác, chuyên nghiệp, thậm chí sai hoàn toàn. Do đó, nếu cần có kết quả khách quan, đáng tin cậy và có thể theo dõi thì có thể cần phải kiểm tra nhiều lần, đào tạo nhiều lần hoặc giới thiệu các cơ chế và khuôn khổ sửa lỗi bổ sung.

Phân tích dấu chân

Hình 6: So sánh đặc điểm giữa AI truyền thống và mô hình ngôn ngữ mô hình lớn (LLM)

3.1.1.Thực hành AI truyền thống trong lĩnh vực dữ liệu Web3

AI truyền thống đã cho thấy tầm quan trọng của nó trong ngành dữ liệu blockchain, mang lại nhiều đổi mới và hiệu quả hơn cho lĩnh vực này. Ví dụ: nhóm 0x Scope đã sử dụng công nghệ AI để xây dựng thuật toán phân tích cụm dựa trên điện toán đồ thị, giúp xác định chính xác các địa chỉ liên quan giữa những người dùng thông qua phân bổ trọng số của các quy tắc khác nhau. Việc áp dụng thuật toán học sâu này giúp cải thiện độ chính xác của việc phân cụm địa chỉ, cung cấp công cụ phân tích dữ liệu chính xác hơn. Nansen sử dụng AI để dự đoán giá NFT, cung cấp thông tin chuyên sâu về xu hướng thị trường NFT thông qua phân tích dữ liệu và công nghệ xử lý ngôn ngữ tự nhiên. Mặt khác, Trusta Labs sử dụng các phương pháp học máy dựa trên việc khai thác biểu đồ tài sản và phân tích trình tự hành vi của người dùng để nâng cao độ tin cậy và tính ổn định của giải pháp phát hiện Sybil và giúp duy trì tính bảo mật của hệ sinh thái mạng blockchain. Mặt khác, Trusta Labs sử dụng các phương pháp khai thác đồ thị và phân tích hành vi người dùng để nâng cao độ tin cậy và tính ổn định của giải pháp phát hiện Sybil và giúp duy trì tính bảo mật của mạng blockchain. Goplus tận dụng trí tuệ nhân tạo truyền thống trong hoạt động của mình để cải thiện tính bảo mật và hiệu quả của các ứng dụng phi tập trung (dApps). Họ thu thập và phân tích thông tin bảo mật từ dApps và đưa ra cảnh báo rủi ro nhanh chóng để giúp giảm thiểu rủi ro trên các nền tảng này. Điều này bao gồm việc phát hiện rủi ro trong hợp đồng chính dApp bằng cách đánh giá các yếu tố như trạng thái nguồn mở và hành vi độc hại tiềm ẩn, cũng như thu thập thông tin kiểm tra chi tiết bao gồm thông tin xác thực của công ty kiểm tra, thời gian kiểm tra và liên kết báo cáo kiểm tra. Footprint Analytics sử dụng AI để tạo mã tạo dữ liệu có cấu trúc, phân tích các giao dịch NFT, giao dịch Wash cũng như sàng lọc và khắc phục sự cố tài khoản robot.

Tuy nhiên, AI truyền thống có thông tin hạn chế và tập trung vào việc sử dụng các thuật toán và quy tắc định trước để thực hiện các tác vụ đặt trước, trong khi LLM học từ dữ liệu ngôn ngữ tự nhiên quy mô lớn và có thể hiểu và tạo ra ngôn ngữ tự nhiên, giúp nó phù hợp hơn để xử lý các tác vụ phức tạp và khổng lồ. lượng dữ liệu văn bản.

Gần đây, khi LLM đã đạt được những tiến bộ đáng kể, mọi người cũng đã tiến hành một số suy nghĩ và khám phá mới về sự kết hợp giữa dữ liệu AI và Web3.

3.1.2.Ưu điểm của LLM

LLM có những ưu điểm sau so với trí tuệ nhân tạo truyền thống:

● Khả năng mở rộng: LLM hỗ trợ xử lý dữ liệu quy mô lớn

LLM vượt trội về khả năng mở rộng và có thể xử lý lượng lớn dữ liệu và tương tác của người dùng một cách hiệu quả. Điều này khiến nó trở nên lý tưởng cho các tác vụ yêu cầu xử lý thông tin trên quy mô lớn, chẳng hạn như phân tích văn bản hoặc làm sạch dữ liệu trên quy mô lớn. Khả năng xử lý dữ liệu ở mức độ cao của nó mang lại tiềm năng ứng dụng và phân tích mạnh mẽ cho ngành công nghiệp dữ liệu blockchain.

● Khả năng thích ứng: LLM có thể học cách thích ứng với nhu cầu của nhiều lĩnh vực

LLM có khả năng thích ứng cao và có thể được tinh chỉnh cho các nhiệm vụ cụ thể hoặc được nhúng trong cơ sở dữ liệu công nghiệp hoặc tư nhân, cho phép nó nhanh chóng tìm hiểu và thích ứng với các sắc thái của các lĩnh vực khác nhau. Tính năng này làm cho LLM trở thành một lựa chọn lý tưởng để giải quyết các vấn đề đa miền và đa mục đích, cung cấp hỗ trợ rộng hơn cho tính đa dạng của các ứng dụng blockchain.

● Nâng cao hiệu quả: LLM tự động hóa các tác vụ để nâng cao hiệu quả

Hiệu quả cao của LLM mang lại sự tiện lợi đáng kể cho ngành dữ liệu blockchain. Nó tự động hóa các nhiệm vụ đòi hỏi lượng thời gian và tài nguyên thủ công đáng kể, từ đó tăng năng suất và giảm chi phí. LLM có thể tạo ra lượng lớn văn bản, phân tích các tập dữ liệu lớn hoặc thực hiện nhiều tác vụ lặp đi lặp lại trong vài giây, giảm thời gian chờ đợi và xử lý, đồng thời giúp xử lý dữ liệu blockchain hiệu quả hơn.

● Phân tách nhiệm vụ: Bạn có thể tạo kế hoạch cụ thể cho các nhiệm vụ nhất định và chia các nhiệm vụ lớn thành các bước nhỏ.

Đại lý LLM có khả năng độc đáo để tạo các kế hoạch cụ thể cho một số công việc nhất định, chia nhỏ các nhiệm vụ phức tạp thành các bước nhỏ có thể quản lý được. Tính năng này rất có lợi cho việc xử lý dữ liệu blockchain quy mô lớn và thực hiện các nhiệm vụ phân tích dữ liệu phức tạp. Bằng cách chia các công việc lớn thành các nhiệm vụ nhỏ, LLM có thể quản lý tốt hơn quá trình xử lý dữ liệu và đưa ra phân tích chất lượng cao.

Khả năng này rất quan trọng đối với các hệ thống AI thực hiện các nhiệm vụ phức tạp, chẳng hạn như tự động hóa robot, quản lý dự án cũng như hiểu và tạo ngôn ngữ tự nhiên, cho phép chúng chuyển đổi các mục tiêu nhiệm vụ cấp cao thành lộ trình hành động chi tiết, đồng thời cải thiện hiệu quả và độ chính xác của việc thực hiện nhiệm vụ.

● Khả năng truy cập và dễ sử dụng: LLM cung cấp các tương tác thân thiện với người dùng bằng ngôn ngữ tự nhiên

Khả năng truy cập của LLM cho phép nhiều người dùng dễ dàng tương tác với dữ liệu và hệ thống hơn, khiến những tương tác này trở nên thân thiện hơn với người dùng. Thông qua ngôn ngữ tự nhiên, LLM giúp dữ liệu và hệ thống dễ dàng truy cập và tương tác hơn mà không yêu cầu người dùng phải học các thuật ngữ kỹ thuật phức tạp hoặc các lệnh cụ thể như SQL, R, Python, v.v. để thu thập và phân tích dữ liệu. Tính năng này mở rộng phạm vi đối tượng của các ứng dụng blockchain và cho phép nhiều người truy cập và sử dụng các ứng dụng và dịch vụ Web3 hơn, bất kể họ có hiểu biết về công nghệ hay không, từ đó thúc đẩy sự phát triển và phổ biến của ngành dữ liệu blockchain.

3.2. Tích hợp dữ liệu LLM và Web3

Phân tích dấu chân

Hình 7: Tích hợp dữ liệu blockchain và LLM

Việc đào tạo các mô hình ngôn ngữ lớn đòi hỏi phải dựa vào dữ liệu quy mô lớn để xây dựng mô hình bằng cách học các mẫu trong dữ liệu. Các mẫu tương tác và hành vi có trong dữ liệu blockchain là nhiên liệu cho việc học LLM. Số lượng và chất lượng dữ liệu cũng ảnh hưởng trực tiếp đến hiệu quả học tập của mô hình LLM.

Dữ liệu không chỉ là vật liệu tiêu hao cho LLM, LLM còn giúp tạo ra dữ liệu và thậm chí có thể cung cấp phản hồi. Ví dụ: LLM có thể hỗ trợ các nhà phân tích dữ liệu góp phần xử lý trước dữ liệu, chẳng hạn như làm sạch và chú thích dữ liệu hoặc tạo dữ liệu có cấu trúc để loại bỏ nhiễu khỏi dữ liệu và làm nổi bật thông tin hiệu quả.

3.3.Các giải pháp kỹ thuật phổ biến để nâng cao LLM

Sự xuất hiện của ChatGPT không chỉ cho chúng ta thấy khả năng chung của LLM trong việc giải quyết các vấn đề phức tạp mà còn kích hoạt sự khám phá toàn cầu về việc áp dụng các khả năng bên ngoài lên các khả năng chung. Điều này bao gồm việc nâng cao các khả năng chung (bao gồm độ dài ngữ cảnh, lý luận phức tạp, toán học, mã, đa phương thức, v.v.) cũng như mở rộng các khả năng bên ngoài (xử lý dữ liệu phi cấu trúc, sử dụng các công cụ phức tạp hơn, tương tác với thế giới vật lý, v.v.). ). Cách kết hợp kiến ​​thức độc quyền trong lĩnh vực tiền điện tử và dữ liệu cá nhân được cá nhân hóa với khả năng chung của các mô hình lớn là vấn đề kỹ thuật cốt lõi để thương mại hóa các mô hình lớn trong lĩnh vực dọc tiền điện tử.

Hiện tại, hầu hết các ứng dụng đều tập trung vào thế hệ tăng cường truy xuất (RAG), chẳng hạn như kỹ thuật gợi ý và công nghệ nhúng, và hầu hết các công cụ tác nhân hiện có đều tập trung vào việc cải thiện hiệu quả và độ chính xác của công việc RAG. Các kiến ​​trúc tham chiếu chính của ngăn xếp ứng dụng dựa trên công nghệ LLM trên thị trường như sau:

● Prompt Engineering

Phân tích dấu chân

Hình 8: Kỹ thuật nhanh chóng

Hiện nay, hầu hết những người thực hành đều sử dụng các giải pháp cơ bản, cụ thể là Rapid Engineering, khi xây dựng ứng dụng. Phương pháp này là cách thuận tiện và nhanh chóng nhất để thay đổi đầu vào của mô hình bằng cách thiết kế các Lời nhắc cụ thể để đáp ứng nhu cầu của các ứng dụng cụ thể. Tuy nhiên, Kỹ thuật nhắc nhở cơ bản có một số hạn chế, chẳng hạn như cập nhật cơ sở dữ liệu không kịp thời, nội dung cồng kềnh, hỗ trợ độ dài ngữ cảnh đầu vào (Độ dài ngữ cảnh) và hạn chế của nhiều vòng câu hỏi và câu trả lời.

Do đó, ngành cũng đang nghiên cứu các giải pháp cải tiến tiên tiến hơn, bao gồm cả việc nhúng và tinh chỉnh.

● Nhúng

Nhúng là một phương pháp biểu diễn dữ liệu được sử dụng rộng rãi trong lĩnh vực trí tuệ nhân tạo, có thể nắm bắt hiệu quả thông tin ngữ nghĩa của các đối tượng. Bằng cách ánh xạ các thuộc tính đối tượng thành dạng vectơ, công nghệ nhúng có thể nhanh chóng tìm ra câu trả lời đúng nhất bằng cách phân tích mối tương quan giữa các vectơ. Các phần nhúng có thể được xây dựng dựa trên LLM để tận dụng kiến ​​thức ngôn ngữ phong phú mà mô hình đã học được trên nhiều tập văn bản. Thông tin về các nhiệm vụ hoặc lĩnh vực cụ thể được đưa vào mô hình lớn được đào tạo trước thông qua công nghệ nhúng, giúp mô hình trở nên chuyên biệt hơn và dễ thích ứng hơn với các nhiệm vụ cụ thể, đồng thời vẫn giữ được tính linh hoạt của mô hình cơ bản.

Theo cách hiểu của người không chuyên, việc nhúng cũng tương tự như việc đưa một cuốn sách tham khảo cho một sinh viên đại học đã được đào tạo bài bản và yêu cầu anh ta hoàn thành nhiệm vụ bằng một cuốn sách tham khảo có kiến ​​thức liên quan đến một nhiệm vụ cụ thể, anh ta có thể tham khảo sách tham khảo bất cứ lúc nào rồi giải quyết. vấn đề cụ thể.

● Tinh chỉnh

Phân tích dấu chân

Hình 9: Tinh chỉnh

Tinh chỉnh khác với nhúng bằng cách cập nhật các tham số của mô hình ngôn ngữ được đào tạo trước để điều chỉnh nó cho phù hợp với một tác vụ cụ thể. Cách tiếp cận này cho phép các mô hình thể hiện hiệu suất tốt hơn đối với các nhiệm vụ cụ thể trong khi vẫn giữ được tính chung chung. Ý tưởng cốt lõi của việc tinh chỉnh là điều chỉnh các tham số mô hình để nắm bắt các mẫu và mối quan hệ cụ thể có liên quan đến nhiệm vụ mục tiêu. Tuy nhiên, giới hạn trên của khả năng tinh chỉnh chung của mô hình vẫn bị giới hạn bởi chính mô hình cơ sở.

Theo cách hiểu của người không chuyên, việc tinh chỉnh cũng tương tự như việc cung cấp các khóa học kiến ​​thức chuyên môn cho sinh viên đại học đã được đào tạo toàn diện, giúp họ nắm vững kiến ​​thức chuyên môn bên cạnh khả năng toàn diện và có thể tự mình giải quyết các vấn đề trong lĩnh vực chuyên môn.

● Đào tạo lại LLM

Mặc dù LLM hiện tại rất mạnh nhưng nó có thể không đáp ứng được mọi nhu cầu. Đào tạo lại LLM là một giải pháp có tính tùy chỉnh cao bằng cách giới thiệu các tập dữ liệu mới và điều chỉnh trọng số mô hình để làm cho nó phù hợp hơn với một nhiệm vụ, nhu cầu hoặc miền cụ thể. Tuy nhiên, phương pháp này đòi hỏi nhiều tài nguyên tính toán và dữ liệu, việc quản lý và duy trì mô hình được huấn luyện lại cũng là một trong những thách thức.

● Mô hình đại lý

Phân tích dấu chân

Hình 10: Mô hình tác nhân

Mô hình tác nhân là một phương pháp xây dựng các tác nhân thông minh, sử dụng LLM làm bộ điều khiển cốt lõi. Hệ thống này cũng bao gồm một số thành phần chính để cung cấp thông tin toàn diện hơn.

● Lập kế hoạch: Chia nhiệm vụ lớn thành các nhiệm vụ nhỏ hơn để dễ hoàn thành hơn

● Trí nhớ, suy ngẫm: cải thiện các kế hoạch tương lai bằng cách suy ngẫm về những hành động trong quá khứ

● Công cụ, cách sử dụng công cụ: Agent có thể gọi các công cụ bên ngoài để lấy thêm thông tin, chẳng hạn như gọi các công cụ tìm kiếm, máy tính, v.v.

Mô hình tác nhân trí tuệ nhân tạo có khả năng hiểu và tạo ngôn ngữ mạnh mẽ, đồng thời có thể giải quyết các vấn đề chung, thực hiện phân tách nhiệm vụ và tự phản ánh. Điều này mang lại cho nó tiềm năng rộng lớn trong nhiều ứng dụng. Tuy nhiên, mô hình tác nhân cũng có một số hạn chế như bị giới hạn bởi độ dài ngữ cảnh, dễ mắc lỗi trong việc lập kế hoạch dài hạn và phân chia nhiệm vụ, độ tin cậy của nội dung đầu ra không ổn định. Những hạn chế này đòi hỏi phải có sự nghiên cứu và đổi mới liên tục trong thời gian dài để mở rộng hơn nữa việc ứng dụng các mô hình tác nhân trong các lĩnh vực khác nhau.

Các kỹ thuật khác nhau ở trên không loại trừ lẫn nhau và có thể được sử dụng cùng nhau trong quá trình đào tạo và nâng cao cùng một mô hình. Các nhà phát triển có thể khai thác triệt để tiềm năng của các mô hình ngôn ngữ lớn hiện có và thử các phương pháp khác nhau để đáp ứng các yêu cầu ứng dụng ngày càng phức tạp. Việc sử dụng toàn diện này không chỉ giúp nâng cao hiệu suất của mô hình mà còn giúp thúc đẩy sự đổi mới và tiến bộ nhanh chóng của công nghệ Web3.

Tuy nhiên, chúng tôi tin rằng mặc dù các LLM hiện tại đã đóng một vai trò quan trọng trong sự phát triển nhanh chóng của Web3, trước khi thử nghiệm đầy đủ các mô hình hiện có này (chẳng hạn như OpenAI, Llama 2 và các LLM nguồn mở khác), chúng ta có thể bắt đầu từ nông cạn đến sâu hơn. , Bắt đầu với các chiến lược RAG như kỹ thuật nhanh chóng và nhúng, đồng thời xem xét cẩn thận việc tinh chỉnh và đào tạo lại mô hình cơ sở.

3.4. Cách LLM tăng tốc các quy trình sản xuất dữ liệu blockchain khác nhau

3.4.1. Luồng xử lý chung của dữ liệu blockchain

Ngày nay, các nhà xây dựng trong lĩnh vực blockchain đang dần nhận ra giá trị của các sản phẩm dữ liệu. Giá trị này bao gồm nhiều lĩnh vực như giám sát hoạt động sản phẩm, mô hình dự đoán, hệ thống đề xuất và ứng dụng dựa trên dữ liệu. Mặc dù nhận thức này ngày càng tăng nhưng việc xử lý dữ liệu thường bị bỏ qua như một bước quan trọng không thể thiếu từ việc thu thập dữ liệu đến ứng dụng dữ liệu.

Phân tích dấu chân

Hình 11: Quy trình xử lý dữ liệu Blockchain

● Chuyển đổi dữ liệu phi cấu trúc ban đầu của blockchain, chẳng hạn như sự kiện hoặc nhật ký, v.v., thành dữ liệu có cấu trúc

Mọi giao dịch hoặc sự kiện trên blockchain đều tạo ra các sự kiện hoặc nhật ký và những dữ liệu này thường không có cấu trúc. Bước này là điểm đầu tiên để lấy dữ liệu, nhưng dữ liệu vẫn cần được xử lý thêm để trích xuất thông tin hữu ích và thu được dữ liệu thô có cấu trúc. Điều này bao gồm việc tổ chức dữ liệu, xử lý các ngoại lệ và chuyển đổi nó thành định dạng chung.

● Chuyển đổi dữ liệu thô có cấu trúc thành các bảng trừu tượng có ý nghĩa kinh doanh

Sau khi có được dữ liệu thô có cấu trúc, bạn cần trừu tượng hóa hơn nữa hoạt động kinh doanh và ánh xạ dữ liệu tới các thực thể và chỉ số kinh doanh, chẳng hạn như khối lượng giao dịch, khối lượng người dùng và các chỉ báo kinh doanh khác, để chuyển đổi dữ liệu thô thành dữ liệu có ý nghĩa cho hoạt động kinh doanh và ra quyết định .

● Tính toán và trích xuất các chỉ số kinh doanh từ các bảng trừu tượng

Sau khi có dữ liệu kinh doanh trừu tượng, các tính toán tiếp theo có thể được thực hiện trên dữ liệu kinh doanh trừu tượng để thu được các chỉ số dẫn xuất quan trọng khác nhau. Ví dụ: các chỉ số cốt lõi như tốc độ tăng trưởng hàng tháng của tổng khối lượng giao dịch và tỷ lệ giữ chân người dùng. Các chỉ báo này có thể được triển khai với sự trợ giúp của các công cụ như SQL và Python, đồng thời có nhiều khả năng giúp theo dõi tình trạng hoạt động kinh doanh cũng như hiểu rõ hành vi và xu hướng của người dùng để hỗ trợ việc ra quyết định và lập kế hoạch chiến lược.

3.4.2. Tối ưu hóa sau khi thêm LLM vào quy trình tạo dữ liệu blockchain

LLM có thể giải quyết nhiều vấn đề trong xử lý dữ liệu blockchain, bao gồm nhưng không giới hạn ở những vấn đề sau:

Xử lý dữ liệu phi cấu trúc:

● Trích xuất thông tin có cấu trúc từ nhật ký và sự kiện giao dịch: LLM có thể phân tích nhật ký giao dịch và sự kiện của chuỗi khối, trích xuất thông tin chính, chẳng hạn như số tiền giao dịch, địa chỉ bên giao dịch, dấu thời gian, v.v. và chuyển đổi dữ liệu phi cấu trúc thành Dữ liệu có ý nghĩa kinh doanh, giúp việc phân tích và hiểu dễ dàng hơn.

● Làm sạch dữ liệu và xác định dữ liệu bất thường: LLM có thể tự động xác định và làm sạch dữ liệu không nhất quán hoặc bất thường để giúp đảm bảo tính chính xác và nhất quán của dữ liệu, từ đó cải thiện chất lượng dữ liệu.

Thực hiện trừu tượng hóa kinh doanh:

● Ánh xạ dữ liệu gốc trên chuỗi tới các thực thể kinh doanh: LLM có thể ánh xạ dữ liệu blockchain gốc tới các thực thể kinh doanh, chẳng hạn như ánh xạ địa chỉ blockchain tới người dùng hoặc tài sản thực tế, giúp quá trình xử lý kinh doanh trở nên trực quan và hiệu quả hơn.

● Xử lý nội dung trên chuỗi không có cấu trúc và gắn nhãn cho nó: LLM có thể phân tích dữ liệu phi cấu trúc, chẳng hạn như kết quả phân tích tình cảm trên Twitter và đánh dấu nó là tình cảm tích cực, tiêu cực hoặc trung tính, từ đó giúp người dùng hiểu rõ hơn về tình cảm đối với xu hướng truyền thông xã hội.

Giải thích ngôn ngữ tự nhiên của dữ liệu:

● Tính toán các chỉ số cốt lõi: Dựa trên mức độ tóm tắt kinh doanh, LLM có thể tính toán các chỉ số kinh doanh cốt lõi, chẳng hạn như khối lượng giao dịch của người dùng, giá trị tài sản, thị phần, v.v., để giúp người dùng hiểu rõ hơn về hiệu quả hoạt động chính của doanh nghiệp họ.

● Dữ liệu truy vấn: LLM có thể hiểu ý định của người dùng và tạo truy vấn SQL thông qua AIGC, cho phép người dùng thực hiện yêu cầu truy vấn bằng ngôn ngữ tự nhiên mà không cần phải viết các câu lệnh truy vấn SQL phức tạp. Điều này làm tăng khả năng truy cập của các truy vấn cơ sở dữ liệu.

● Lựa chọn, sắp xếp và phân tích tương quan chỉ báo: LLM có thể giúp người dùng lựa chọn, sắp xếp và phân tích nhiều chỉ số khác nhau để hiểu rõ hơn về mối quan hệ và mối tương quan giữa chúng, từ đó hỗ trợ phân tích dữ liệu sâu hơn và ra quyết định.

● Tạo mô tả bằng ngôn ngữ tự nhiên về tóm tắt kinh doanh: LLM có thể tạo tóm tắt hoặc giải thích bằng ngôn ngữ tự nhiên dựa trên dữ liệu thực tế để giúp người dùng hiểu rõ hơn về tóm tắt kinh doanh và chỉ báo dữ liệu, cải thiện khả năng diễn giải và đưa ra quyết định hợp lý hơn.

3.5.Các trường hợp sử dụng hiện tại

Theo lợi thế về công nghệ và trải nghiệm sản phẩm của LLM, nó có thể được áp dụng cho các kịch bản dữ liệu trên chuỗi khác nhau. Về mặt kỹ thuật, các kịch bản này có thể được chia thành bốn loại từ dễ đến khó:

● Chuyển đổi dữ liệu: Thực hiện các hoạt động như nâng cao và xây dựng lại dữ liệu, chẳng hạn như tóm tắt văn bản, phân loại và trích xuất thông tin. Loại ứng dụng này phát triển nhanh hơn nhưng phù hợp hơn với các tình huống chung và không phù hợp để xử lý hàng loạt đơn giản một lượng lớn dữ liệu.

● Giao diện ngôn ngữ tự nhiên: Kết nối LLM với các cơ sở kiến ​​thức hoặc công cụ để tự động hóa việc hỏi đáp hoặc sử dụng công cụ cơ bản. Điều này có thể được sử dụng để xây dựng các chatbot chuyên nghiệp, nhưng giá trị thực tế của nó bị ảnh hưởng bởi các yếu tố khác như chất lượng của nền tảng kiến ​​thức mà nó được kết nối.

● Tự động hóa quy trình làm việc: Sử dụng LLM để chuẩn hóa và tự động hóa các quy trình kinh doanh. Điều này có thể được áp dụng cho các quy trình xử lý dữ liệu blockchain phức tạp hơn, chẳng hạn như giải mã quy trình vận hành hợp đồng thông minh, xác định rủi ro, v.v.

● Robot hỗ trợ và hệ thống phụ trợ trợ lý: Hệ thống phụ trợ là hệ thống nâng cao tích hợp nhiều nguồn dữ liệu và chức năng hơn dựa trên giao diện ngôn ngữ tự nhiên, giúp cải thiện đáng kể hiệu quả làm việc của người dùng.

Phân tích dấu chân

Hình 12: Kịch bản ứng dụng LLM

3.6 Hạn chế của LLM

3.6.1. Hiện trạng của ngành: các ứng dụng đã trưởng thành, các vấn đề đang được khắc phục và những thách thức chưa được giải quyết

Trong lĩnh vực dữ liệu Web3, mặc dù đã đạt được một số tiến bộ quan trọng nhưng vẫn còn một số thách thức.

Các ứng dụng tương đối trưởng thành:

● Sử dụng LLM để xử lý thông tin: Các công nghệ AI như LLM đã được sử dụng thành công để tạo các bản tóm tắt văn bản, tóm tắt, giải thích, v.v., giúp người dùng trích xuất thông tin chính từ các bài báo dài và báo cáo chuyên nghiệp, đồng thời cải thiện khả năng đọc và hiểu dữ liệu.

● Sử dụng AI để giải quyết các vấn đề phát triển: LLM đã được sử dụng để giải quyết các vấn đề trong quá trình phát triển, chẳng hạn như thay thế StackOverflow hoặc các công cụ tìm kiếm để cung cấp cho nhà phát triển câu trả lời câu hỏi và hỗ trợ lập trình.

Các vấn đề cần giải quyết và tìm hiểu:

● Sử dụng LLM để tạo mã: Ngành đang nỗ lực áp dụng công nghệ LLM vào việc chuyển đổi ngôn ngữ tự nhiên sang ngôn ngữ truy vấn SQL nhằm cải thiện khả năng tự động hóa và tính dễ hiểu của các truy vấn cơ sở dữ liệu. Tuy nhiên, trong quá trình này sẽ gặp rất nhiều khó khăn, chẳng hạn như trong một số trường hợp, mã được tạo ra yêu cầu độ chính xác cực cao và cú pháp phải đúng 100% mới đảm bảo chương trình có thể chạy không lỗi và thu được kết quả chính xác. Khó khăn còn bao gồm việc đảm bảo tỷ lệ thành công và độ chính xác của việc trả lời các câu hỏi cũng như sự hiểu biết sâu sắc về doanh nghiệp.

● Các vấn đề về chú thích dữ liệu: Chú thích dữ liệu rất quan trọng đối với việc đào tạo các mô hình học máy và học sâu, nhưng trong trường dữ liệu Web3, đặc biệt là khi xử lý dữ liệu chuỗi khối ẩn danh, độ phức tạp của dữ liệu chú thích là rất cao.

● Các vấn đề về độ chính xác và ảo giác: Sự xuất hiện ảo giác trong các mô hình AI có thể bị ảnh hưởng bởi nhiều yếu tố, bao gồm dữ liệu đào tạo sai lệch hoặc không đủ, trang bị quá mức, hiểu biết ngữ cảnh hạn chế, thiếu kiến ​​thức về miền, các cuộc tấn công đối nghịch và kiến ​​trúc mô hình. Các nhà nghiên cứu và phát triển cần liên tục cải tiến phương pháp đào tạo và hiệu chỉnh mô hình để nâng cao độ tin cậy và độ chính xác của văn bản được tạo ra.

● Sử dụng dữ liệu để phân tích hoạt động kinh doanh và đầu ra bài viết: Sử dụng dữ liệu để phân tích hoạt động kinh doanh và tạo bài viết vẫn là một vấn đề đầy thách thức. Sự phức tạp của vấn đề, cần có những lời nhắc được thiết kế cẩn thận, cũng như dữ liệu chất lượng cao, khối lượng dữ liệu và các phương pháp để giảm vấn đề ảo giác đều là những vấn đề cần giải quyết.

● Tự động lập chỉ mục dữ liệu hợp đồng thông minh dựa trên các lĩnh vực kinh doanh để trừu tượng hóa dữ liệu: Tự động lập chỉ mục dữ liệu hợp đồng thông minh trên các lĩnh vực kinh doanh khác nhau để trừu tượng hóa dữ liệu vẫn là một vấn đề chưa được giải quyết. Điều này đòi hỏi phải xem xét toàn diện các đặc điểm của các lĩnh vực kinh doanh khác nhau, cũng như tính đa dạng và phức tạp của dữ liệu.

● Xử lý dữ liệu chuỗi thời gian, dữ liệu tài liệu dạng bảng và các phương thức phức tạp hơn khác: Các mô hình đa phương thức như DALL·E 2 rất hiệu quả trong việc tạo ra các phương thức phổ biến như hình ảnh và lời nói từ văn bản. Trong lĩnh vực blockchain và tài chính, một số dữ liệu chuỗi thời gian cần được xử lý đặc biệt, điều này không thể giải quyết đơn giản bằng cách vector hóa văn bản. Kết hợp dữ liệu và văn bản chuỗi thời gian, đào tạo chung đa phương thức, v.v. là những hướng nghiên cứu quan trọng để đạt được ứng dụng và phân tích dữ liệu thông minh.

3.6.2. Tại sao LLM một mình không thể giải quyết hoàn hảo các vấn đề của ngành dữ liệu blockchain

Là một mô hình ngôn ngữ, LLM phù hợp hơn để xử lý các tình huống đòi hỏi sự trôi chảy cao hơn, nhưng để đạt được độ chính xác, có thể cần phải điều chỉnh thêm cho mô hình. Khi áp dụng LLM vào ngành dữ liệu blockchain, khung sau có thể cung cấp một số tài liệu tham khảo.

Phân tích dấu chân

Hình 13: Tính lưu loát, độ chính xác và rủi ro trong trường hợp sử dụng của đầu ra LLM trong ngành dữ liệu blockchain

Khi đánh giá tính phù hợp của LLM trong các ứng dụng khác nhau, điều quan trọng là phải tập trung vào tính trôi chảy và chính xác. Sự trôi chảy đề cập đến việc đầu ra của mô hình có tự nhiên và mượt mà hay không, trong khi độ chính xác cho biết liệu các câu trả lời của mô hình có chính xác hay không. Hai chiều này có các yêu cầu khác nhau trong các tình huống ứng dụng khác nhau.

Đối với các tác vụ yêu cầu độ trôi chảy cao, chẳng hạn như tạo ngôn ngữ tự nhiên, viết sáng tạo, v.v., LLM thường phù hợp vì hiệu suất xử lý ngôn ngữ tự nhiên mạnh mẽ cho phép nó tạo ra văn bản trôi chảy.

Dữ liệu chuỗi khối phải đối mặt với nhiều vấn đề như phân tích dữ liệu, xử lý dữ liệu và ứng dụng dữ liệu. LLM có khả năng hiểu và suy luận ngôn ngữ vượt trội, khiến nó trở thành một công cụ lý tưởng để tương tác, sắp xếp và tóm tắt dữ liệu blockchain. Tuy nhiên, LLM không thể giải quyết mọi vấn đề trong trường dữ liệu blockchain.

Về mặt xử lý dữ liệu, LLM phù hợp hơn để lặp lại nhanh chóng và xử lý thăm dò dữ liệu trên chuỗi và liên tục thử các phương pháp xử lý mới. Tuy nhiên, LLM vẫn còn một số hạn chế đối với các nhiệm vụ như đối chiếu chi tiết trong môi trường sản xuất. Một vấn đề điển hình là mã thông báo không đủ dài để xử lý nội dung ngữ cảnh dài. Lời nhắc tốn thời gian trả lời câu hỏi về tính không ổn định ảnh hưởng đến các nhiệm vụ ở hạ nguồn, dẫn đến tỷ lệ thành công không ổn định và hiệu quả thấp khi thực hiện một loạt nhiệm vụ lớn.

Thứ hai, vấn đề ảo giác có thể nảy sinh trong quá trình LLM xử lý nội dung. Người ta ước tính xác suất gây ảo giác của ChatGPT là khoảng 15% đến 20% và do quá trình xử lý không rõ ràng nên nhiều lỗi rất khó phát hiện. Vì vậy, việc thiết lập một khuôn khổ và kết hợp kiến ​​thức chuyên môn trở nên quan trọng. Ngoài ra, vẫn còn nhiều thách thức khi LLM kết hợp dữ liệu on-chain:

● Có nhiều loại và số lượng lớn các thực thể dữ liệu trên chuỗi, chúng nên được cung cấp cho LLM dưới dạng nào và được sử dụng hiệu quả trong các tình huống thương mại cụ thể, tương tự như các ngành dọc khác, đòi hỏi nhiều nghiên cứu và khám phá hơn.

● Dữ liệu trên chuỗi bao gồm dữ liệu có cấu trúc và không cấu trúc.Hầu hết các giải pháp dữ liệu hiện tại trong ngành đều dựa trên sự hiểu biết về dữ liệu kinh doanh. Trong quá trình phân tích dữ liệu trên chuỗi, ETL được sử dụng để lọc, làm sạch, bổ sung và khôi phục logic kinh doanh, đồng thời sắp xếp thêm dữ liệu phi cấu trúc thành dữ liệu có cấu trúc, có thể cung cấp phân tích hiệu quả hơn cho các tình huống kinh doanh khác nhau trong tương lai. Ví dụ: giao dịch DEX có cấu trúc, giao dịch thị trường NFT, danh mục địa chỉ ví, v.v., có các đặc điểm đã nói ở trên về chất lượng cao, giá trị cao, độ chính xác và tính xác thực, đồng thời có thể cung cấp các bổ sung hiệu quả cho LLM nói chung.

4. LLM bị hiểu sai

4.1 LLM có thể xử lý trực tiếp dữ liệu phi cấu trúc, vậy dữ liệu có cấu trúc sẽ không còn cần thiết nữa?

LLM thường được đào tạo trước dựa trên dữ liệu văn bản lớn và tự nhiên phù hợp để xử lý tất cả các loại dữ liệu văn bản phi cấu trúc. Tuy nhiên, nhiều ngành khác nhau đã có một lượng lớn dữ liệu có cấu trúc, đặc biệt là dữ liệu được phân tích cú pháp trong trường Web3. Cách sử dụng hiệu quả những dữ liệu này để nâng cao LLM là một chủ đề nghiên cứu nóng trong ngành.

Đối với LLM, dữ liệu có cấu trúc vẫn có những ưu điểm sau:

● Khối lượng lớn: Một lượng lớn dữ liệu được lưu trữ trong cơ sở dữ liệu và các định dạng tiêu chuẩn khác đằng sau các ứng dụng khác nhau, đặc biệt là dữ liệu riêng tư. Mọi công ty và ngành vẫn có một lượng lớn LLM không có dữ liệu nội bộ để đào tạo trước.

● Hiện có: Dữ liệu này không cần phải tái tạo, chi phí đầu tư cực kỳ thấp, vấn đề duy nhất là sử dụng như thế nào.

● Chất lượng cao và giá trị cao: Kiến thức chuyên môn được tích lũy trong thời gian dài trong lĩnh vực này thường được lưu trữ dưới dạng dữ liệu có cấu trúc và được sử dụng trong công nghiệp, học viện và nghiên cứu. Chất lượng của dữ liệu có cấu trúc là chìa khóa cho tính khả dụng của dữ liệu, bao gồm tính đầy đủ, tính nhất quán, độ chính xác, tính duy nhất và tính xác thực của dữ liệu.

● Hiệu quả cao: Dữ liệu có cấu trúc được lưu trữ trong bảng, cơ sở dữ liệu hoặc các định dạng chuẩn hóa khác, đồng thời lược đồ được xác định trước và nhất quán trên toàn bộ tập dữ liệu. Điều này có nghĩa là định dạng, loại và mối quan hệ của dữ liệu có thể dự đoán và kiểm soát được, giúp việc phân tích và truy vấn dữ liệu trở nên dễ dàng và đáng tin cậy hơn. Hơn nữa, ngành này đã có ETL trưởng thành và các công cụ quản lý và xử lý dữ liệu khác nhau, sử dụng hiệu quả và thuận tiện hơn. LLM có thể sử dụng dữ liệu này thông qua API.

● Độ chính xác và tính xác thực: Dữ liệu văn bản của LLM dựa trên xác suất mã thông báo hiện không thể đưa ra câu trả lời chính xác một cách ổn định. Vấn đề ảo giác luôn là vấn đề cơ bản cốt lõi mà LLM cần giải quyết. Đối với nhiều ngành và kịch bản, các vấn đề về an ninh và độ tin cậy sẽ phát sinh, chẳng hạn như chăm sóc y tế, tài chính, v.v. Dữ liệu có cấu trúc là một hướng có thể hỗ trợ và khắc phục những vấn đề này của LLM.

● Phản ánh biểu đồ quan hệ và logic nghiệp vụ cụ thể: Các loại dữ liệu có cấu trúc khác nhau có thể được nhập vào LLM trong các hình thức tổ chức cụ thể (cơ sở dữ liệu quan hệ, cơ sở dữ liệu biểu đồ, v.v.) để giải quyết các loại vấn đề miền khác nhau. Dữ liệu có cấu trúc sử dụng các ngôn ngữ truy vấn được tiêu chuẩn hóa (chẳng hạn như SQL), giúp các truy vấn và phân tích dữ liệu phức tạp trở nên hiệu quả và chính xác hơn. Sơ đồ tri thức có thể thể hiện tốt hơn mối quan hệ giữa các thực thể và giúp các truy vấn liên quan trở nên dễ dàng hơn.

● Chi phí sử dụng thấp: LLM không cần phải đào tạo lại toàn bộ mô hình cơ sở từ đầu mà có thể kết hợp với các phương pháp hỗ trợ LLM như Đại lý và API LLM để truy cập LLM nhanh hơn và với chi phí thấp hơn.

Trên thị trường vẫn còn một số quan điểm giàu trí tưởng tượng cho rằng LLM có khả năng xử lý thông tin văn bản và thông tin phi cấu trúc cực kỳ tốt, có thể đạt được điều đó bằng cách chỉ cần nhập dữ liệu thô, bao gồm cả dữ liệu phi cấu trúc, vào LLM. Ý tưởng này tương tự như việc yêu cầu các LLM có mục đích chung giải các bài toán. Nếu không có một mô hình khả năng toán học được xây dựng cụ thể, hầu hết các LLM đều có thể mắc lỗi khi xử lý các bài toán cộng và trừ đơn giản ở trường tiểu học. Ngược lại, việc thiết lập mô hình dọc Crypto LLM tương tự như mô hình khả năng toán học và mô hình tạo hình ảnh là giải pháp thiết thực hơn cho LLM trong lĩnh vực Crypto.

4.2. LLM có thể suy ra nội dung từ thông tin văn bản như tin tức và tweet. Mọi người không còn cần phân tích dữ liệu trên chuỗi để đưa ra kết luận nữa?

Mặc dù LLM có thể lấy thông tin từ các văn bản như tin tức và mạng xã hội, nhưng những hiểu biết sâu sắc thu được trực tiếp từ dữ liệu trên chuỗi vẫn không thể thiếu vì những lý do chính sau:

● Dữ liệu trên chuỗi là thông tin trực tiếp gốc, trong khi thông tin trên tin tức và mạng xã hội có thể phiến diện hoặc gây hiểu lầm. Phân tích trực tiếp dữ liệu trên chuỗi có thể làm giảm sai lệch thông tin. Mặc dù việc sử dụng LLM để phân tích văn bản có nguy cơ sai lệch trong diễn giải, nhưng việc phân tích trực tiếp dữ liệu trên chuỗi có thể làm giảm những hiểu sai.

● Dữ liệu trên chuỗi chứa các bản ghi giao dịch và tương tác lịch sử toàn diện, đồng thời phân tích có thể khám phá các xu hướng và mô hình dài hạn. Dữ liệu trên chuỗi cũng có thể hiển thị một bức tranh hoàn chỉnh về toàn bộ hệ sinh thái, chẳng hạn như dòng vốn, mối quan hệ giữa các bên, v.v. Những hiểu biết sâu sắc về bức tranh lớn này cung cấp sự hiểu biết sâu sắc hơn về tình hình. Mặt khác, tin tức và thông tin trên mạng xã hội thường rời rạc và ngắn hạn hơn.

● Dữ liệu trên chuỗi đang mở. Bất kỳ ai cũng có thể xác minh kết quả phân tích và tránh tình trạng thông tin bất cân xứng. Tin tức và mạng xã hội không phải lúc nào cũng tiết lộ sự thật. Thông tin văn bản và dữ liệu trên chuỗi có thể được xác minh lẫn nhau. Kết hợp cả hai có thể tạo thành một phán đoán ba chiều và chính xác hơn.

Phân tích dữ liệu trên chuỗi vẫn không thể thiếu. LLM có vai trò phụ trợ trong việc lấy thông tin từ văn bản, nhưng nó không thể thay thế việc phân tích trực tiếp dữ liệu trên chuỗi. Hãy tận dụng tối đa ưu điểm của cả hai để đạt được kết quả tốt nhất.

4.3 Việc xây dựng các giải pháp dữ liệu blockchain dựa trên LLM bằng LangChain, LlamaIndex hoặc các công cụ AI khác có dễ dàng không?

Các công cụ như LangChain và LlamaIndex mang đến sự tiện lợi cho việc xây dựng các ứng dụng LLM đơn giản được tùy chỉnh, giúp bạn có thể xây dựng nhanh chóng. Tuy nhiên, việc áp dụng thành công những công cụ này trong môi trường sản xuất thực tế còn có nhiều thách thức hơn. Xây dựng một ứng dụng LLM chạy hiệu quả và duy trì chất lượng cao là một nhiệm vụ phức tạp đòi hỏi sự hiểu biết sâu sắc về cách thức hoạt động của công nghệ blockchain và các công cụ AI cũng như tích hợp chúng một cách hiệu quả. Đây là một nhiệm vụ quan trọng nhưng đầy thách thức đối với ngành dữ liệu blockchain.

Trong quá trình này, chúng ta phải nhận ra các đặc điểm của dữ liệu blockchain, đòi hỏi độ chính xác cực cao và khả năng xác minh lặp lại. Khi dữ liệu được xử lý và phân tích thông qua LLM, người dùng có kỳ vọng cao về tính chính xác và độ tin cậy của nó. Có một sự mâu thuẫn tiềm ẩn giữa điều này và khả năng chịu lỗi mờ của LLM. Do đó, khi xây dựng giải pháp dữ liệu blockchain, hai nhu cầu này phải được cân nhắc cẩn thận để đáp ứng mong đợi của người dùng.

Mặc dù đã có một số công cụ cơ bản trên thị trường hiện tại nhưng lĩnh vực này vẫn đang phát triển nhanh chóng và lặp đi lặp lại liên tục. Tương tự như quá trình phát triển của thế giới Web2, từ ngôn ngữ lập trình PHP ban đầu đến các giải pháp hoàn thiện hơn và có thể mở rộng hơn như Java, Ruby, Python, JavaScript và Node.js, v.v., cho đến các công nghệ mới nổi như Go và Rust, họ có trải qua sự phát triển liên tục. Các công cụ AI cũng liên tục thay đổi, các framework GPT mới nổi như AutoGPT, Microsoft AutoGen, GPT và Agents của ChatGPT 4.0 Turbo do chính OpenAI ra mắt gần đây chỉ cho thấy một phần khả năng trong tương lai. Điều này cho thấy cả ngành dữ liệu blockchain và công nghệ AI vẫn còn nhiều dư địa để phát triển và đòi hỏi những nỗ lực, đổi mới không ngừng.

Hiện nay, có hai cạm bẫy cần đặc biệt chú ý khi áp dụng LLM:

● Kỳ vọng quá cao: Nhiều người cho rằng LLM có thể giải quyết mọi vấn đề, nhưng thực tế LLM có những hạn chế rõ ràng. Nó đòi hỏi một lượng lớn tài nguyên máy tính, đào tạo tốn kém và quá trình đào tạo có thể không ổn định. Có những kỳ vọng thực tế về khả năng của LLM và hiểu rằng nó vượt trội trong một số trường hợp, chẳng hạn như xử lý ngôn ngữ tự nhiên và tạo văn bản, nhưng có thể không đủ năng lực trong các lĩnh vực khác.

● Bỏ qua nhu cầu kinh doanh: Một cái bẫy khác là áp dụng công nghệ LLM một cách ép buộc mà không xem xét đầy đủ nhu cầu kinh doanh. Trước khi áp dụng LLM, điều quan trọng là phải xác định nhu cầu kinh doanh cụ thể. Cần đánh giá xem LLM có phải là lựa chọn công nghệ tốt nhất hay không và tiến hành đánh giá và kiểm soát rủi ro. Cần nhấn mạnh rằng việc áp dụng LLM hiệu quả đòi hỏi phải xem xét cẩn thận dựa trên tình hình thực tế để tránh lạm dụng.

Mặc dù LLM có tiềm năng lớn trong nhiều lĩnh vực, nhưng các nhà phát triển và nhà nghiên cứu cần thận trọng khi áp dụng LLM và có thái độ khám phá cởi mở để tìm ra các kịch bản ứng dụng phù hợp hơn và phát huy tối đa lợi thế của nó.

Bài viết này được đồng xuất bản bởi Footprint Analytics, Future 3 Campus và HashKey Capital.

về chúng tôi

Footprint AnalyticsLà nhà cung cấp giải pháp dữ liệu blockchain. Với sự trợ giúp của công nghệ trí tuệ nhân tạo tiên tiến, chúng tôi cung cấp nền tảng phân tích dữ liệu không cần mã đầu tiên và API dữ liệu hợp nhất trong lĩnh vực Tiền điện tử, cho phép người dùng nhanh chóng truy xuất dữ liệu theo dõi luồng quỹ địa chỉ NFT, GameFi và ví của hơn 30 địa chỉ công khai. chuỗi hệ sinh thái.

Trang web chính thức của Footprint: https://www.footprint.network

Twitter:https://twitter.com/Footprint_Data

Tài khoản công khai WeChat: Phân tích chuỗi khối dấu chân

Tham gia cộng đồng: thêm trợ lý nhóm WeChat dấu chân_analytics

Future 3 CampusĐây là một nền tảng ươm tạo đổi mới Web3.0 do Phòng thí nghiệm Blockchain Wanxiang và HashKey Capital đồng khởi xướng. Nó tập trung vào ba hướng chính là Áp dụng đại trà Web3.0, DePIN và AI, với Thượng Hải, Khu vực Vịnh Lớn Quảng Đông-Hồng Kông-Macao và Singapore là những vườn ươm cơ sở chính, lan tỏa hệ sinh thái Web3.0 toàn cầu. Đồng thời, Cơ sở Tương lai 3 sẽ triển khai quỹ hạt giống ban đầu trị giá 50 triệu USD để ươm tạo dự án Web3.0, thực sự phục vụ sự đổi mới và khởi nghiệp trong lĩnh vực Web3.0.

HashKey CapitalĐây là tổ chức quản lý tài sản tập trung đầu tư vào công nghệ blockchain và tài sản kỹ thuật số với quy mô quản lý tài sản hiện tại vượt quá 1 tỷ USD. Là một trong những tổ chức đầu tư blockchain lớn nhất và có ảnh hưởng nhất ở châu Á, đồng thời cũng là nhà đầu tư tổ chức sớm nhất vào Ethereum, HashKey Capital tạo ra hiệu ứng ngỗng hàng đầu, liên kết Web2 và Web3, đồng thời kết nối với các doanh nhân, nhà đầu tư, cộng đồng và cơ quan quản lý. để xây dựng một hệ sinh thái blockchain bền vững. Công ty có trụ sở tại Hồng Kông, Singapore, Nhật Bản, Hoa Kỳ và các nơi khác. Công ty đã đi đầu trong việc triển khai hơn 500 công ty có vốn đầu tư toàn cầu trên Lớp 1, giao thức, Tài chính tiền điện tử, cơ sở hạ tầng Web3, ứng dụng, NFT, Metaverse và Các dự án được đầu tư bao gồm Cosmos, Coinlist, Aztec, Blockdaemon, dYdX, imToken, Animoca Brands, Falcon X, Space and time, Mask Network, Polkadot, Moonbeam và Galxe (trước đây là Project Galaxy), v.v.

Bài viết gốc, tác giả:Footprint。Tuyển dụng: Nhân viên kinh doanh phần mềm theo dự án report@odaily.email;Vi phạm quy định của pháp luật.

Odaily nhắc nhở, mời đông đảo độc giả xây dựng quan niệm đúng đắn về tiền tệ và khái niệm đầu tư, nhìn nhận hợp lý về blockchain, nâng cao nhận thức về rủi ro; Đối với manh mối phạm tội phát hiện, có thể tích cực tố cáo phản ánh với cơ quan hữu quan.

Đọc nhiều nhất
Lựa chọn của người biên tập