如果說AIGC 開啟了內容生成的智慧時代,那麼AI Agent 就有機會將AIGC 的能力真正產品化。
AI Agent 像一位更具象的全能員工,被稱為是人工智慧機器人的初級形態,能夠如同人類一般觀察周圍環境、做出決策,並自動採取行動。
比爾蓋茲曾直言,「掌控AI Agent,才是真正的成就。屆時,你將不再需要親自上網搜尋資訊。」AI 領域的權威專家們同樣對AI Agent 的前景寄予厚望。微軟CEO 薩提亞‧納德拉曾預言,AI Agent 將成為人機互動的主要方式,能夠理解使用者需求並主動提供服務。吳恩達教授亦預測,在未來的工作環境中,人類和AI Agent 將以更緊密的方式協作,形成高效的工作模式,提高效率。
AI Agent 不單是科技的產物,更是未來生活與工作方式的核心。
這不禁讓人回想,當Web3 和區塊鏈剛引起廣泛討論時,人們也常用顛覆一詞來形容這項技術的潛力。回顧過去幾年,Web3 從最初的ERC-20、零知識證明,逐漸發展到了與其他領域融合的DeFi、DePIN、GameFi 等。
若將Web3 與AI 這兩大熱門數位科技結合,會不會產生1+ 1>2 的效果呢?融資規模越來越龐大的Web3 AI 項目,能否為產業帶來新的用例範式,創造新的真實需求?
AI Agent:人類最理想的智慧助手
AI Agent 的想像力到底在哪裡?網路上盛傳一個高分答案,「大語言模型只能編個貪吃蛇,而AI Agent 可以編出一整個王者榮耀。」聽起來很誇張,但並未言過其實。
Agent,國內通常翻譯為「智體」。這個概念由「人工智慧之父」 Minsky 在1986 年出版的《思維的社會》一書中提出,Minsky 認為社會中的某些個體經過協商之後可得出某一問題的解,這些個體就是Agent 。多年來,Agent 一直是人機互動的基石,從微軟的剪輯助手Clippy 到Google Docs 的自動建議,這些早期形態的Agent 表現出了個性化互動的潛力,但在處理更複雜任務方面能力仍然有限。直到大語言模型(LLM)的出現,Agent 的真正潛力才得以被挖掘。
今年5 月,AI 領域權威學者吳恩達教授在美國紅杉AI 活動上分享了關於AI Agent 的演講,在其中,他展示了其團隊所做的一系列實驗:
讓AI 去寫一些程式碼並運行,對比不同LLM 和工作流程所得出的結果。結果如下:
GPT-3.5 模型:準確率48%
GPT-4 模型:準確率67%
GPT-3.5 + Agent:高於GPT-4 模型的表現
GPT-4 + Agent:遠高於GPT-4 模型,非常出色
的確。大多數人在使用ChatGPT 這種LLM 時,方式通常是:輸入一段提示詞,大模型會立即產生答案,不會自動辨識並修正錯誤刪除重寫。
相比之下,AI Agent 工作流程是這樣的:
首先,先讓LLM 寫一個文章大綱,如有必要,先在互聯網上搜索內容進行調查分析,輸出初稿,然後閱讀草稿並思考如何優化,如此循環往復、多次迭代,最終輸出一篇邏輯嚴謹、錯誤率最低的高品質文章。
我們可以發現,AI Agent 與LLM 的差異在於,LLM 與人類之間的交互作用是基於提示詞(prompt)進行。而AI Agent 僅需設定一個目標,它就能夠針對目標獨立思考並做出行動。根據給定任務詳細拆解出每一步的計劃步驟,依靠來自外界的回饋和自主思考,自己給自己創建prompt,來實現目標。
因此OpenAI 對AI Agent 的定義是:以LLM 為大腦驅動,具有自主理解感知、規劃、記憶和使用工具的能力,能自動化執行完成複雜任務的系統。
當AI 從被使用的工具變成可以使用工具的主體,就成為了AI Agent。這也正是AI Agent 可以成為人類最理想智慧助理的原因。例如,AI Agent 能夠基於使用者歷史線上互動,了解並記憶使用者的興趣、偏好、日常習慣,識別使用者的意圖,主動提出建議,並協調多個應用程式去完成任務。
就如同在蓋茲的構想中,未來我們不再需要為不同的任務切換到不同的應用中,只需用平常的語言告訴電腦和手機想做什麼,根據用戶願意共享的數據,AI Agent 將提供個性化的響應。
單人獨角獸公司正在成為現實
AI Agent 也能夠協助企業打造以「人機協同」為核心的智慧化營運新模式。越來越多的業務活動將交由AI 來完成,而人類只需要聚焦在企業願景、策略和關鍵路徑的決策。
就像OpenAI 執行長Sam Altman 曾在訪談中提到過這樣一個引人注目的觀點,隨著AI 的發展,我們即將進入「單人獨角獸」時代,即由單人創辦並達到10 億美元估值的公司。
聽起來是天方夜譚,但在AI Agent 的助力下,這個觀點正在成為現實。
不妨做個假設,現在我們要創辦一家科技新創公司。按照傳統方法,顯然我需要雇用軟體工程師、產品經理、設計師、行銷人員、銷售和財務人員,各司其職但都由我來協調。
那如果使用AI Agent 呢,我可能甚至不需要僱用員工。
Devin — 自動化編程
替代軟體工程師,我可能會使用今年爆火的AI 軟體工程師Devin,它能幫我完成所有前端和後端的工作。
Devin 由Cognition Labs 開發,被稱為是「世界上第一個AI 軟體工程師」。它能夠獨立完成整個軟體開發工作,獨立分析問題、做出決策、編寫程式碼並修復錯誤,均可自主執行。大大減輕了開發人員的工作負擔。 Devin 在短短半年內就獲得了1.96 億美元的融資,估值迅速飆升至數十億美元,投資者包括Founders Fund、Khosla Ventures 等知名創投公司。
雖然Devin 仍未推出公開版本,但我們可以從另一個最近爆紅Web2 的產品Cursor 一窺潛力。它幾乎可以為你完成所有工作,將一個簡單的想法在幾分鐘內轉化為功能性程式碼,你只需要發號施令,就能「坐享其成」。有報導稱,一個八歲的孩子,在沒有任何程式設計經驗的情況下,居然使用Cursor 完成程式碼工作並建起了一個網站。
Hebbia — 文件處理
替代產品經理或財務人員,我可能會選擇Hebbia,它能幫我完成所有文件的整理和分析。
與Glean 專注於企業內文檔搜尋不同,Hebbia Matrix 是一個企業級的AI Agent 平台,借助多個AI 模型,幫助使用者有效率地擷取、結構化、分析資料和文檔,推動企業生產力的提升。令人印象深刻的是,Matrix 能一次處理多大數百萬份文件。
Hebbia 在今年7 月完成了1.3 億美元B 輪,a16z 領投,Google Ventures、Peter Thiel 等知名投資者參投。
Jasper AI — 內容生成
替代社媒營運和設計師,我可能會選擇Jasper AI,它能幫我完成內容的生成。
Jasper AI 是個AI Agent 寫作助手,旨在幫助創作者、行銷人員和企業簡化內容生成流程,提高生產力和創作效率。 Jasper AI 能夠根據用戶要求的風格產生多種類型的內容,包括部落格文章、社群媒體貼文、廣告文案和產品描述等。並根據使用者的描述產生圖片,為文字內容提供視覺輔助。
Jasper AI 已獲得1.25 億美元的融資,並在2022 年達到了 15 億美元的估值。根據統計數據,Jasper AI 已幫助用戶產生超過5 億個單詞,成為使用最廣泛的AI 寫作工具之一。
MultiOn — 網頁自動化操作
替代助理,我可能會選擇MultiOn,幫我管理日常任務、安排行程、設定提醒,甚至是規劃出差行程,自動預約飯店,自動安排叫車。
MultiOn 是一個自動化的網路任務AI 代理,能夠幫助在任何數位環境中自主執行任務,例如幫助用戶完成線上購物、預約等個人任務,提升個人效率,或幫助用戶簡化日常事務,提高工作效率。
Perplexity — 搜尋、研究
替代研究員,我可能會選擇英偉達CEO 都在每天使用的Perplexity。
Perplexity 是一個AI 搜尋引擎,能夠理解用戶的提問,拆分問題,然後搜尋和整合內容,產生報告,以向用戶提供清晰的答案。
Perplexity 適用於各類使用者群體,例如學生和研究人員可以簡化寫作時的資訊檢索流程,提高效率;行銷人員可以取得可靠資料支援行銷策略。
以上內容僅為想像,當下這些AI Agent 的真正能力和水準尚不足以取代各行各業中的精英人才。正如Logenic AI 聯合創始人李博傑所言,目前LLM 的能力還只是入門級水平,遠遠達不到專家級,現階段的AI Agent 更像是一個幹活比較快但不太可靠的員工。
然而,這些AI Agent 憑藉各自的特長,正在幫助現有用戶在多樣化場景中提高效率和便利性。
不僅限於科技公司,各行各業都可以在AI Agent 的浪潮中獲得益處。在教育領域,AI Agent 可以根據學生的學習進度、興趣和能力提供個人化的學習資源和輔導;在金融領域,AI Agent 可以幫助使用者管理個人財務,提供投資建議,甚至預測股票趨勢;在醫療領域,AI Agent 可以幫助醫生進行疾病診斷和治療方案的製定;在電商領域,AI Agent 還可以作為智慧客服,透過自然語言處理和機器學習技術自動回答用戶諮詢,處理訂單問題和退貨請求,以此提高客戶服務效率。
Multi-Agent:AI Agent 的下一步
在上一節關於單人獨角獸公司的設想中,單一的AI Agent 在處理複雜任務時面臨局限性,難以滿足實際需求。而運用多個AI Agent 時,由於這些AI Agent 基於異構LLM,集體決策困難,能力有限,以至於還需要人類充當這些獨立AI Agent 之間的調度員,協調這些服務於不同應用場景的AI Agent去工作。這便催生了「Multi Agent(多智體框架)」的興起。
複雜問題往往需要融合多方面的知識和技能,而單一AI Agent 的能力有限,難以勝任。透過將不同能力的AI Agent 進行有機組合,Multi-Agent 系統可以讓AI Agent 發揮各自的長處,取長補短,從而更有效地解決複雜問題。
這非常類似於我們實際中的工作流程或組織結構:由一個領導者分配任務,擁有不同能力的人,負責不同的任務,每個工序執行的結果給到下一個工序,最終得到最後的任務成果。
在實作過程上,由較低階AI Agent 執行各自的任務,而由較高階層的AI Agent 分配任務,並對它們的完成情況進行監督。
Multi-Agent 還能模擬我們人類的決策過程,就像我們遇到問題時會找人商量一樣,多個AI Agent 也可以模擬集體決策的行為,為我們提供更好的資訊支援。例如由微軟開發的AutoGen 就滿足了這一點:
能夠創建不同角色的AI Agent。這些AI Agent 具有基本的對話能力,能夠根據接收的訊息,產生回應。
透過GroupChat 來創造由多個AI Agent 參與的群組聊天環境,在這個GroupChat 有一個管理員角色的AI Agent 管理其他AI Agent 的聊天記錄、發言者順序、終止發言等。
如果應用到單人獨角獸公司的設想裡,我們可以透過Multi-Agent 架構創建幾個不同角色的AI Agent,例如專案經理、程式設計師或主管。把我們的目標告訴它們,讓它們任意去想辦法,我們只要在一旁聽匯報,如果覺得有意見或它們做得不對的地方,就讓它們改,直到滿意為止。
相較於單一的AI Agent,Multi-Agent 可以實現:
可擴展性:透過增加AI Agent 的數量來處理更大規模的問題,每個AI Agent 處理任務的一部分,使得系統能夠隨著需求的增長而擴展。
並行性:天然支援並行處理,多個AI Agent 可以同時在問題的不同部分上工作,從而加速了問題解決。
決策改進:透過聚合多個AI Agent 的洞察力來增強決策制定,因為每個AI Agent 都有自己的視角和專業知識。
隨著AI 技術的不斷進步,可以想像Multi-Agent 框架將在更多產業發揮更大的作用,並推動AI 驅動的各類新解決方案的發展。
AI Agent 之風,吹向Web3
邁出實驗室,AI Agent 和Multi-Agent 道阻且長。
暫且不論Multi-Agent,即使是當下最先進的單一AI Agent ,其所需的算力資源和運算能力在物理層面仍有明確的上限,無法做到無限擴展。一旦面臨極為錯綜複雜、運算量密集的任務,AI Agent 無疑將會遭遇算力瓶頸,效能大打折扣。
再者,AI Agent 和Multi-Agent 系統本質上是一種集中式的架構模式,這決定了它存在著極高的單一故障風險。更重要的是,OpenAI、微軟、Google等公司基於閉源大模型的壟斷商業模式,嚴重威脅獨立、單一的AI Agent 新創公司的生存環境,使得AI Agent 無法順利利用龐大的企業私有資料來使它們變得更聰明、更有效率。 AI Agent 之間亟需民主化的協作環境,使得真正有價值的AI Agent得以服務更廣大的需求人群,為社會創造更大的價值。
最後,雖然與LLM 相比,AI Agent 更貼近產業,但其發展基於LLM,而當前大模型賽道的特點是技術門檻高、資金投入多、商業模式尚且發展不成熟,AI Agent 通常很難獲得融資以持續更新迭代。
Multi-Agent 的典範是Web3 助力AI 的絕佳角度,已經有不少Web3 開發團隊正在這些方面投入研發提供解決方案。
AI Agent 和Multi-Agent 系統通常需要大量的運算資源來進行複雜的決策和處理任務。 Web3 透過區塊鏈和去中心化技術,可以建立去中心化的算力市場,使得算力資源可以在全球範圍內更加公平和高效地分配和利用。 Akash、Nosana、Aethir、 IO.net 等Web3 專案可以對AI Agent 決策和推理提供運算能力。
傳統的AI 系統往往是集中式管理,導致AI Agent 面臨單點故障和資料隱私問題,Web3 的去中心化特性可以使得Multi-Agent 系統更加分散和自治,每個AI Agent 可以獨立地運作在不同的節點上,自主執行使用者提出的需求,增強了穩健性和安全性。透過PoS、DPoS 等機制建立針對質押者、委託者的激勵懲罰機制,可以促進單一AI Agent 或Multi-Agent 系統的民主化。
在這方面,GaiaNet、Theoriq、PIN AI、HajimeAI 都有非常前衛的嘗試。
Theoriq 是一個服務於「AI for Web3」的項目,希望透過Agentic Protocol 建立 AI Agents 的呼叫和經濟系統,普及Web3 的開發和許多功能性場景,為Web3 dApp 提供可驗證的模型推理能力。
GaiaNet 以節點為基礎的AI Agent 創建和部署環境,以保護專家、使用者的智慧財產權與資料隱私為出發點,抗衡中心化的OpenAI GPT Store。
HajimeAI 則在兩者基礎上發力AI Agent 工作流程在實際需求中的建立和針對意圖本身的智能化、自動化,呼應 PIN AI 提到的「AI 智能的個人化」。
同時,Modulus Labs 與ORA Protocol 分別在AI Agent 的zkML 和opML 的演算法方向上取得了進展。
最後,AI Agent 和Multi-Agent 系統的開發和迭代往往需要大量的資金支持,而Web3 可以透過前置流動性的特點幫助有潛力的AI Agent 專案獲得寶貴的早期支持。
Spectral 和HajimeAI 都提出了支持發行鏈上AI Agent 資產的產品構想:透過IAO(Initial Agent Offering)發行代幣,AI Agent 可以直接從投資者獲得資金,同時成為DAO 治理的一員,為投資者提供參與專案發展和分享未來收益的機會。其中HajimeAI 的Benchmark DAO 希望透過眾籌加代幣激勵的方式,將去中心化的AI Agent 評分和AI Agent 資產發行有機結合起來,打造AI Agent 依托Web3 融資和冷啟動的閉環,也是比較新穎的嘗試。
AI 潘朵拉魔盒已然開啟,置身其中的每個人既興奮又迷茫,熱潮下是機遇還是暗礁,無人知曉。如今,各行各業都已不再是PPT 融資時代,無論多麼前衛的技術,也只有落地才能實現價值。 AI Agent 的未來注定是一場漫長的馬拉松, 而Web3 正確保它不會在這場競賽中黯然退場。