▎編集者注:
TRUMPの通貨発行を誇りに思う人もいれば、失望する人もいる。Fomoの感情はさておき、Memeは入り口に過ぎず、AIは連鎖上の春の未来であり、最も重要なトレンドを把握しており、世界は私の手の中にある。
今日は、暗号通貨 VC @baincapcrypto の「Neural Media」の記事を共有したいと思います。著者の @natalie は、生成型人工知能と暗号通貨がクリエイティブな制作に与える影響について考えています。次の機会のために。
🎯 主なハイライト
1.生成型人工知能は、クリエイティブ制作の分野に大きな変化を引き起こしており、その影響は、インターネット時代にメディア配信コストがゼロになった「ナップスターの瞬間」と比較できます。
• この変化の核心は、創造的な制作コストがゼロに削減され、人間の創造性の中核に直接影響を与えたことです。
• 新しいパラダイムの下では、人間は最終出力に焦点を当てることから、システムとプロセスに焦点を当てること、つまりプログラミング レベルで考えるようにニューラル ネットワークを教えることに移行する必要があります。
2. プログラミングを通じて独自の「ソフトウェア脳」を形成し、ユニークなアイデアや作品を生み出すことができます。アプリケーション シナリオには次のものが含まれます。
• エージェントベースのメディア: このモデルは人間のパートナーをシミュレートし、テキスト対話を通じて対話し、金融取引などの操作を実行できます。
• リアルタイム ゲーム エンジン: モデルはゲーム エンジンをシミュレートし、ユーザーのアクションに基づいてゲーム フレームを生成し、リアルタイム レンダリングを実現します。
• マルチバース ジェネレーター: モデルは無限に異なるバージョンを生成し、ユーザーのオリジナルのアイデアを拡張し、可能性の空間を探索します。
3. 将来に直面する傾向は次のとおりです。
• 作成ツール: エンドユーザーの創造性を刺激するために、より多くのインターフェイスにプロンプトが埋め込まれています。ほとんどのプロンプトはコントロールに抽象化されますが、創造的なビジョン、精度、センス、スキルがより重要になります。
• メディア ビジネス モデルの進化: エンタープライズ メディアからユーザー生成メディア、そして機械生成メディアへ。将来の消費者メディア ビジネス モデルは、エージェント生成メディアを中心に構築されるでしょう (革新的なシナリオには、Character.ai などのチャットボット、WebSim などのインターフェイス生成、Pump.fun などのユーザー生成通貨などが含まれます)。
• 知的財産の課題: 機械学習により、プログラムは人間のクリエイターの美的スタイルを「学習」し、創造的な制作と美的模倣のコストをゼロに削減できます。知的財産の価値と重要性を再検討する必要があります。
4. 暗号通貨が果たせる役割は次のとおりです。
• オンチェーン市場とエージェント生成メディア (最近の DeFAI など) の交差点。
• 知的財産のインセンティブ層として機能します。
• Minting などのメディア収益化とアクセス制御が新しいビジネス モデルになり、NFT は個人プログラムやユーザー作成ソフトウェアのインフラストラクチャとして機能します。
• 人間と機械の社会的相互作用の間の経済的調整層として、コミュニティ運営とエージェント相互作用の新しいパラダイムを探求します。
全体として、これは読みにくいかもしれませんが、考える価値のある記事です。AI によって人間の創造性がシステムやプロセスの設計にさらに反映されるようになり、仮想通貨はこの変化に新たな経済的および社会的側面を提供します。 。この 2 つの組み合わせが次のメディア時代にどのような新たな機会やトレンドを生み出すのか、楽しみに待ちましょう。
►►►テキスト
▎「すべてのメディアは、精神的または肉体的な人間の機能の拡張です。」〜マーシャル・マクルーハン
私は 2024 年の大半を、現在「生成人工知能」と呼ばれるものと、それが私個人と社会全体に与える影響を理解することに費やしました。私は創造的なツールとしての人工知能の可能性に魅了されており、これらの新製品を自分のワークフロー、特に創作活動や作曲において多用しています。
しかし、消費者向けメディアやユーザー向けアプリケーションに焦点を当てている暗号通貨投資家として、私にとって AI はますます盲点のように見えてきています。インターネット時代に最も成功した消費者メディア企業について語るとき、テクノロジーサイロの観点からは語らない。Facebook の成功が技術革新と切り離せないのと同じように、テクノロジーサイロはそのように構築されていないからだ。 Facebook について話すのではなく、純粋に「モバイル アプリ」または「AI アプリ」として見ると、Facebook のようなアプリを可能にする多くの異なるイノベーションの融合であると私たちは認識しています。
このような背景を踏まえ、この記事は、過去 1 年間の人工知能の探求から得た個人的な発見と洞察を統合し、洗練させることを目的としています。私はこのコンテンツが他の人 (特に暗号通貨愛好家) の共感を呼んだり役立つことを願って共有します。
Part.1もう一つの「お昼寝のひととき」
現在、AI 生成メディアをめぐる議論は、 (1) モデルのトレーニングとデータ スクレイピングの倫理、(2) 「AI アート」は本物の芸術なのか、(3) ディープフェイクのディストピア的な見通しに焦点を当てています。これらの議論はどれも非常に興味深く、聞く価値がありますが、いくつかの重要な点で木を見て森を見逃していると思います。
生成型 AI の台頭を理解するのに最も役立つフレームワークは、AI を新たな「Napster の瞬間」を経験する知的財産と考えることであることがわかりました (Napster は、広く採用された最初のピアツーピア音楽共有サービスであり、AI の利用方法に劇的な影響を与えました)人々、特に大学生はインターネットを使用します)が、今回は配布の瞬間ではなく、制作の瞬間です。
インターネットの台頭とその後のメディア配信コストのゼロ化は、「ゼロから」の瞬間でした。この変化の突然の様子は、ドキュメンタリー『How Music Got Free』で見事に捉えられており、CD工場の労働者と10代のハッカーグループが一夜にして音楽業界全体を崩壊させた経緯を描いている。
Napster が登場し、より一般的にデジタル ファイル共有が台頭するまでは、企業メディア全体、産業複合体 (およびアーティストの生計) は、メディア配信が高価で、摩擦が大きく、集中化されているという技術的現実に依存していました。発足からわずか数年のうちに、大手レコードレーベルはレコード販売から連邦政府に法的介入による救済を懇願するまでになった。業界は非常に困難な現実に直面しています。ビジネスを支える経済システムは根本的かつ不可逆的に変化し、音楽を購入する時代は終わりました。
今日、生成 AI は、はるかに受け入れがたい現実を私たちに突きつけていると思います。また、創造的な制作コストがゼロになることの影響は、多くの人々が私たちを人間たらしめていると信じているものの核心に迫るものであるため、多くの点で対処が困難です。 :私たちの創造性。この実存的恐怖は、メディアの生成(特に「スタイルの転送」や美的模倣)は無料であり、今日私たちが関心を寄せているすべてのメディアタイプ(テキスト、画像、ビデオ、オーディオ、ソフトウェア)を含むという事実を変えるものではありません。 「何もない」瞬間。
しかし、今日と 2000 年代初頭の最も重要な違いは、Napster とメディア企業の間の争いにおいて、政府が同社の側につき、最終的にはファイル共有を「著作権侵害」として犯罪化したことです。 (これが、企業メディア/知的財産を「法定メディア」と呼ぶことが多い理由です)。この決定は、スティーブ・ジョブズが後に iTunes となり、最終的には「ストリーミング」となるものを促進するために iPod を導入したことと合わせて、業界を完全な崩壊から救いました。残念ながら、政府が介入して行動を起こすことを期待しているクリエイターたちは、良く言えば自分を慰めているだけで、悪く言えば自分を騙しているのだと思います。
知的財産制度は主に企業とその法定メディアを保護することを目的としており、誰も私たちを助けてくれないことがわかると思います。従来型メディア企業は前回の厳しい教訓を踏まえ、AI企業と積極的にライセンス契約を結び、ある程度の対価を得てきた。新興メディア企業も、自社のプラットフォーム上で共有されているユーザー生成コンテンツのモデル トレーニングを、実際には行っていないと主張していても活用しています。しかし、独立したクリエイターは大きく取り残されています。
Part.2コンピューティング: 現代のメディア
多くのクリエイターが、生成 AI が自分たちの能力を損なうと感じている理由は簡単にわかります。また、この懸念はほぼ正当であると私は考えています。しかし、私はまた、コンピューティングがコミュニケーションの手段としてだけでなく創造の手段としても考えることを求める新しい方法で開発されていることについて考える機会があるとも思います。
ビデオ ゲームやジェネレーティブ アートを作成したことのある人にとって、創造的な媒体としてのコンピューティングの概念は新しいものではありません。しかし、今日でも多くの人がこのことを実際には理解していません。ソフトウェアは最初のデジタル ネイティブ メディア カテゴリであり、ほとんどの人は主に「サービス」、「ユーティリティ」、「最適化」の観点からソフトウェアを理解しており、必ずしも創造的な表現の観点からは理解していません。現在、生成 AI はこのアイデアを非常に直接的な方法で推進しており、他のほぼすべてのメディアで制作コストをゼロに削減しています。これは、「それでは、人間の創造性はどこにあるのでしょうか? 職人技の価値はどこにあるのでしょうか?」という実存的な疑問を提起しているように思えます。
私の答えはおそらく驚くべきことではありません: 「それはプログラム可能なレベルです。」私の意味をさらに詳しく調べる前に、理解する必要がある重要な技術概念がいくつかあります。
2.1 ニューラル ネットワーク 101 (初心者向け)
トレーニングは基本的に、多数の例を提供することによってタスクを完了する方法をモデルに「教え」、モデルがパターンを見つけ、新しい入力に基づいて予測し、間違いがあった場合に自動的に修正できるようにするプロセスです。概念的には、これは私たちが絵を描くことを学ぶ方法と似ています。まず形を模倣することから始めて、オリジナルの作品を作成できるようになり、同時に仲間や教師からのフィードバックを利用してスキルを継続的に向上させます。もちろん、重要な違いがあります。たとえば、テキスト生成モデルは、あなたや私のように書き方を学習するわけではありませんが、非常に高い精度で書き方をシミュレートすることを学習します。これは、「エージェント」よりも「シミュレーター」がニューラル ネットワークのメンタル モデルとしてより適しているという意見に私がますます同意する多くの理由の 1 つです。
潜在空間、または私が「高次元可能空間」と呼びたいのは、トレーニング中に学習した内容が圧縮された形式で表現されるニューラル ネットワーク内の表現空間です。比喩的に言えば、これは、トレーニング データ内のさまざまな検出可能な特徴間の複雑な関係を理解するためにモデルが構築する「内部世界モデル」に似ています。潜在空間の概念を理解することは、ニューラル ネットワークを創造的なツールおよび媒体として理解するための鍵となります。
潜在空間の視覚化 #1 — 既知の埋め込み間を補間する
潜在空間の視覚化 #2 — 多次元の属性と関係のさまざまな埋め込みの表現
埋め込み: 埋め込みは、入力を潜在空間内の特定の点にマッピングするプロセスとみなすことができます。これは基本的に、プロンプトをモデルの「思考言語」に変換するプロセスです。このようにして、モデルの潜在空間を探索しナビゲートする方法として「ヒント」を理解することができます。つまり、ヒントに熟達すると、モデルの潜在空間の形状についての直観が養われ、モデルをガイドできるようになります。特定の期待される出力を生成します。
ニューラル ネットワークをいじる楽しみの 1 つは、その深部の内部動作が私たちにとって謎のままであることです。ただし、これらの基本概念は、ニューラル ネットワークを創造的なツールとして考えるために必要な背景を提供できると思います。
Part.3ニューラルネットワーク: 新しい革新的なパラダイム
コンピューター メディアの中核は、最終出力 (歌、画像、ビデオ、テキスト) に重点を置くのではなく、システムやプロセスに重点を置くようにシフトする必要があるということです。ニューラル ネットワークの特定のケースでは、これは、ニューラル ネットワークを単に特定のメディアの生成ツールとしてではなく、プログラム可能なメディア生成エンジンとして考える必要があることを意味します。このレンズを通して、 「人間の創造性と職人技の価値はどこにあるのか?」という上記の質問に対する答えを発見しました。それは、トレーニング プロセスとモデル アーキテクチャの設計にあります。これを私は「プログラミング レベルで」と呼んでいます。 」
xhairymutantx は、ホリー・ハーンドンとマット・ドライハートのコラボレーションです。モデルはホリーの写真に基づいて厳密にトレーニングされており、入力プロンプトに関係なく、彼女の外見にインスピレーションを得た写真を生成します。
ニューラル ネットワークを人間の認知機能のソフトウェア ベースの抽象化を達成する試みとして考えると、モデルのトレーニングと設計が思考方法を教えることになることが明らかになります。
友達全員に「子供時代の思い出を思い出してください」という指示 (「プロンプト」) を与えることを想像してみてください。生成されるコンテンツは個人的な背景と想像力 (つまり、「トレーニング」データ) に依存するため、答えは明らかに異なります。 )。複数のプロンプトの後、一部の友人は一貫してより美しく、創造的な応答を生成でき、おそらく特定の個人的なスタイルを示すことさえあることに気づくかもしれません。では、これまでに存在したすべての人間の脳でこの演習を行うことができたらどうなるでしょうか?ピカソやカニエ・ウェストのような、特にユニークな人間の脳を選び出すことができたらどうでしょうか?
これは本質的に、ニューラル ネットワークが私たちに与える創造的なスーパーパワー、つまり他の心を創造的なツールとして使用する能力です。ここで私が本当に魅力的だと思うのは、モデルの特定の出力ではなく、ユニークなアイデアやユニークな作品を生み出すことができる「ソフトウェア脳」を創造的にプログラムする機会です。
Arcade.aiは、ユーザーが独自のジュエリー製品をデザインできるようにする「チップから製品まで」のマーケットプレイスです。彼らは、エンドユーザーが製造に使用できる素材のみを使用して、ジュエリーの高忠実度の画像を生成するようにモデルを特別に調整しました。
システムが出力よりも重要であるという考えをさらに詳しく調べると、ニューラル ネットワークと対話する際のもう 1 つの特徴は、プロンプトと応答の継続的なフィードバック ループに関与することです。この経験を読み書きの経験に喩える人もいると聞きました。ループ。私は個人的に、モデルにプロンプトを送信して出力を受け取った後にインタラクションを終了することがほとんどないことに気づきました。モデルとのほぼすべてのやり取りで、この対話型のフィードバック ループが発生し、繰り返し、反映し、探索し続けます。これは微妙に思えるかもしれませんが、ニューラル ネットワークによって生成されるメディアの種類を理解するための鍵となります。
3.1 エージェントベースのメディア
この概念については、以前の記事で簡単に説明しましたが、核となるアイデアは非常にシンプルです。ここでは、モデルは、ある種の人間の仲間の役割をシミュレートし、テキストでの会話を通じて私たちと対話しますが、他の言語で私たちと対話し、理解することもできます。メディアが反応した。ここでは、一部のモデルが他のモデルに代わって、または自分自身に代わってアクション (金融取引の実行など) を実行できることもわかります。典型的な例には、チャットボット、AI コンパニオン、ゲーム内の NPC (ノンプレイヤー キャラクター)、またはその他の擬人化されたユーザー エクスペリエンスが含まれます。たとえば、Andy Ayrey の創造的な実験「Infinite Backrooms」は、人間の介入なしで通信するために複数の Claude インスタンスをセットアップすることにより、特に興味深い事例です。
3.2 リアルタイムゲームエンジン
ここで、モデルは、ゲーム内のユーザー アクションをプロンプトとして受信することによって、ゲーム内の応答出力の次のフレームを生成するゲーム エンジン(より具体的には、ゲーム状態遷移関数) をシミュレートします。十分に高速であれば、ユーザーのアクションに基づいてリアルタイムでレンダリングされる仮想世界をナビゲートするのと同じようなエクスペリエンスが得られます。これは究極の没入型でインタラクティブなメディアです。
DOOMゲーム フレームは、Google の論文「Diffusion Model is a Real-Time Game Engine」で説明されているように、完全にニューラル モデルによって駆動されるゲーム エンジンである GameNGen によって生成されます。
3.3 マルチバースジェネレータ
このシナリオでは、モデルは創造的な「神託」として機能し、無限のバリエーションを生成することで元のアイデアを拡張するのに役立ち、それぞれをさらに調査して操作できます。これにより、あらゆるアイデアやコンセプトから始めて、その周囲の可能性の空間を探索することができます。たとえば、AI Dungeon (テキストベースの「自分の冒険を選択する」ゲーム) はその好例です。
@repligate が提供する Chat GPT などの言語モデル用のツリーベースの書き込みインターフェイスであるLoomのユーザー インターフェイス ビュー。
3.4 創造的なツールとしての潜在空間
私は、「可能性の空間を探索する」というこの考え方が、ニューラル ネットワークを創造的なツールおよび媒体として理解する上で中心となるものであるとますます信じています。 Midjourney、Suno、Websim、Claude などのツールを使用して作業していると、ワークフローの多くが次のパターンに要約されることに気づきました。
プロンプト → 特定の出力のバリアントを生成 → そのバリアントを新しい出力のプロンプトとして使用 → 特定のバリアントを生成 → など...
たとえば、AI 主導の音楽生成ツールである Suno を使用する場合、私は通常、人が歌っている 60 秒の例とプロンプトとして書かれた歌詞をモデルに提供します。次に、Cover 関数を使用して出力を生成し、その出力の 10 以上のバリエーションを生成し、それらのバリエーションから気に入った部分をさらなるプロンプトの入力として抽出します。
本質的に、私はモデルの潜在空間における私の個人的な例を中心に可能性空間を探索しています。つまり、自分だけでは思いつかなかった、または妥当な時間内で完了できなかった可能性のある、オリジナルの作品に基づいたバリエーションを発見しています。 。このアプローチにより、前例のない迅速なプロトタイピングと作成テストのプロセスが可能になり、ソフトウェアの世界で議論されている「AI を活用した 100 倍のエンジニア」に似た「100 倍のクリエイター」の創出につながると思います。
潜在的な空間は創造的なツールであることが私には明らかになりました。クリエイティブな制作に人工知能を使用することは、強力なモデルをトレーニングすることだけでなく、ユーザーが潜在的な可能性を秘めた広大な空間をより高い精度と細かい粒度で探索および操作できるようにするインターフェイスを設計することも意味します。
Part.4消費者行動と文化的影響
このテクノロジーが消費者の行動をどのように変え、どのような新たなビジネスチャンスを生み出すかについて、私が考えている 3 つの予測を以下に示します。
4.1 クリエイティブツールになる
プロンプトは、テキストベース、画像ベース、その他のインタラクション形式を問わず、ますます多くのインターフェイスやエクスペリエンスに組み込まれており、これまで探求されていなかった領域にエンドユーザーの創造性をもたらします。 Scott Belsky 氏は、「GenAI の初期の『プロンプトベース』のテキストから画像への生成の時代は創造性を低下させましたが、『コントロール』の時代は想像を絶する方法で人間の創造性を解き放ちました。ツールは進化し続けていますが、創造的なビジョン、精度、センスは依然として重要です」と指摘しています。ほとんどのプロンプトは最終的には「コントロール」(コントロール:ユーザーインターフェイスを備えたコンポーネント)に抽象化され、ユーザーは意識せずに操作できるようになるでしょう。しかし、もっと重要なことは、この傾向がインターフェース デザインに対する私たちの考え方を根本的に変えつつあることだと私は考えています。
4.2 エンタープライズメディア → ユーザー生成メディア → マシン生成メディア
メディア ビジネス モデルにおける最後の大きな変化は、企業が作成したメディアから完全にユーザーが作成したメディアへの移行でした。次の主要な消費者メディア ビジネス モデルは、機械生成メディアの普及を中心に構築されるようになりました。ただし、「勝者」がどのようなものであるかはまだ不明です。ミッドジャーニーのような一般的なモデルになるのでしょうか?より特化したクリエイティブツール?それともこれらのテクノロジーに基づいたソーシャル体験でしょうか?それとも、それほど明白ではない第三の選択肢でしょうか?
いずれにせよ、あなたが今日の消費者メディア分野の創設者または独立系クリエイターであれば、これらのツールをどのように活用してビジネスの価値を高め、成長を促進できるかについて戦略を立てたいと思うかもしれません。
さらに、注目に値するもう 1 つの領域は、 AI 主導のエクスペリエンスをよりソーシャルでマルチユーザーの共同作業にどのようにするかということだと思います。私の個人的な経験を例に挙げると、今日のほとんどの AI アプリケーションは非常に「反社会的」であるように見えます。これは、他の人とではなく主にモデルと対話するためです。この分野には、人間中心の共同オーサリング体験の構築や、人間とロボットがより有意義な社会的相互作用を達成するための新しい方法の作成など、多くの機会と設計空間がある可能性があります。
4.3 知的財産権への影響
クリエイティブな制作コストがゼロになっただけでなく、特に美的模倣のコストもゼロになりつつあります。人の服装の写真を撮り、それを Midjourney に入力して、同じスタイルでソファをデザインすることができます。その人の声や文体などを同じようなスタイルで転送することもできます。この新しいパラダイムにおける知的財産の価値と重要性は何でしょうか?
答えはまだ見つかっていないが、どうやらこれまでの仮定やメンタルモデルのほとんどは当てはまらないようだ。
Part.5仮想通貨の役割と概要
ここまで読んでくださった方、お待たせいたしました!
これらが仮想通貨に与える影響については今後の記事で詳しく説明しますが、今のところは、次に焦点を当てていくいくつかの方向性のプレビューです。
暗号通貨企業が新しいメディアを中心に構築する機会
オンチェーン市場と機械生成メディアの交差点における可能性を探ります。
知的財産のインセンティブ層としての暗号
帰属と追跡可能性を超えて、メディアを中心としたインセンティブのメカニズムとネットワークの構築について考えてください。
メディアの収益化およびアクセス制御層としての暗号化
特にユーザー生成ソフトウェアの分野では、Web ページのアーキテクチャを再考し、小規模モデルのビジネス モデルとして「ミント」を使用し、個人プログラムやユーザー生成ソフトウェアのインフラストラクチャとして NFT を使用します。
人間と機械の間の社会的および経済的調整層としての暗号通貨
人間と AI のコラボレーションをサポートして、さまざまな問題を特定し、資金を提供し、解決します。コミュニティが所有および運営するモデルを検討します。
元のリンク:
https://paragraph.xyz/@eclecticcapital.eth/neural-media
著者: ナタリー
*Coinspireプラットフォーム上のすべてのコンテンツは参照のみを目的としており、いかなる投資戦略の提案または推奨を構成するものではありません。この記事の内容に基づいて行われる個人的な決定は投資家の単独の責任であり、Coinspireはいかなる責任も負いません。その結果生じる利益または損失。投資にはリスクが伴いますので、意思決定には注意してください。