AIxDePIN:この2つのホットトラックの衝突から、どのような新しい機会が生まれるのでしょうか?

初級編1/26/2024, 6:20:04 AM
本稿では、DePINがAIにもたらす変化と、AIの学習効率化やAI普及の可能性について解説します。

AIテクノロジーの進歩は、アルゴリズム、コンピューティング能力、データの力を活用することで、データ処理とインテリジェントな意思決定の境界を再定義しています。 同時に、DePINは、中央集権的なインフラストラクチャから分散型のブロックチェーンベースのネットワークへのパラダイムシフトを表しています。

世界がデジタルトランスフォーメーションに向けて加速する中、AIとDePIN(分散型物理インフラ)は、業界全体の変革を推進する基盤技術となっています。 AIとDePINの融合は、迅速な技術反復と広範なアプリケーションを促進するだけでなく、より安全で透明性が高く、効率的なサービスモデルを開き、世界経済に大きな変化をもたらします。

DePIN:分散化は仮想から現実に移行し、デジタル経済の主力

DePINとは、Decentralized Physical Infrastructureの略称です。 狭義には、DePINは主に、電力ネットワーク、通信ネットワーク、測位ネットワークなど、分散型台帳技術によってサポートされている従来の物理インフラストラクチャの分散ネットワークを指します。大まかに言えば、ストレージネットワークやコンピューティングネットワークなど、物理デバイスがサポートするすべての分散ネットワークをDePINと呼ぶことができます。

画像ソース:Messari

暗号が金融レベルで分散型の変化をもたらしたとすれば、DePINは実体経済における分散型ソリューションです。 PoWマイニングマシンは一種のDePINであると言えます。 つまり、DePINは当初からWeb3の中核的な柱となってきたのです。

AIの3つの要素(アルゴリズム、コンピューティングパワー、データ)。 DePINは2つの

人工知能の開発は、一般的に、アルゴリズム、計算能力、データの3つの重要な要素に依存していると考えられています。 アルゴリズムとは、AIシステムを駆動する数学的モデルとプログラムロジックを指し、計算能力とは、これらのアルゴリズムを実行するために必要なコンピューティングリソースを指し、データはAIモデルのトレーニングと最適化の基礎となります。

3つの要素のうち、最も重要なのはどれですか? chatGPTが登場する前は、アルゴリズムとして捉えるのが普通で、そうでなければ学会や雑誌論文でアルゴリズムの微調整が次々と行われることはありませんでした。 しかし、chatGPTとその知能を支える大規模言語モデルLLMが発表されると、人々は後者の2つの重要性に気づき始めました。 膨大な計算能力は、モデル誕生の前提条件です。 データの品質と多様性は、堅牢で効率的なAIシステムを構築するために不可欠です。 それに比べて、アルゴリズムの要件は以前ほど厳しくなくなりました。

大規模モデルの時代には、AIは微調整からブルートフォースに移行し、計算能力とデータに対する需要が高まっています。 DePINはたまたまそれを提供することができます。 トークンのインセンティブはロングテール市場を活用し、大規模な消費者グレードのコンピューティングパワーとストレージが大規模モデルにとって最良の栄養となるでしょう。

AIの分散化は選択肢ではなく、必要不可欠

もちろん、AWSのデータセンターで計算能力とデータの両方が利用可能であり、さらにAWSが安定性とユーザーエクスペリエンスの点でDePINよりも優れているのに、なぜ集中型サービスよりもDePINを選択するのかと疑問に思う人もいるかもしれません。

この発言には当然、それなりの理由があります。 結局のところ、現状を見ると、ほとんどすべての大規模モデルは、大手インターネット企業によって直接的または間接的に開発されています。 chatGPTの背後にはMicrosoftがあり、Geminiの背後にはGoogleがいます。 中国では、ほとんどすべての主要なインターネット企業が大規模なモデルを持っています。 それはどうしてですか。 それは、高品質のデータと強力な資金源に支えられた計算能力を持っているのは、大手インターネット企業だけだからです。 しかし、これは正しくありません。 人々はもはやインターネットの巨人に操作されることを望んでいません。

一方では、中央集権的なAIはデータのプライバシーとセキュリティのリスクを伴い、検閲と管理の対象となる可能性があります。 一方、インターネットの巨人が生み出すAIは、人々の依存をさらに強め、市場の集中につながり、イノベーションの障壁を高めます。

から: https://www.gensyn.ai/

AI時代には、人類はもはやマルティン・ルターを必要としないはずです。 人々は神と直接話す権利を持つべきです。

ビジネスの観点から見たDePIN:コスト削減と効率向上が鍵

分散化と中央集権化の価値の議論を脇に置いても、ビジネスの観点からは、AIにDePINを使用することにはまだ利点があります。

まず、インターネットの巨人が多数のハイエンドグラフィックスカードリソースを制御しているにもかかわらず、個人の手に消費者グレードのグラフィックスカードの組み合わせは、コンピューティングパワーのロングテール効果として知られる重要なコンピューティングパワーネットワークを形成する可能性があることを認識することが重要です。 これらのコンシューマーグレードのグラフィックスカードは、多くの場合、アイドル率が高くなります。 DePINが提供するインセンティブが電気代を上回っている限り、ユーザーは自分のコンピューティングパワーをネットワークに貢献するモチベーションを持つことができます。 さらに、ユーザーが物理インフラストラクチャを自分で管理することで、DePINネットワークは中央集権的なサプライヤーが避けられない運用コストを負担せず、プロトコル設計のみに集中できます。

データについては、DePINネットワークは、エッジコンピューティングやその他の方法を通じて、データの潜在的な有用性を解き放ち、伝送コストを削減することができます。 さらに、ほとんどの分散ストレージネットワークには自動重複排除機能が搭載されているため、AIトレーニングでの大規模なデータクリーニングの必要性が軽減されます。

最後に、DePINがもたらす暗号経済性は、システムのフォールトトレランスを強化し、プロバイダー、消費者、プラットフォームにとってWin-Winの状況を実現する可能性を秘めています。

画像提供:UCLA

信じられないかもしれませんが、UCLAの最新の調査によると、分散型コンピューティングを使用すると、同じコストで従来のGPUクラスターよりも2.75倍優れたパフォーマンスが達成されます。 具体的には、1.22倍高速、4.83倍安価です。

前途多難な道のり:AIxDePINはどのような課題に直面するのか?

この10年間に、私たちが月に行ったり、他のことをしたりすることを選ぶのは、それが簡単だからではなく、難しいからです。 - ジョン・フィッツジェラルド・ケネディ

DePINの分散ストレージと分散コンピューティングを使用して、信頼せずにAIモデルを構築するには、依然として多くの課題があります。

作業検証

基本的に、ディープラーニングモデルの計算とPoWマイニングはどちらも一般的な計算の形式であり、ゲート回路間で基礎となる信号が変化します。 マクロレベルでは、PoWマイニングは「役に立たない計算」であり、無数の乱数生成とハッシュ関数計算を通じて、n個のゼロのプレフィックスを持つハッシュ値を見つけようとします。 一方、深層学習の計算は、深層学習における各層のパラメータ値を順伝搬と逆伝播によって計算し、効率的なAIモデルを構築する「有用な計算」です。

事実、PoWマイニングなどの「役に立たない計算」にはハッシュ関数が使われています。 元の画像から画像を計算するのは簡単ですが、画像から元の画像を計算することは難しいため、誰でも簡単かつ迅速に計算の妥当性を検証できます。深層学習モデルの計算では、階層構造のため、各層の出力を次の層の入力として使用します。 したがって、計算の妥当性を検証するには、これまでのすべての作業を実行する必要があり、簡単かつ効果的に検証することはできません。

画像元:AWS

作業の検証は非常に重要であり、そうでなければ、計算のプロバイダーは計算をまったく実行できず、ランダムに生成された結果を送信することができませんでした。

1つのアイデアは、異なるサーバに同じ計算タスクを実行させ、実行を繰り返して同じかどうかをチェックすることで作業の有効性を検証することです。 しかし、モデル計算の大部分は非決定論的であり、まったく同じ計算環境下でも同じ結果を再現することはできず、統計的な意味でのみ類似することができます。 さらに、二重計上はコストの急激な増加につながり、コスト削減と効率の向上というDePINの主要な目標と矛盾します。

また、楽観的なメカニズムは、結果が正しく計算され、誰でも計算結果を検証できると楽観的に仮定するものです。 エラーが見つかった場合は、詐欺証明を提出できます。 このプロトコルは、詐欺師にペナルティを課し、内部告発者に報酬を与えます。

並列

前述したように、DePINは主にロングテールのコンシューマコンピューティングパワー市場を活用しているため、単一のデバイスによって提供されるコンピューティングパワーは比較的限られています。 大規模なAIモデルの場合、1つのデバイスでの学習には非常に長い時間がかかるため、並列化を使用して学習時間を短縮する必要があります。

深層学習の学習を並列化する上での主な難しさは、前後のタスクの依存関係にあり、並列化の実現を困難にしています。

現在、深層学習学習の並列化は、主にデータ並列処理とモデル並列処理に分けられます。

データの並列処理とは、複数のマシンにデータを分散することを指します。 各マシンは、モデルのすべてのパラメーターを保存し、トレーニングにローカル データを使用し、最後に各マシンのパラメーターを集計します。 データの並列処理は、データ量が多い場合に適していますが、パラメーターを集計するには同期通信が必要です。

モデルの並列処理とは、モデルのサイズが大きすぎて 1 台のマシンに収まらない場合に、モデルを複数のマシンに分割し、各マシンでモデルのパラメーターの一部を保存することを意味します。 順方向と逆方向の伝播には、異なるマシン間の通信が必要です。 モデルの並列処理は、モデルが大きい場合に利点がありますが、順方向および逆方向の伝播時の通信オーバーヘッドが大きくなります。

異なるレイヤー間のグラデーション情報は、同期更新と非同期更新に分けることができます。 同期更新は単純で直接的ですが、待ち時間が長くなります。非同期更新アルゴリズムは待機時間が短いですが、安定性の問題が発生します。

画像提供:Stanford University, Parallel and Distributed Deep Learning

プライバシー規約

個人のプライバシーを保護する世界的な傾向が高まっており、世界中の政府が個人データのプライバシー保護のセキュリティを強化しています。 AIは公開データセットを広範に利用していますが、さまざまなAIモデルを真に差別化しているのは、各企業独自のユーザーデータです。

プライバシーをさらすことなく、トレーニング中に独自のデータの利点を得るにはどうすればよいでしょうか? 構築したAIモデルのパラメータが漏洩しないようにするには?

これらは、プライバシーの 2 つの側面、データ プライバシーとモデル プライバシーです。 データプライバシーはユーザーを保護し、モデルプライバシーはモデルを構築する組織を保護します。 現在のシナリオでは、データのプライバシーはモデルのプライバシーよりもはるかに重要です。

プライバシーの問題に対処するために、さまざまな解決策が試みられています。 フェデレーテッドラーニングは、データのソースでトレーニングし、データをローカルに保持し、モデルパラメータを送信することで、データのプライバシーを確保します。そして、ゼロ知識証明は期待の星になるかもしれません。

ケース分析:市場に出回っている高品質のプロジェクトは何ですか?

ゲンシン

Gensyn は、AI モデルのトレーニング用に設計された分散コンピューティング ネットワークです。 このネットワークは、Polkadotをベースにしたレイヤー1のブロックチェーンを利用して、ディープラーニングタスクの適切な実行を検証し、コマンドを介して支払いをトリガーします。 2020年に設立され、2023年6月に4,300万ドルのシリーズA資金調達ラウンドを発表し、a16zが投資を主導しました。

Gensynは、勾配ベースの最適化プロセスのメタデータを使用して、実行された作業の証明書を構築し、多粒のグラフベースの精密プロトコルおよびクロスエバリュエーターによって一貫して実行され、検証ジョブが再実行され、一貫性について比較され、最終的にチェーンによって計算の妥当性を確認するために自分で確認します。 作業検証の信頼性をさらに強化するため、ジェンシンはステーキングを導入し、インセンティブを創出しています。

システムには、提出者、解決者、検証者、内部告発者の4種類の参加者がいます。

• 提出者は、計算するタスクを提供し、完了した作業単位に対して支払われるシステムのエンドユーザーです。
• ソルバーはシステムの主要なワーカーであり、モデルのトレーニングを実行し、検証者による検査のための証明を生成します。
• バリデーターは、非決定論的学習プロセスと決定論的線形計算をリンクし、部分的なソルバー証明を再現し、距離と予想されるしきい値を比較するための鍵となります。
•内部告発者は最後の防衛線であり、検証者の作業をチェックし、チャレンジを提起し、チャレンジに合格した後に報酬を受け取ります。

ソルバーは誓約を行う必要があり、内部告発者はソルバーの作業をテストします。 もし彼が悪事を発見したなら、彼はそれに異議を唱えるでしょう。 チャレンジが通過すると、ソルバーがステークしたトークンには罰金が科せられ、内部告発者には報酬が与えられます。

Gensynの予測によると、このソリューションにより、トレーニングコストを中央集権型プロバイダーの1/5に削減できると期待されています。

ソース: Gensyn

FedML (英語)

FedMLは、場所や規模を問わず、分散型AIと協調型AIのための分散型協調型機械学習プラットフォームです。 具体的には、FedML は、プライバシーを保護する方法でデータ、モデル、コンピューティング リソースを組み合わせてコラボレーションしながら、機械学習モデルのトレーニング、デプロイ、監視、および継続的な改善を行う MLOps エコシステムを提供します。 2022年に設立されたFedMLは、2023年3月に600万ドルのシードラウンドを公開しました。

FedML は、FedML-API と FedML-core の 2 つの主要コンポーネントで構成されており、それぞれ高レベル API と低レベル API を表します。

FedML-core には、分散通信とモデル トレーニングの 2 つの独立したモジュールが含まれています。 通信モジュールは、異なるワーカー/クライアント間の基盤となる通信を担当し、MPIに基づいています。モデル トレーニング モジュールは PyTorch に基づいています。

FedML-API は FedML-core 上に構築されています。 FedML-core を使用すると、クライアント指向のプログラミング インターフェイスを採用することで、新しい分散アルゴリズムを簡単に実装できます。

FedMLチームの最新の研究によると、コンシューマーグレードのGPU RTX 4090でAIモデル推論にFedML Nexus AIを使用すると、A100を使用するよりも20倍安価で1.88倍高速になります。

差出人: FedML

今後の展望:DePINがもたらすAIの民主化

いつの日か、AIはさらに汎用人工知能へと発展し、計算能力は事実上のユニバーサル通貨となるでしょう。 DePINは、このプロセスを事前に実行します。

AIとDePINの交差点とコラボレーションは、まったく新しい技術的成長のポイントを開き、人工知能の開発に大きな機会を提供しています。 DePINは、AIに大規模な分散コンピューティング能力とデータを提供し、より大規模なモデルをトレーニングし、より強力なインテリジェンスを実現するのに役立ちます。 同時に、DePINは、AIをよりオープンで安全で信頼性の高い方向に向けて開発することを可能にし、単一の集中型インフラストラクチャへの依存を減らします。

今後、AIとDePINは相乗効果を発揮して発展していきます。 分散ネットワークは、DePINアプリケーションで重要な役割を果たす超大規模モデルをトレーニングするための強力な基盤を提供します。 AIは、プライバシーとセキュリティを保護すると同時に、DePINネットワークプロトコルとアルゴリズムの最適化にも貢献します。 AIとDePINが、より効率的で公正、かつ信頼できるデジタル世界をもたらすことを期待しています。

免責事項:

  1. 本記事は[]より転載しています。 すべての著作権は原著作者に帰属します[**]。 この転載に異議がある場合は、 Gate Learn チームに連絡していただければ、迅速に対応いたします。
  2. 免責事項:Th
    e 本稿に記載されている見解や意見は、著者のものであり、投資アドバイスを構成するものではありません。
  3. 記事の他言語への翻訳は、Gate Learnチームによって行われます。 特に明記されていない限り、翻訳された記事を複製、配布、盗用することは禁止されています。

AIxDePIN:この2つのホットトラックの衝突から、どのような新しい機会が生まれるのでしょうか?

初級編1/26/2024, 6:20:04 AM
本稿では、DePINがAIにもたらす変化と、AIの学習効率化やAI普及の可能性について解説します。

AIテクノロジーの進歩は、アルゴリズム、コンピューティング能力、データの力を活用することで、データ処理とインテリジェントな意思決定の境界を再定義しています。 同時に、DePINは、中央集権的なインフラストラクチャから分散型のブロックチェーンベースのネットワークへのパラダイムシフトを表しています。

世界がデジタルトランスフォーメーションに向けて加速する中、AIとDePIN(分散型物理インフラ)は、業界全体の変革を推進する基盤技術となっています。 AIとDePINの融合は、迅速な技術反復と広範なアプリケーションを促進するだけでなく、より安全で透明性が高く、効率的なサービスモデルを開き、世界経済に大きな変化をもたらします。

DePIN:分散化は仮想から現実に移行し、デジタル経済の主力

DePINとは、Decentralized Physical Infrastructureの略称です。 狭義には、DePINは主に、電力ネットワーク、通信ネットワーク、測位ネットワークなど、分散型台帳技術によってサポートされている従来の物理インフラストラクチャの分散ネットワークを指します。大まかに言えば、ストレージネットワークやコンピューティングネットワークなど、物理デバイスがサポートするすべての分散ネットワークをDePINと呼ぶことができます。

画像ソース:Messari

暗号が金融レベルで分散型の変化をもたらしたとすれば、DePINは実体経済における分散型ソリューションです。 PoWマイニングマシンは一種のDePINであると言えます。 つまり、DePINは当初からWeb3の中核的な柱となってきたのです。

AIの3つの要素(アルゴリズム、コンピューティングパワー、データ)。 DePINは2つの

人工知能の開発は、一般的に、アルゴリズム、計算能力、データの3つの重要な要素に依存していると考えられています。 アルゴリズムとは、AIシステムを駆動する数学的モデルとプログラムロジックを指し、計算能力とは、これらのアルゴリズムを実行するために必要なコンピューティングリソースを指し、データはAIモデルのトレーニングと最適化の基礎となります。

3つの要素のうち、最も重要なのはどれですか? chatGPTが登場する前は、アルゴリズムとして捉えるのが普通で、そうでなければ学会や雑誌論文でアルゴリズムの微調整が次々と行われることはありませんでした。 しかし、chatGPTとその知能を支える大規模言語モデルLLMが発表されると、人々は後者の2つの重要性に気づき始めました。 膨大な計算能力は、モデル誕生の前提条件です。 データの品質と多様性は、堅牢で効率的なAIシステムを構築するために不可欠です。 それに比べて、アルゴリズムの要件は以前ほど厳しくなくなりました。

大規模モデルの時代には、AIは微調整からブルートフォースに移行し、計算能力とデータに対する需要が高まっています。 DePINはたまたまそれを提供することができます。 トークンのインセンティブはロングテール市場を活用し、大規模な消費者グレードのコンピューティングパワーとストレージが大規模モデルにとって最良の栄養となるでしょう。

AIの分散化は選択肢ではなく、必要不可欠

もちろん、AWSのデータセンターで計算能力とデータの両方が利用可能であり、さらにAWSが安定性とユーザーエクスペリエンスの点でDePINよりも優れているのに、なぜ集中型サービスよりもDePINを選択するのかと疑問に思う人もいるかもしれません。

この発言には当然、それなりの理由があります。 結局のところ、現状を見ると、ほとんどすべての大規模モデルは、大手インターネット企業によって直接的または間接的に開発されています。 chatGPTの背後にはMicrosoftがあり、Geminiの背後にはGoogleがいます。 中国では、ほとんどすべての主要なインターネット企業が大規模なモデルを持っています。 それはどうしてですか。 それは、高品質のデータと強力な資金源に支えられた計算能力を持っているのは、大手インターネット企業だけだからです。 しかし、これは正しくありません。 人々はもはやインターネットの巨人に操作されることを望んでいません。

一方では、中央集権的なAIはデータのプライバシーとセキュリティのリスクを伴い、検閲と管理の対象となる可能性があります。 一方、インターネットの巨人が生み出すAIは、人々の依存をさらに強め、市場の集中につながり、イノベーションの障壁を高めます。

から: https://www.gensyn.ai/

AI時代には、人類はもはやマルティン・ルターを必要としないはずです。 人々は神と直接話す権利を持つべきです。

ビジネスの観点から見たDePIN:コスト削減と効率向上が鍵

分散化と中央集権化の価値の議論を脇に置いても、ビジネスの観点からは、AIにDePINを使用することにはまだ利点があります。

まず、インターネットの巨人が多数のハイエンドグラフィックスカードリソースを制御しているにもかかわらず、個人の手に消費者グレードのグラフィックスカードの組み合わせは、コンピューティングパワーのロングテール効果として知られる重要なコンピューティングパワーネットワークを形成する可能性があることを認識することが重要です。 これらのコンシューマーグレードのグラフィックスカードは、多くの場合、アイドル率が高くなります。 DePINが提供するインセンティブが電気代を上回っている限り、ユーザーは自分のコンピューティングパワーをネットワークに貢献するモチベーションを持つことができます。 さらに、ユーザーが物理インフラストラクチャを自分で管理することで、DePINネットワークは中央集権的なサプライヤーが避けられない運用コストを負担せず、プロトコル設計のみに集中できます。

データについては、DePINネットワークは、エッジコンピューティングやその他の方法を通じて、データの潜在的な有用性を解き放ち、伝送コストを削減することができます。 さらに、ほとんどの分散ストレージネットワークには自動重複排除機能が搭載されているため、AIトレーニングでの大規模なデータクリーニングの必要性が軽減されます。

最後に、DePINがもたらす暗号経済性は、システムのフォールトトレランスを強化し、プロバイダー、消費者、プラットフォームにとってWin-Winの状況を実現する可能性を秘めています。

画像提供:UCLA

信じられないかもしれませんが、UCLAの最新の調査によると、分散型コンピューティングを使用すると、同じコストで従来のGPUクラスターよりも2.75倍優れたパフォーマンスが達成されます。 具体的には、1.22倍高速、4.83倍安価です。

前途多難な道のり:AIxDePINはどのような課題に直面するのか?

この10年間に、私たちが月に行ったり、他のことをしたりすることを選ぶのは、それが簡単だからではなく、難しいからです。 - ジョン・フィッツジェラルド・ケネディ

DePINの分散ストレージと分散コンピューティングを使用して、信頼せずにAIモデルを構築するには、依然として多くの課題があります。

作業検証

基本的に、ディープラーニングモデルの計算とPoWマイニングはどちらも一般的な計算の形式であり、ゲート回路間で基礎となる信号が変化します。 マクロレベルでは、PoWマイニングは「役に立たない計算」であり、無数の乱数生成とハッシュ関数計算を通じて、n個のゼロのプレフィックスを持つハッシュ値を見つけようとします。 一方、深層学習の計算は、深層学習における各層のパラメータ値を順伝搬と逆伝播によって計算し、効率的なAIモデルを構築する「有用な計算」です。

事実、PoWマイニングなどの「役に立たない計算」にはハッシュ関数が使われています。 元の画像から画像を計算するのは簡単ですが、画像から元の画像を計算することは難しいため、誰でも簡単かつ迅速に計算の妥当性を検証できます。深層学習モデルの計算では、階層構造のため、各層の出力を次の層の入力として使用します。 したがって、計算の妥当性を検証するには、これまでのすべての作業を実行する必要があり、簡単かつ効果的に検証することはできません。

画像元:AWS

作業の検証は非常に重要であり、そうでなければ、計算のプロバイダーは計算をまったく実行できず、ランダムに生成された結果を送信することができませんでした。

1つのアイデアは、異なるサーバに同じ計算タスクを実行させ、実行を繰り返して同じかどうかをチェックすることで作業の有効性を検証することです。 しかし、モデル計算の大部分は非決定論的であり、まったく同じ計算環境下でも同じ結果を再現することはできず、統計的な意味でのみ類似することができます。 さらに、二重計上はコストの急激な増加につながり、コスト削減と効率の向上というDePINの主要な目標と矛盾します。

また、楽観的なメカニズムは、結果が正しく計算され、誰でも計算結果を検証できると楽観的に仮定するものです。 エラーが見つかった場合は、詐欺証明を提出できます。 このプロトコルは、詐欺師にペナルティを課し、内部告発者に報酬を与えます。

並列

前述したように、DePINは主にロングテールのコンシューマコンピューティングパワー市場を活用しているため、単一のデバイスによって提供されるコンピューティングパワーは比較的限られています。 大規模なAIモデルの場合、1つのデバイスでの学習には非常に長い時間がかかるため、並列化を使用して学習時間を短縮する必要があります。

深層学習の学習を並列化する上での主な難しさは、前後のタスクの依存関係にあり、並列化の実現を困難にしています。

現在、深層学習学習の並列化は、主にデータ並列処理とモデル並列処理に分けられます。

データの並列処理とは、複数のマシンにデータを分散することを指します。 各マシンは、モデルのすべてのパラメーターを保存し、トレーニングにローカル データを使用し、最後に各マシンのパラメーターを集計します。 データの並列処理は、データ量が多い場合に適していますが、パラメーターを集計するには同期通信が必要です。

モデルの並列処理とは、モデルのサイズが大きすぎて 1 台のマシンに収まらない場合に、モデルを複数のマシンに分割し、各マシンでモデルのパラメーターの一部を保存することを意味します。 順方向と逆方向の伝播には、異なるマシン間の通信が必要です。 モデルの並列処理は、モデルが大きい場合に利点がありますが、順方向および逆方向の伝播時の通信オーバーヘッドが大きくなります。

異なるレイヤー間のグラデーション情報は、同期更新と非同期更新に分けることができます。 同期更新は単純で直接的ですが、待ち時間が長くなります。非同期更新アルゴリズムは待機時間が短いですが、安定性の問題が発生します。

画像提供:Stanford University, Parallel and Distributed Deep Learning

プライバシー規約

個人のプライバシーを保護する世界的な傾向が高まっており、世界中の政府が個人データのプライバシー保護のセキュリティを強化しています。 AIは公開データセットを広範に利用していますが、さまざまなAIモデルを真に差別化しているのは、各企業独自のユーザーデータです。

プライバシーをさらすことなく、トレーニング中に独自のデータの利点を得るにはどうすればよいでしょうか? 構築したAIモデルのパラメータが漏洩しないようにするには?

これらは、プライバシーの 2 つの側面、データ プライバシーとモデル プライバシーです。 データプライバシーはユーザーを保護し、モデルプライバシーはモデルを構築する組織を保護します。 現在のシナリオでは、データのプライバシーはモデルのプライバシーよりもはるかに重要です。

プライバシーの問題に対処するために、さまざまな解決策が試みられています。 フェデレーテッドラーニングは、データのソースでトレーニングし、データをローカルに保持し、モデルパラメータを送信することで、データのプライバシーを確保します。そして、ゼロ知識証明は期待の星になるかもしれません。

ケース分析:市場に出回っている高品質のプロジェクトは何ですか?

ゲンシン

Gensyn は、AI モデルのトレーニング用に設計された分散コンピューティング ネットワークです。 このネットワークは、Polkadotをベースにしたレイヤー1のブロックチェーンを利用して、ディープラーニングタスクの適切な実行を検証し、コマンドを介して支払いをトリガーします。 2020年に設立され、2023年6月に4,300万ドルのシリーズA資金調達ラウンドを発表し、a16zが投資を主導しました。

Gensynは、勾配ベースの最適化プロセスのメタデータを使用して、実行された作業の証明書を構築し、多粒のグラフベースの精密プロトコルおよびクロスエバリュエーターによって一貫して実行され、検証ジョブが再実行され、一貫性について比較され、最終的にチェーンによって計算の妥当性を確認するために自分で確認します。 作業検証の信頼性をさらに強化するため、ジェンシンはステーキングを導入し、インセンティブを創出しています。

システムには、提出者、解決者、検証者、内部告発者の4種類の参加者がいます。

• 提出者は、計算するタスクを提供し、完了した作業単位に対して支払われるシステムのエンドユーザーです。
• ソルバーはシステムの主要なワーカーであり、モデルのトレーニングを実行し、検証者による検査のための証明を生成します。
• バリデーターは、非決定論的学習プロセスと決定論的線形計算をリンクし、部分的なソルバー証明を再現し、距離と予想されるしきい値を比較するための鍵となります。
•内部告発者は最後の防衛線であり、検証者の作業をチェックし、チャレンジを提起し、チャレンジに合格した後に報酬を受け取ります。

ソルバーは誓約を行う必要があり、内部告発者はソルバーの作業をテストします。 もし彼が悪事を発見したなら、彼はそれに異議を唱えるでしょう。 チャレンジが通過すると、ソルバーがステークしたトークンには罰金が科せられ、内部告発者には報酬が与えられます。

Gensynの予測によると、このソリューションにより、トレーニングコストを中央集権型プロバイダーの1/5に削減できると期待されています。

ソース: Gensyn

FedML (英語)

FedMLは、場所や規模を問わず、分散型AIと協調型AIのための分散型協調型機械学習プラットフォームです。 具体的には、FedML は、プライバシーを保護する方法でデータ、モデル、コンピューティング リソースを組み合わせてコラボレーションしながら、機械学習モデルのトレーニング、デプロイ、監視、および継続的な改善を行う MLOps エコシステムを提供します。 2022年に設立されたFedMLは、2023年3月に600万ドルのシードラウンドを公開しました。

FedML は、FedML-API と FedML-core の 2 つの主要コンポーネントで構成されており、それぞれ高レベル API と低レベル API を表します。

FedML-core には、分散通信とモデル トレーニングの 2 つの独立したモジュールが含まれています。 通信モジュールは、異なるワーカー/クライアント間の基盤となる通信を担当し、MPIに基づいています。モデル トレーニング モジュールは PyTorch に基づいています。

FedML-API は FedML-core 上に構築されています。 FedML-core を使用すると、クライアント指向のプログラミング インターフェイスを採用することで、新しい分散アルゴリズムを簡単に実装できます。

FedMLチームの最新の研究によると、コンシューマーグレードのGPU RTX 4090でAIモデル推論にFedML Nexus AIを使用すると、A100を使用するよりも20倍安価で1.88倍高速になります。

差出人: FedML

今後の展望:DePINがもたらすAIの民主化

いつの日か、AIはさらに汎用人工知能へと発展し、計算能力は事実上のユニバーサル通貨となるでしょう。 DePINは、このプロセスを事前に実行します。

AIとDePINの交差点とコラボレーションは、まったく新しい技術的成長のポイントを開き、人工知能の開発に大きな機会を提供しています。 DePINは、AIに大規模な分散コンピューティング能力とデータを提供し、より大規模なモデルをトレーニングし、より強力なインテリジェンスを実現するのに役立ちます。 同時に、DePINは、AIをよりオープンで安全で信頼性の高い方向に向けて開発することを可能にし、単一の集中型インフラストラクチャへの依存を減らします。

今後、AIとDePINは相乗効果を発揮して発展していきます。 分散ネットワークは、DePINアプリケーションで重要な役割を果たす超大規模モデルをトレーニングするための強力な基盤を提供します。 AIは、プライバシーとセキュリティを保護すると同時に、DePINネットワークプロトコルとアルゴリズムの最適化にも貢献します。 AIとDePINが、より効率的で公正、かつ信頼できるデジタル世界をもたらすことを期待しています。

免責事項:

  1. 本記事は[]より転載しています。 すべての著作権は原著作者に帰属します[**]。 この転載に異議がある場合は、 Gate Learn チームに連絡していただければ、迅速に対応いたします。
  2. 免責事項:Th
    e 本稿に記載されている見解や意見は、著者のものであり、投資アドバイスを構成するものではありません。
  3. 記事の他言語への翻訳は、Gate Learnチームによって行われます。 特に明記されていない限り、翻訳された記事を複製、配布、盗用することは禁止されています。
今すぐ始める
登録して、
$100
のボーナスを獲得しよう!
It seems that you are attempting to access our services from a Restricted Location where Gate is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Thailand, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.