AI データセンター環境における超高密度 400 および 800 Gig ネットワークの運用
2025 年 10 月 6 日 / 一般、インストールとテスト、ベストプラクティス
人工知能 (AI) はデータ・センターのあり方を急速に変えています。ChatGPT などの大規模言語モデル (LLM) のトレーニングから、パーソナライズされたコンテンツや予測分析の提供まで、ハイパースケーラー、クラウド・プロバイダー、大企業は、高速化された並列処理を活用して AI の可能性を引き出すハイパフォーマンス・コンピューティング (HPC) ネットワークを構築しています。ここでは、こうした AI ネットワークがどのように展開されているのか、そしてそれがもたらすケーブル・テストの課題について見ていきましょう。
|
|
AI ネットワーキングの2つの側面:バックエンドとフロントエンド
データセンターの AI は、2 つの異なるネットワーキング・アプローチに依存しています。集中的なトレーニングを行うバックエンドと、実際の推論を担うフロントエンドです。トレーニング段階では、AI モデルがパターンを認識し、予測を行い、結論を導き出す方法を学びます。これは、AI クラスタまたはグラフィックス処理ユニット (GPU) ファブリック内で相互接続された高性能な GPU 群を使用し、膨大なデータセットを解析することで行われます。この計算要求の厳しいプロセスでは、効率的なモデル・トレーニングとより迅速なインサイトを得るために、GPU 間で高帯域幅、低遅延のデータ転送が必要になります。
AI モデルのトレーニングが完了すると、推論の段階に移ります。ここでは、AI が実際に動作し、ユーザーの問い合わせに応答したり、新しい情報から結論を導き出したりします。このプロセスは、トレーニングほど高い計算負荷を必要としません。「犬種を判定するアプリ」を例として挙げます。トレーニングとは AI モデルが何万枚ものラベル付きの犬の画像を解析して犬種を学習する段階であり、推論とは、ユーザーが送信した新しい犬の画像をモデルが識別する段階です。
AI クラスター内でのコンピューティング集約型トレーニングは、GPU データの高速転送と処理を促進するように設計された専用のクローズド環境であるバックエンド データ・センター・ネットワークで行われます。一方でフロントエンド・ネットワークは、推論を実行するために AI システムを外部とつなぐ役割を担います。ここでは、ユーザーからのリクエスト処理に加えて、Web ホスティング、電子メール、ストレージなど、一般的なデータセンターのワークロードも同時に処理します。これら 2 つのネットワークは、データ転送、ストレージ、ユーザー・インタラクションを管理するために連携します。
フロントエンドとバックエンドのネットワーク・アーキテクチャにはいくつかの違いがあります。
- • フロントエンド・ネットワークでは、従来型の 3 階層構造またはリーフ・スパイン型イーサネット・アーキテクチャが採用されます。この中には、サービス・プロバイダーとの境界領域、スイッチ層、ストレージ・デバイス、そして CPU ベースの基本的なサーバーなど、さまざまな機能領域が組み込まれています。ここでのスイッチ間接続では、通常、シングルモードまたはマルチモードの光ファイバーを使用し、マルチファイバー MPO コネクタによって 100〜400 Gig の速度をサポートしています。一方、スイッチとサーバー間のリンクでは、一般的にデュプレックス・マルチモード・ファイバーを介して 25〜100 Gig の通信が行われます。
- • バックエンド・ネットワークでは、ほぼ例外なくリーフ・スパイン型アーキテクチャが採用されています。ここで、リーフ・スイッチ(レール・スイッチと呼ばれる)は、クラスター内で高帯域幅かつ低レイテンシの GPU 間接続を実現し、スパイン・スイッチは複数のクラスター間の接続を担います。現在のバックエンドにおけるスイッチ間接続(スイッチ・ツー・スイッチ接続)は、主に 800 Gig 対応であり、16 芯 MPO コネクタを使用します。このうち、8 本のファイバーが送信、8 本が受信に使用され、1 チャネルあたり 100 Gb/s でデータを伝送します。一部のハイパースケーラーや大規模なクラウド・サービス・プロバイダーはすでに、2 つの 16 芯 MPO コネクターを使用してバックエンドの 1.6 Terabit スイッチ接続に移行しています。
バックエンド・ネットワーク内の GPU は、一般的に 400 Gig の速度で接続されており、8 芯 MPO コネクタ(4 本が送信、4 本が受信、1 チャネルあたり 100 Gb/s)を使用します。一部の GPU 接続はすでに 800 Gigへ移行しつつあります。イーサネットが主流であるフロントエンド・ネットワークとは異なり、バックエンドにおける GPU 間接続では、低レイテンシーを実現するために InfiniBand プロトコルとリモート・ダイレクト・メモリアクセス (RDMA) 技術が頻繁に活用されています。RDMA over converged Ethernet (RoCE) は、両方のプロトコルの長所を組み合わせた新しい代替手段です。
待ち時間をさらに最小限に抑えるために、GPU はリーフスイッチに直接接続することが多いため、機器の接続を管理するための構内配線(相互接続およびクロス接続)の使用が不要になります。これらのダイレクト接続では、終端処理済みの MPO ファイバー・アセンブリ、またはダイレクト接続された 2 軸や光アセンブリが使用されます。1 つの AI クラスターには、数百もの GPU が搭載されることがあり、これらは CPU の最大 10 倍の電力を消費します。その結果、発熱量が大幅に増加し、データ・センターではこれらのクラスター環境に対応するため、液冷システムなどのより高度な冷却技術への投資が求められています。
|
|
データ・センターにおける AI インフラのテストにおける課題
バックエンド AI クラスターで 400 Gig 以上の速度で数百の GPU を相互接続すると、データ・センターのファイバー密度が非常に高くなり、テストとトラブルシューティングに関して独自の課題が生じます。
-
ファイバー端面の汚染を検査することは、信号損失や性能を低下させる反射を防ぐうえで重要ですが、超高密度環境のポートを検査するのは難しい場合があります。フルーク・ネットワークスの FI-3000 FiberInspector™ Ultra Camera は、高密度環境での可視性を実現する PortBright™ 照明を備え、優れた視認性を実現します。さらに、オートフォーカス/ オートセンタリング機能により、光ファイバー端面を即座にライブビューで確認でき、ズーム操作で単芯の端面から MPO アレイ全体まで簡単に検査することができます。FI-3000 FiberInspector Ultra カメラには、12 芯および 24 芯の UPC/APC MPO 端面を検査するためのチップが標準装備されています。さらに、MMC 用チップや、12 芯から 32 芯まで対応するキーレス MPO APC チップなどのオプションも用意されています。
検査の結果、MPO または MMC インターフェースの清掃が必要な場合には、フルーク・ネットワークスの Quick Clean™ クリーナーが効果的なソリューションとなります。このクリーナーは、バルクヘッド MPO/MTP コネクタや MMC コネクタ端面の汚れを効率的に除去できるほか、さまざまなデュプレックス・コネクタにも対応しています。
|
フルーク・ネットワークスの FI-3000 FiberInspector™ Ultra カメラ、ならびに Quick Clean Nunc MPO/MTP および MMC クリーナーは、AI クラスターなどの高密度データ・センター環境におけるファイバー端面の検査とクリーニングに最適です。 |
- バックエンド・ネットワークにおける高速 400 Gig イーサネットまたは InfiniBand ファイバー・リンクの挿入損失テストは、フルーク・ネットワークスの MultiFiber™ Pro MPO テスターのように、すべてのファイバーを同時にスキャンし、リンク全体の損失結果を表示できるオンボード MPO コネクターを備えたテスターを使用して行う必要があります。MultiFiber Pro テスターは、MPO リンクの極性も正しくテストします。これは、各送信ファイバーが受信ファイバーに対応していることを確認するうえで不可欠です。現在、800 Gig リンクで使用される 16 芯 MPO をテストする際には、Y 型ブレークアウト・ケーブル(16 芯 MPO コネクタから 2 本の 8 芯 MTP/MPO コネクタへ分岐するケーブル)が必要となります。8 芯側の各ケーブルを個別にテストし、その結果を組み合わせて全体のリンク損失を算出します。
- MDC や SN-MT デュプレックスコネクタ、MMC アレイ・コネクタなどの超小型フォームファクタ (VSFF) 光コネクタは、従来型コネクタの数倍の密度を実現し、高密度 AI クラスターで一般的に使用されるようになっています。フルーク・ネットワークスは、現在、MDC コネクタ向けに業界推奨の 1 ジャンパー・リファレンス方式を提供しています。また、他の VSFF(超小型フォームファクタ)コネクタ・タイプについても、普及に合わせて同様のテスト手法を開発していく予定です。それまでは、3 ジャンパー・リファレンス方式によるテストが可能です。フルーク・テクニカル・アシスタンス・センター (TAC) が、新しい VSFF コネクタのテストに関するガイダンスを提供します。
|
フルーク・ネットワークスの FiberLert™ Live Fiber Detector は、QSFP トランシーバー・ポートでのアクティブな光ファイバー信号を検出します。 |
- AI ネットワークに問題がある場合は、QSFP トランシーバーのトラブルシューティングが必要になることがよくあります。マルチモードまたはシングルモードのトランシーバー・ポートでフルーク・ネットワークスの FiberLert™ Live Fiber Detector を使用すると、ファイバーのアクティビティと接続性を迅速かつ安全に確認できます。小型サイズなので、高密度スイッチ・ポートへのアクセスも容易です。より詳細なトラブルシューティングが必要な場合は、フルーク・ネットワークスの OptiFiber™ Pro OTDR を使用することで、特定のイベント(コネクタ、断線、屈曲など)における信号損失や反射率を正確に特定・測定できます。
AI をデータ・センターに統合することで、ネットワーク配線アーキテクチャの大幅な進化が進むでしょう。その結果として生じるさらなる高密度化は、データ・センター運用者にとって継続的な課題となります。業界が AI の可能性をさらに拡張していく中で、こうした 400 Gig+ のネットワークにおける信頼性とパフォーマンスを確保するためには、堅牢で効率的なテストおよびトラブルシューティングソリューションが不可欠となります。






