メインコンテンツまでスキップ

3. Data Center Topologies Overview (データセンタートポロジーの概要)

3. Data Center Topologies Overview (データセンタートポロジーの概要)

このセクションでは, 2つの一般的なタイプのデータセンター設計 -- 階層型 ("ツリーベース"とも呼ばれる) と Clos ベースのネットワーク設計の概要を提供します。

3.1 Traditional DC Topology (従来のデータセンタートポロジー)

ネットワーク業界では, データセンターの一般的な設計選択は, 通常, 冗長アップリンクと3つの階層レベル, すなわちコア, アグリゲーション/ディストリビューション, アクセスレイヤーを持つ (逆さまの) ツリーのように見えます (図1参照)。帯域幅の需要に対応するために, サーバーから DC 出口または WAN に向かう各上位レイヤーは, より高いポート密度と帯域幅容量を持ち, コアはツリーベース設計の "幹" として機能します。用語を統一し, 他の設計と比較するために, このドキュメントでは, これらのレイヤーをコア, アグリゲーション, またはアクセスレイヤーではなく, Tier 1, Tier 2, Tier 3 "ティア" と呼びます。

             +------+  +------+
| | | |
| |--| | Tier 1
| | | |
+------+ +------+
| | | |
+---------+ | | +----------+
| +-------+--+------+--+-------+ |
| | | | | | | |
+----+ +----+ +----+ +----+
| | | | | | | |
| |-----| | | |-----| | Tier 2
| | | | | | | |
+----+ +----+ +----+ +----+
| | | |
| | | |
| +-----+ | | +-----+ |
+-| |-+ +-| |-+ Tier 3
+-----+ +-----+
| | | | | |
<- Servers -> <- Servers ->

図1: 典型的なデータセンターネットワークトポロジー

残念ながら, 前述のように, Tier 2 を十分にスケールするのに十分な大きさのポート密度を持つ Tier 1 デバイスを取得できないため, 大規模設計を処理するのに十分な程度までツリーベースの設計をスケールすることはできません。また, デプロイメントのサイズや帯域幅の要件が増加するにつれて, 上位ティアデバイスの継続的なアップグレードまたは交換が必要になり, これは運用上複雑です。このため, REQ1 が設定されており, この種の設計は検討から除外されます。

3.2 Clos Network Topology (Clos ネットワークトポロジー)

このセクションでは, REQ1 を満たすために大規模データセンターで水平方向にスケーラブルなトポロジーの一般的な設計について説明します。

3.2.1 Overview (概要)

水平方向にスケーラブルなトポロジーの一般的な選択肢は, 折りたたまれた Clos トポロジーで, "ファットツリー" と呼ばれることもあります (例えば, [INTERCON] と [ALFARES2008])。このトポロジーは, 奇数段の段階 ("次元" と呼ばれることもある) を特徴とし, 通常, 同じポート数を持つネットワークスイッチなどの均一な要素で構成されています。したがって, 折りたたまれた Clos トポロジーの選択は REQ1 を満たし, REQ2 を促進します。パケットフローをトレースする際に Tier 2 段階を2回カウントする折りたたまれた3段階 Clos トポロジーの例については, 以下の図2を参照してください:

   +-------+
| |----------------------------+
| |------------------+ |
| |--------+ | |
+-------+ | | |
+-------+ | | |
| |--------+---------+-------+ |
| |--------+-------+ | | |
| |------+ | | | | |
+-------+ | | | | | |
+-------+ | | | | | |
| |------+-+-------+-+-----+ | |
| |------+-+-----+ | | | | |
| |----+ | | | | | | | |
+-------+ | | | | | | ---------> M リンク
Tier 1 | | | | | | | | |
+-------+ +-------+ +-------+
| | | | | |
| | | | | | Tier 2
| | | | | |
+-------+ +-------+ +-------+
| | | | | | | | |
| | | | | | ---------> N リンク
| | | | | | | | |
O O O O O O O O O サーバー

図2: 3段階折りたたみ Clos トポロジー

このトポロジーは, "Leaf and Spine" ネットワークとも呼ばれることが多く, "Spine" は Clos トポロジーの中間段階 (Tier 1) に付けられた名前であり, "Leaf" は入力/出力段階 (Tier 2) の名前です。統一性のために, このドキュメントでは "Tier n" 表記を使用してこれらのレイヤーを参照します。

3.2.2 Clos Topology Properties (Clos トポロジーのプロパティ)

以下は, Clos トポロジーのいくつかの重要なプロパティです:

  • M >= N の場合, トポロジーは完全に非ブロッキング, またはより正確には非干渉であり, それ以外の場合は N/M の係数でオーバーサブスクライブされます。ここで M と N は, 図2に示すように, Tier 2 スイッチのアップリンクとダウンリンクのポート数です。

  • このトポロジーを利用するには, M 以上のファンアウトを持つ ECMP の制御およびデータプレーンサポートが必要です。

  • Tier 1 スイッチは, このトポロジー内のすべてのサーバーへの正確に1つのパスを持っています。これは, このトポロジーでルート集約を危険にする重要なプロパティです (以下のセクション8.2を参照)。

  • サーバーからサーバーへと流れるトラフィックは, ECMP を使用してすべての利用可能なパス上で負荷分散されます。

3.2.3 Scaling the Clos Topology (Clos トポロジーのスケーリング)

Clos トポロジーは, ネットワーク要素のポート密度を増やすか, より多くの段階を追加することによってスケールできます。例えば, 以下の図3に示すように, 5段階 Clos に移行します:

                                      Tier 1
+-----+
Cluster | |
+----------------------------+ +--| |--+
| | | +-----+ |
| Tier 2 | | | Tier 2
| +-----+ | | +-----+ | +-----+
| +-------------| DEV |------+--| |--+--| |-------------+
| | +-----| C |------+ | | +--| |-----+ |
| | | +-----+ | +-----+ +-----+ | |
| | | | | |
| | | +-----+ | +-----+ +-----+ | |
| | +-----------| DEV |------+ | | +--| |-----------+ |
| | | | +---| D |------+--| |--+--| |---+ | | |
| | | | | +-----+ | | +-----+ | +-----+ | | | |
| | | | | | | | | | | |
| +-----+ +-----+ | | +-----+ | +-----+ +-----+
| | DEV | | DEV | | +--| |--+ | | | |
| | A | | B | Tier 3 | | | Tier 3 | | | |
| +-----+ +-----+ | +-----+ +-----+ +-----+
| | | | | | | | | |
| O O O O | O O O O
| サーバー | サーバー
+----------------------------+

図3: 5段階 Clos トポロジー

図3のトポロジーの小さな例は, ポート数4のデバイスから構築されています。このドキュメントでは, 接続されたサーバーとともに直接接続された Tier 2 および Tier 3 デバイスの1セットを "クラスター" と呼びます。例えば, 図3の DEV A, B, C, D, および DEV A と B に接続するサーバーがクラスターを形成します。クラスターの概念は, トポロジー全体とは異なる頻度で操作できる単一のデプロイメントまたはメンテナンスユニットとしても有用な概念になる場合があります。

実際には, 通常 Top-of-Rack スイッチ (ToR) であるネットワークの Tier 3 は, さまざまなタイプのアプリケーションの帯域幅要件を満たしながら, データセンターにより多くのサーバーをパッケージ化できるようにするためにオーバーサブスクリプションが導入される場所です。ネットワークの単一レイヤーにオーバーサブスクリプションを制限する主な理由は, ラック内 (Tier 3), ラック間 (Tier 2), クラスター間 (Tier 1) の複数の帯域幅プールを考慮する必要があるアプリケーション開発を簡素化することです。オーバーサブスクリプションはルーティング設計と直接的な関係がないため, このドキュメントではこれ以上説明しません。

3.2.4 Managing the Size of Clos Topology Tiers (Clos トポロジーティアのサイズ管理)

データセンターネットワークのサイズが小さい場合, Clos トポロジーの Tier 1 または Tier 2 のスイッチ数を2分の1に減らすことができます。これがどのように行われるかを理解するために, Tier 1 を例にとります。すべての Tier 2 デバイスは, 単一の Tier 1 デバイスグループに接続します。Tier 1 デバイスの各ポートの半分が使用されていない場合, Tier 1 デバイスの数を半分に減らし, 以前は異なる Tier 1 デバイスにマッピングされていた Tier 2 デバイスからの2つのアップリンクを同じ Tier 1 デバイスに単純にマッピングすることができます。この手法は, Tier 1 の要素数を減らしながら同じ帯域幅を維持し, CAPEX を節約します。この例でのトレードオフは, サーバー全体の数に関する最大 DC サイズの半分への削減です。

この例では, Tier 2 デバイスは各 Tier 1 デバイスに接続するために2つの並列リンクを使用します。これらのリンクの1つが失敗すると, もう1つが失敗したリンクのすべてのトラフィックを引き継ぎ, パス決定手順が帯域幅の量を考慮しない場合, 上流の Tier 1 デバイスの数が2より広い可能性が高いため, 重い輻輳とサービス品質の低下を引き起こす可能性があります。この状況を回避するために, 並列リンクはリンクアグリゲーショングループ (LAG) にグループ化できます。例えば [IEEE8023AD], 単一のリンク障害時に "バンドル" 全体をダウンさせる広く利用可能な実装設定があります。LAG の代わりに並列リンクに "運命共有" を強制する同等の技術を使用して, 同じ効果を達成できます。このような運命共有の結果として, 2つ以上の失敗したリンクからのトラフィックは, Tier 1 デバイスの数に等しい残りのパスの多数にわたって再バランスされます。この例は単純化のために2つのリンクを使用していますが, バンドル内により多くのリンクがある場合, メンバーリンクの障害時の容量への影響が少なくなります。