4. Data Center Routing Overview (Panoramica del routing dei data center)

Questa sezione fornisce una panoramica di tre tipi generali di progetti di protocollo per data center -- solo Layer 2, ibrido Layer L2/L3 e solo Layer 3.

4.1 L2-Only Designs (Progetti solo L2)

Originariamente, la maggior parte dei progetti di data center utilizzava lo Spanning Tree Protocol (STP) originariamente definito in [IEEE8021D-1990] per la creazione di topologie senza loop, utilizzando tipicamente varianti della topologia DC tradizionale descritta nella Sezione 3.1. All'epoca, molti switch DC non supportavano i protocolli di routing Layer 3 o li supportavano con costi di licenza aggiuntivi, il che ha giocato un ruolo nella scelta del design. Sebbene siano stati apportati molti miglioramenti attraverso l'introduzione del Rapid Spanning Tree Protocol (RSTP) nell'ultima revisione di [IEEE8021D-2004] e del Multiple Spanning Tree Protocol (MST) specificato in [IEEE8021Q] che aumentano la convergenza, la stabilità e il bilanciamento del carico in topologie più grandi, molti dei fondamenti del protocollo limitano la sua applicabilità nei DC su larga scala. STP e le sue varianti più recenti utilizzano un approccio attivo/standby per la selezione del percorso, e sono quindi difficili da implementare in topologie scalate orizzontalmente come descritto nella Sezione 3.2. Inoltre, gli operatori hanno avuto molte esperienze con grandi guasti dovuti a problemi causati da cablaggio improprio, configurazione errata o software difettoso su un singolo dispositivo. Questi guasti hanno regolarmente interessato l'intero dominio spanning-tree ed erano molto difficili da risolvere a causa della natura del protocollo. Per questi motivi, e poiché quasi tutto il traffico DC è ora IP, richiedendo quindi un protocollo di routing Layer 3 al bordo della rete per la connettività esterna, i progetti che utilizzano STP di solito falliscono tutti i requisiti degli operatori DC su larga scala. Vari miglioramenti ai protocolli di aggregazione dei collegamenti come [IEEE8023AD], generalmente noti come Multi-Chassis Link-Aggregation (M-LAG), hanno reso possibile l'utilizzo di progetti Layer 2 con percorsi di rete attivo-attivo facendo affidamento su STP come backup per la prevenzione dei loop. I principali svantaggi di questo approccio sono la mancanza di capacità di scalare linearmente oltre due nella maggior parte delle implementazioni, la mancanza di implementazioni basate su standard e il rischio aggiuntivo del dominio di guasto della sincronizzazione dello stato tra i dispositivi.

Va notato che la costruzione di grandi reti solo L2, scalabili orizzontalmente, senza STP è possibile recentemente attraverso l'introduzione del protocollo Transparent Interconnection of Lots of Links (TRILL) in [RFC6325]. TRILL risolve molti dei problemi che STP ha per il design DC su larga scala, tuttavia, a causa del numero limitato di implementazioni, e spesso del requisito di attrezzature specifiche che lo supportano, questo ha limitato la sua applicabilità e aumentato il costo di tali progetti.

Infine, né la specifica TRILL di base né l'approccio M-LAG eliminano totalmente il problema del dominio di broadcast condiviso che è così dannoso per le operazioni di qualsiasi soluzione Layer 2 basata su Ethernet. Estensioni TRILL successive sono state proposte per risolvere questo problema, principalmente basate sugli approcci delineati in [RFC7067], ma questo limita ulteriormente il numero di implementazioni interoperabili disponibili che possono essere utilizzate per costruire un fabric. Pertanto, i progetti basati su TRILL hanno problemi a soddisfare REQ2, REQ3 e REQ4.

4.2 Hybrid L2/L3 Designs (Progetti ibridi L2/L3)

Gli operatori hanno cercato di limitare l'impatto dei guasti del piano dati e costruire topologie su larga scala implementando protocolli di routing nelle parti Tier 1 o Tier 2 della rete e dividendo il dominio Layer 2 in numerosi domini più piccoli. Questo design ha permesso ai data center di scalare, ma al costo della complessità nella gestione di più protocolli di rete. Per i seguenti motivi, gli operatori hanno mantenuto Layer 2 nelle parti di accesso (Tier 3) o sia di accesso che di aggregazione (Tier 3 e Tier 2) della rete:

Supporto di applicazioni legacy che potrebbero richiedere l'adiacenza diretta Layer 2 o utilizzare protocolli non-IP.
Mobilità senza interruzioni per le macchine virtuali che richiedono la conservazione degli indirizzi IP quando una macchina virtuale si sposta su uno switch Tier 3 diverso.
Indirizzamento IP semplificato = sono necessarie meno sottoreti IP per il data center.
Il bilanciamento del carico delle applicazioni può richiedere la raggiungibilità diretta Layer 2 per eseguire determinate funzioni come Layer 2 Direct Server Return (DSR). Vedere [L3DSR].
Differenze CAPEX continue tra switch L2 e L3.

4.3 L3-Only Designs (Progetti solo L3)

I progetti di rete che sfruttano il routing IP fino al Tier 3 della rete hanno guadagnato popolarità. Il principale vantaggio di questi progetti è il miglioramento della stabilità e della scalabilità della rete, come risultato del confinamento dei domini di broadcast L2. Comunemente, un Interior Gateway Protocol (IGP) come Open Shortest Path First (OSPF) [RFC2328] viene utilizzato come protocollo di routing primario in tale design. Man mano che i data center crescono in scala e il numero di server supera le decine di migliaia, tali progetti completamente instradati sono diventati più attraenti.

Scegliere un design solo L3 semplifica notevolmente la rete, facilitando il soddisfacimento di REQ1 e REQ2, e ha un'adozione diffusa nelle reti dove grandi adiacenze Layer 2 e sottoreti Layer 3 di dimensioni maggiori non sono così critiche rispetto alla scalabilità e alla stabilità della rete. I fornitori di applicazioni e gli operatori di rete continuano a sviluppare nuove soluzioni per soddisfare alcuni dei requisiti che in precedenza avevano guidato grandi domini Layer 2 utilizzando varie tecniche di overlay o tunneling.