• Keine Ergebnisse gefunden

ä ä ä ä ä ä ä ä Stand:13.Juli2021 RechnernetzeII(1/15) RolandWism¨ullerBetriebssysteme/verteilteSysteme RechnernetzeII(1/15) RolandWism¨ullerBetriebssysteme/verteilteSysteme

N/A
N/A
Protected

Academic year: 2022

Aktie "ä ä ä ä ä ä ä ä Stand:13.Juli2021 RechnernetzeII(1/15) RolandWism¨ullerBetriebssysteme/verteilteSysteme RechnernetzeII(1/15) RolandWism¨ullerBetriebssysteme/verteilteSysteme"

Copied!
21
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) i

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme rolanda.dwismuellera@duni-siegena.dde Tel.: 0271/740-4050, B ¨uro: H-B 8404

Stand: 13. Juli 2021

Rechnernetze II

SoSe 2021

ääääääää

Rechnernetze II

SoSe 2021

9 Leistungssteigerung von Netzen

(2)

9 Leistungssteigerung von Netzen ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 304

Inhalt

➥ Motivation: Hochleistungsrechner

➥ Maßnahmen zur Leistungssteigerung

➥ Beispiel: Infiniband

➥ Harald Richter: Verbindungsnetzwerke f ¨ur parallele und verteilte Systeme. Spektrum Akademischer Verlag, 1997

➥ Weitere Angaben auf der WWW-Seite

9.1 Motivation

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 305

Hochleistungsrechner

➥ F ¨ur rechenintensive Anwendungen

Klimasimulation, Genomanalyse, Arzneimittel-Design, ...

➥ Als Server

WWW (Suchmaschinen), Datenbanken, ...

➥ Multiprozessorsysteme: mehrere gekoppelte Prozessoren

mit gemeinsamem Speicher (SMP, ccNUMA)

mit verteiltem Speicher (MPP)

➥ Beispiel: Fugaku (Japan, schnellster Rechner der Welt!)

7.299.072 CPU-Kerne

415 TFlop/s Rechenleistung

(3)

9.1 Motivation ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 306

Multiprozessorsysteme mit verteiltem Speicher (MPPs)

CPU Cache

CPU Cache

Verbindungsnetzwerk

Netzwerk adapter Netzwerk

adapter

Speicherlokaler Speicherlokaler

Knoten Knoten

➥ Sehr gut skalierbar (bis mehrere 100000 Knoten)

➥ Kommunikation/Synchronisation durch Nachrichtenaustausch

➥ Architektur entspricht Cluster von Rechnern

9.1 Motivation ...

Programmierung von MPPs

➥ Parallele Prozesse (meist ein Prozeß pro Knoten)

jeder Prozeß bearbeitet ein Teilproblem

➥ Kooperation durch Nachrichtenaustausch

Punkt-zu-Punkt: send, receive

global: broadcast (1-zu-N), reduce (N-zu-1), ...

oft sehr große Nachrichten

➥ Wichtig f ¨ur hohe Rechenleistung:

Kommunikationszeit ≪ Rechenzeit

Uberlappung von Kommunikation und Berechnung¨

gleichzeitige Kommunikation vieler Knoten

(4)

9.1 Motivation ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 308

Maßgebliche Eigenschaften der Verbindungsnetze

➥ Routing: i.a. mehrere m ¨ogliche Pfade

Blockierungsfreiheit: Kommunikation zweier Knoten blockiert andere Kommunikationen nicht

Ausfallsicherheit

Bisektionsbandbreite: Gesamtbandbreite, wenn eine H ¨alfte der Knoten an die anderen sendet (worst case)

Durchmesser des Netzes: Pfadl ¨ange zwischen zwei maximal entfernten Knoten

Verbindungsgrad eines Knotens: Anzahl der Links

Skalierbarkeit:

”Eigenschaften des Netzes bleiben bei Erweiterung erhalten“

9.1 Motivation ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 309

Beispiel

Bisektionsbandbreite =

Einzelverbindungen 4 * Bandbreite der

Durchmesser = 3 Knoten

Verzweigungsgrad = 3 Verbindung

(5)

9.2 Maßnahmen zur Leistungssteigerung

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 310

➥ Ziele:

hohe Bisektionsbandbreite

niedrige Latenz

schnelle Weiterleitung in den Zwischenknoten

geringe Latenz durch Softwareschichten

➥ Mechanismen:

Netztopologien

Weiterleitungstechniken

Protokolle der Anwendungsschicht

Vermeidung von Kopiervorg ¨angen

Remote DMA und OS bypass

Vermeidung von Betriebssystem-Einspr ¨ungen

9.2 Maßnahmen zur Leistungssteigerung ...

9.2.1 Netztopologien

➥ ”Statische“ Verbindungsnetze

direkte Verbindungen zwischen Paaren von Knoten

Forwarding erfolgt durch in die Knoten eingebaute Switches

z.B. Ring, Gitter, Hyperw ¨urfel

➥ Dynamische Verbindungsnetze

Knoten sind indirekt ¨uber einen oder mehrere Switches verbunden

z.B. Kreuzschienenverteiler, Clos-Netz

(6)

311-1 Anmerkungen zu Folie 311:

Die Namensgebung (statisch vs. dynamisch) ist historisch, da fr ¨uher bei statischen Verbindungsnetzen die Knoten fest verbinden waren (also nicht ¨uber Weiterleitungs- knoten) und die Frames durch die CPU weitergeleitet wurden. Heute werden auch bei statischen Verbindungsnetzen die Frames durch Switches weitergeleitet. Der ver- bleibende Unterschied ist, daß bei statischen Verbindungsnetzen jeder Switches fest einem (einzigen) Knoten zugeordnet ist, w ¨ahrend bei dynamisch Verbindungsnetzen mehrere Knoten an einem Switch angeschlossen sind.

9.2.1 Netztopologien ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 312

Statische Verbindungsnetze: Beispiele

/ Torus Gitter

Ring 4D Hyperwürfel

O( N)

O(N) O(log(N))

Durchmesser

O( N) * Link 2 * Link

Bisektionsbandbr. O(N) * Link

2 4

Verzweigungsgrad O(log(N))

(7)

9.2.1 Netztopologien ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 313

Dynamische Verbindungsnetze:

Kreuzschienenverteiler (Crossbar Switch)

➥ Knoten hat getrennte Links pro Richtung

➥ Alle m ¨oglichen, disjunkten Knotenpaare k ¨onnen

gleichzeitig verbunden werden

blockierungsfreies Netz

➥ Hoher Hardwareaufwand:

n2 Schaltelemente bei n Knoten

➥ I.a. nicht erweiterbar

Pn P2 P1

P1 P2

...

Pn

...

Schaltelement:

9.2.1 Netztopologien ...

(Animierte Folie)

Dynamische Verbindungsnetze: Clos-Netz

➥ Erweiterbares Netz auf Basis (kleiner) Kreuzschienenverteiler

maximal m ¨ogliche Bisektionsbandbreite

blockierungsfrei, wenn ex. Routen ge ¨andert werden d ¨urfen

➥ Beispiel: Vernetzung 32 Knoten mit 8x8 Crossbars

32 Knoten

(8)

9.2 Maßnahmen zur Leistungssteigerung ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 315

9.2.2 Weiterleitungstechniken

➥ Ziel: Schnelle Weiterleitung in den Zwischenknoten

➥ Randbedingung: Netze mit hoher Bandbreite und großen Paketen

hoher Bedarf an Pufferplatz in den Switches

daher ggf. Flusskontrolle zwischen Switches

➥ Randbedingung: mehrere m ¨ogliche Wege im Netz

schnelle (einfache) Routing-Verfahren erforderlich

➥ Trend: Zentralisierung der Steuerung des Netzverkehrs

Software Defined Networking

9.2.2 Weiterleitungstechniken ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 316

Store-and-Forward Routing

Switch empf ¨angt Paket vollst ¨andig, analysiert Header, gibt Paket an entsprechenden Ausgangsport weiter

Puffer f ¨ur mindestens ein Paket notwendig

paketorientierte Flußkontrolle

Problem: hohe Latenz

Virtual-Cut-Through Routing

Switch schaltet Weg zum passenden Ausgangsport bereits nach Empfang des Headers durch

ben ¨otigt schnelle Forwarding-Logik

falls Ausgangsport belegt: Puffern des gesamten Pakets

paketorientierte Flußkontrolle

(9)

9.2.2 Weiterleitungstechniken ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 317

Vergleich von Store-and-Forward und Virtual-Cut-Through

Sender Switch 1 Switch 2 Empfänger

Sender Switch 2 Empfänger

Switch 1

Zeit Zeit

Header

Nutzdaten

Store−and−Forward−Routing Virtual−Cut−Through−Routing

Transferzeit Transferzeit

➥ Anmerkung: auch schnelle Ethernet-Switches verwenden heute Virtual-Cut-Through

9.2.2 Weiterleitungstechniken ...

Wormhole-Routing

Weiterleitung wie bei Virtual-Cut-Through

feingranulare Flußkontrolle auf Bit ¨ubertragungsebene

Flits (flow control digits), typ. 1-2 Bytes

in Switches nur Puffer f ¨ur wenige Flits (abh ¨angig von RTT)

bei belegtem Ausgangsport: R ¨uckstau des Pakets

Flits enthalten keine Zieladresse ⇒ Links bleiben blockiert

Vorteil: geringe Latenz, wenig Pufferbedarf

Nachteil: (gr ¨oßere) Gefahr von Deadlocks

Vermeidung durch entsprechende Routing-Algorithmen

(10)

318-1 Anmerkungen zu Folie 318:

Beispiele f ¨ur deadlockfreie Routing-Algorithmen:

Deadlockfreies Wormhole-Routing im Gitter

Theorem: es gen ¨ugt, je einen Richtungswechsel in und gegen Uhrzeigersinn auszuschließen

z.B. Pakete immer erst in x-, dann iny-Richtung weiterleiten (nicht-adaptives Routing)

z.B. Pakete immer erst (ggf.) in negative, dann (ggf.) in positive Richtungen weiterleiten (adaptives Routing m ¨oglich)

b) Erlaubte Richtungswechsel beim ersten Verfahren

c) Erlaubte Richtungswechsel beim zweiten Verfahren

2 3

4 1

Paket an 3

Paket an 4

Paket

Paket an 2

an 1

a) Zur Entstehung eines Deadlocks

318-2

Hot-Potato-Routing

adaptives, deadlockfreiesStore-and-Forward-Routing

wenn Ausgangsport belegt: Paket an irgendeinen(!) anderen Port leiten

effizient bei hoher Netzlast: Vermeidung vonHot Spots

(11)

9.2.2 Weiterleitungstechniken ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 319

Software Defined Networking (SDN)

➥ Schichtenaufbau eines Weiterleitungsknotens:

Data Plane: regelbasierte, tabellengesteuerte Weiterleitung von Frames/Paketen

Control Plane: Erstellung der Regeln bzw. Weiterleitungstabel- len (z.B. durch Routing-Protokolle)

➥ Grundideen von SDN:

Trennung von Data Plane und Control Plane

Zentralisierung der Control Plane

Kommunikation zw. zentralem Controller und Weiterlei- tungsknoten ¨uber das Netzwerk

Protokoll z.B. OpenFlow ( ¨uber TLS / TCP)

9.2.2 Weiterleitungstechniken ...

Software Defined Networking (SDN) ...

➥ Vergleich der Architekturen:

Plane Control

Plane Data

Plane Control

Plane Data

Plane Control

Plane Data

Plane Data Plane

Data Plane

Data OpenFlow

(SDN Controller) Control Plane SDN Architektur

Übliche Netzarchitektur

Gerät 1 Gerät 2 Gerät 3 Gerät 1 Gerät 2 Gerät 3

(12)

9.2.2 Weiterleitungstechniken ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 321

Vorteile von SDN:

➥ Flexiblere Weiterleitungsregeln

bei OpenFlow u.a. basierend auf:

Quell-/Ziel-MAC, VLAN-ID, VLAN Priorit ¨at

MPLS Label

Quell-/Ziel-IP-Adresse, Flow-Label, Protokoll

Quell-/Ziel-Port

Weiterleitung kann flussbasiert erfolgen

damit insbes. bessere QoS Unterst ¨utzung

➥ Intelligentere Controller m ¨oglich

z.B. k ¨onnen Weiterleitungsregeln automatisch aufgrund vorgegebener Policies erstellt werden

9.2 Maßnahmen zur Leistungssteigerung ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 322

9.2.3 Protokolle der Anwendungsschicht

➥ Nachrichtenaustausch auf Anwendungsebene:

Kopieren von Daten aus dem Adreßraum des Senders in den Adreßraum des Empf ¨angers

NIC NIC

NIC:

Network Interface Controller Adreßraum

Benutzer− Benutzer−

Adreßraum

Knoten 1 Knoten 2

Netzwerk Datenpaket

Quellpuffer Zielpuffer

Problem: Adresse des Zielpuffers erst bekannt, wenn Empf ¨anger bereits auf Nachricht wartet

(13)

9.2.3 Protokolle der Anwendungsschicht ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 323

Asynchrones, optimistisches Protokoll

➥ Senderprozeß verschickt Nachricht ohne Wissen ¨uber den Zustand des Empf ¨angerprozesses

➥ Falls Empfangsoperation noch nicht gestartet: Kommunikations- bibliothek muß Nachricht zwischenspeichern

Probleme:

Speicherplatzbedarf

Zus ¨atzliche Kopie bei Empfangsoperation

➥ Daher nur f ¨ur kurze Nachrichten eingesetzt

lange Nachrichten mit synchronem Protokoll (∼ RTS/CTS) (oder Zusicherung des Senders, daß Empf ¨anger bereit ist)

9.2.3 Protokolle der Anwendungsschicht ...

Synchrones Protokoll send(...)

recv(...) ready tosend

receiveready to Empfänger

Sender

Daten

➥ Sender wird blockiert, bis Empfang gestartet wurde

➥ ready-to-send-Nachricht enth ¨alt L ¨ange der Daten

➥ Vorteil:

kein zus ¨atzlicher Pufferspeicher notwendig

Vermeidung einer Kopieroperation beim Empf ¨anger Nachteil: evtl. h ¨ohere Latenz und Blockierung des Senders

(14)

9.2 Maßnahmen zur Leistungssteigerung ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 325

9.2.4 Remote DMA und OS Bypass

➥ Kommunikation in geschichteten Systemen (hier IP):

Netzwerk TCP / UDP

IP

Anwendung

Netzwerk TCP / UDP

IP

Anwendung Kernel−

NIC Benutzer−

adreßraum

adreßraum (Kopie)

Empfänger Sender

Kopie Kopie

Kopieroperationen limitieren Bandbreite, erh ¨ohen Latenz, belasten CPU

Ziel: Kopieren m ¨oglichst vermeiden (

”zero copy“)

9.2.4

Remote DMA

und

OS Bypass

...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 326

Remote DMA

➥ DMA (Direct Memory Access)

DMA-Controller f ¨uhrt selbst ¨andig Datentransfers zwischen zwei Speicherbereichen durch (parallel zu CPU-Aktivit ¨at)

Auftrag durch die CPU: Quell- und Zieladresse, L ¨ange

➥ Remote DMA

DMA-Transfer zwischen (Benutzer-)Speicherbereichen auf verschiedenen Rechnern ¨uber ein Netz

Operationen: RDMA Read, RDMA Write

Protokolle werden vollst ¨andig durch NIC realisiert

Betriebssystem muß Transfer nur noch anstoßen

(15)

9.2.4

Remote DMA

und

OS Bypass

...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 327

Nachrichten ¨ubertragung mit RDMA Read

Datenquelle

(Adresse, Header) Quellpuffer

bekanntgeben

Datensenke

Senke holt RDMA Read

in Zielpuffer Quellpuffer

Quellpuffer kann wiederverwendet werden

beendet Transfer

9.2.4

Remote DMA

und

OS Bypass

...

Nachrichten ¨ubertragung mit RDMA Write

Datenquelle Datensenke

(Adresse) RDMA Write

Zielpuffer bekanntgeben

Zielpuffer Quellpuffer in schreiben Transfer

beendet

(Header)

Nachrichten−

Empfang des headers

(16)

9.2.4

Remote DMA

und

OS Bypass

...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 329

VIA: Virtual Interface Architecture

➥ Spezifikation von Intel, Compaq und Microsoft (1997)

➥ Ziel: Betriebssystem (BS) vollst ¨andig aus kritischem Pfad der Kommunikation entfernen

➥ Trennung von Steuerung und Daten

BS nur noch zum Aufsetzen von Verbindungen n ¨otig (verbindungsorientiertes Protokoll)

Kommunikation ohne Einbeziehung des BS m ¨oglich

➥ Datenaustausch wird vollst ¨andig durch NIC realisiert, insbesondere Multiplexing und Demultiplexing

jeder Prozeß bekommt eigene virtuelle Schnittstelle zum NIC

9.2.4

Remote DMA

und

OS Bypass

...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 330

VIA Operationen

➥ Initialisierung und Terminierung ( ¨uber BS)

erzeugen der virtuellen Schnittstelle

➥ Registrierung und Deregistrierung von Puffern ( ¨uber BS)

Puffer werden im physischen Adreßraum fixiert

➥ Verbindungsauf- und -abbau ( ¨uber BS)

BS programmiert NIC und erzeugt Zugriffsschl ¨ussel

➥ Datentransfer (direkt ¨uber virtuelle Schnittstelle)

Senden, Empfangen, RDMA Write, RDMA Read (optional)

(17)

9.2.4

Remote DMA

und

OS Bypass

...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 331

VIA: Aufbau der virtuellen Schnittstelle

Deskriptor Deskriptor Deskriptor Deskriptor Deskriptor Deskriptor

NIC

Status Status

Pakete vom / zum Netz

Receive Queue Send Queue

Receive Doorbell

Send Doorbell

Virtual Interface (VI)

VI Consumer (Anwendung + VI Bibliothek)

AnwendungAdreßraum der

9.2.4

Remote DMA

und

OS Bypass

...

VIA: Ablauf eines Datentransfers

➥ Senden:

Deskriptor erzeugen (Adresse und L ¨ange des Sendepuffers) und in Send Queue einreihen

Send Doorbell l ¨auten

Statusbit im Deskriptor zeigt Ende der Operation an,

Polling durch Anwendung (oder: blockierender BS-Aufruf)

➥ Empfangen: analog

eingehende Pakete ohne passenden Deskriptor werden verworfen

➥ RDMA Write / Read:

Initiator gibt auch Pufferadresse im anderen Knoten an

(18)

9.3 Beispiel: Infiniband

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 333

➥ Ziel: Hochgeschwindigkeitsnetz f ¨ur Cluster

Kommunikation zwischen den Knoten

Anbindung von E/A-Ger ¨aten (Alternative zu E/A Bussen)

➥ Leistungsdaten:

Bandbreite bis zu 300 Gb/s

Hardware-Latenz pro Switch: ca. 100ns

zwischen Anwendungen: Latenz 1,32 µs, Durchsatz 952 MB/s (mit 8 Gb/s Link)

➥ Infiniband umfasst die OSI-Schichten 1-4

Subnetze beliebiger Topologie, ggf. ¨uber Router verbunden

h ¨aufig: Fat Tree, Clos-Netzwerke, 3D-Torus, ...

➥ Unter den 500 schnellsten Rechnern der Welt: 25% mit Infiniband (54% mit 10G Ethernet)

9.3 Beispiel: Infiniband ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 334

Speicher−

Subsystem

Subnetz−

Manager TCA

TCA HCA

HCA

Knoten

Switches Komponenten eines Infiniband-Subnetzes

➥ Host Channel Adapter: Netzwerkkarte

➥ Target Channel Adapter: Br ¨ucke zu E/A-Ger ¨aten

Schnittstelle zu SCSI, Fibre Channel, Ethernet, ...

➥ Switches (Virtual-Cut-Through)

➥ Subnetz Manager

zentrale (ggf. redundante) Komponente

Konfiguration der Switches (Weiter- leitungstabellen!)

Netzwerkmonitoring

(19)

9.3 Beispiel: Infiniband ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 335

Adressierung

➥ LID (Local ID): 16-Bit Adresse innerhalb des Subnetzes

wird vom Subnetz Manager zugewiesen

➥ GUID (Globally Unique ID): weltweit eindeutige 64-Bit Adresse

analog zur MAC-Adresse bei Ethernet

➥ GID (Global ID): g ¨ultige IPv6 Adresse

z.B. gebildet aus Subnetz-Pr ¨afix und GUID

Paketformat

➥ Lokaler und globaler Header (Schicht 2 bzw. 3), ggf. weitere

➥ Zwei CRCs: f ¨ur Ende-zu-Ende und Hop-by-Hop Fehlererkennung

➥ W ¨ahlbare MTU: 256 B, 1 KB, 2 KB, 4 KB

9.3 Beispiel: Infiniband ...

Bit ¨ubertragungsschicht

➥ Unterschiedliche Datenraten

SDR (2 Gb/s), DDR (4 Gb/s), QDR (8 Gb/s), FDR (14 Gb/s), EDR (25 Gb/s)

➥ Verbindungsleitungen: Kupfer oder Glasfaser

ein Kabelpaar (bzw. eine Faser) pro ¨Ubertragungsrichtung

B ¨undelung von 4 bzw. 12 Leitungen m ¨oglich (4x / 12x Link)

max. L ¨ange ca. 10-17m (Kupfer), 125m-10km (Glasfaser)

➥ Auto-negotiation f ¨ur Datenrate und Linkbreite

➥ Codierung:

8B10B bei SDR, DDR und QDR; 64B66B bei FDR und EDR Kontrollcodes f ¨ur Framing, Auto-negotiation, Training, ...

(20)

9.3 Beispiel: Infiniband ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 337

Sicherungsschicht

➥ Physische Links unterteilt in 2-16 virtuelle Verbindungen (Virtual Lanes, VLs)

VLs besitzen unterschiedliche Priorit ¨aten (f ¨ur QoS)

jeweils eigene Warteschlange, Weighted RR Scheduling

VL 15 (h ¨ochste Priorit ¨at) reserviert f ¨ur Netzwerkmanagement

➥ Innerhalb jeder VL (außer VL 15)

paketweise Flußkontrolle

Uberlastkontrolle ( ¨ahnlich DECbit, optional)¨

9.3 Beispiel: Infiniband ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 338

Transportschicht

➥ Verbindungslose und verbindungsorientierte Dienste

jeweils unzuverl ¨assig und zuverl ¨assig

zus ¨atzlich Raw-Modus zum Transport von z.B. IPv6 Paketen

Paketierung und Sicherungsprotokoll in Hardware realisiert

➥ Verbindungsorientierte Dienste unterst ¨utzen Fehlertoleranz

Aufbau von zwei alternativen Verbindungen m ¨oglich

automatisches Umschalten im Fehlerfall

Anhalten (

”Leerlaufen lassen“) der Warteschlagen m ¨oglich

Verbindung wird dann durch Software umkonfiguriert

➥ Neben Send/Receive auch RDMA (Read/Write/Atomics)

jeweils mit OS-Bypass ( ¨ahnlich zu VIA)

(21)

9.3 Beispiel: Infiniband ...

Roland Wism ¨uller

Betriebssysteme / verteilte Systeme Rechnernetze II (1/15) 339

HLRN_II (Glasfaser) Infiniband−Switch

(Harvard Univ.)

HCA (2 * 4x) Stecker 4x Stecker 12x

Infiniband−Switch (Sternwarte Hamburg)

9.4 Fazit / Zusammenfassung

➥ Optimierung von (Bisektions-)Bandbreite und Latenz

Kosten (oft) sekund ¨ar

➥ Heute Vernetzung i.d.R. mit Crossbar-Switches

blockierungsfrei

Virtual-Cut-Through bzw. Wormhole-Routing

feingranulare Flußkontrolle auf Bit ¨ubertragungsebene

bei h ¨oherer Knotenzahl: z.B. Clos-Netze

➥ Trend: Software Defined Networking

➥ Zur Reduktion der Latenz:

Einsatz von RDMA (

”zero copy“)

Betriebssystem-Bypass, z.B. VIA

Referenzen

ÄHNLICHE DOKUMENTE

➥ im Bsp.: Eigent ¨umer darf alles, Benutzer der Eigent ¨umer- gruppe darf nicht schreiben, f ¨ur alle anderen kein Zugriff. ➥ Rechte werden bei jedem (relevanten) Zugriff vom BS

➥ Priorit ¨at kann laufend ge ¨andert werden, abh ¨angig vom Verhalten des Threads (Feedback Scheduling). ➥ z.B.: Priorit ¨at bestimmt durch L ¨ange des letzten CPU-Bursts

Der Algorithmus terminiert auf jeden Fall: falls es zu Beginn keine Seite mit R = 0 gab, wird die ¨alteste Seite verdr ¨angt. Die hier gezeigte Realisierung ist der Clock

➥ Blockorientiertes Dateisystem (Datei = Menge von Bl ¨ocken). ➥ zusammenh ¨angende / verteilte Belegung von

Im WAN-Bereich werden Daten auch bei hohen Bandbreiten seriell ¨ubertragen (im Gegensatz z.B. zu neueren Ethernet-Standards, in denen Daten teilweise parallel ¨uber mehrere

➥ der gesamte Frequenzbereich ab 0 Hz wird f ¨ur DSL genutzt, ein Telefon kann also nicht mehr angeschlossen werden. ➥ als Modulation wird nicht DMT verwendet, sondern CAM

Beim klassischen (10 Mb/s) Ethernet wird alle 16 ms ein Puls von 100 ns L ¨ange auf die Leitung gegeben, falls keine ¨ Ubertragung stattfindet (Normal Link Pulse). Dadurch k ¨onnen

In den MIC fließt auch ein Nonce-Wert (bestehend u.a. aus Quelladresse und Pa- ketz ¨ahler des Frames) mit ein, da f ¨ur die Verschl ¨usselung und den MIC derselbe Schl ¨ussel