0800 330447724 Stunden am Tag, 7 Tage die Woche
E-Mail schreiben

Jetzt starten und 250 € Startguthaben sichern

HPC-Cluster: In der Cloud oder on-premise betreiben?

25.11.2020 von Redaktion

HPC-Cluster (High Performance Computing Cluster) sind die perfekte Plattform für Firmen, die Erkenntnisse aus Computersimulationen suchen – sei es um den Luftstrom eines Flugzeugs zu optimieren, den Verbrennungsvorgang innerhalb eines Motors zu verbessern, Klimamodelle zu erstellen oder um das Risiko eines Investment-Portfolios zu bewerten.

Unternehmen jeder Größenordnung entdecken diese Computernetzwerke für komplexe mathematische Berechnungen für sich: Laut Hyperion Research, einer auf das Thema spezialisierten Unternehmensberatung, werden die weltweiten Einnahmen durch High Performance Computing bis 2022 über 19,5 Milliarden US-Dollar erreichen. Ein wachsender Teil dieses Budgets wird in die Cloud investiert: Die Unternehmensberatung Gartner schätzt, dass der Anteil der Unternehmen, die HPC-Cluster in der Cloud betreiben, bis 2023 auf 30 Prozent steigen wird.

Wenn auch Sie über die Anschaffung eines HPC-Clusters für Ihr Unternehmen nachdenken, müssen Sie sich entscheiden, ob Sie es in einem eigenen Rechenzentrum oder in der Cloud betreiben wollen. Sehen wir uns diese beiden Optionen genauer an.

Was ist ein HPC-Cluster und wie ist es aufgebaut?

Ein HPC-Cluster besteht aus einem Netzwerk von oft Hunderten oder Tausenden von Servern, die miteinander vernetzt sind. Zusammen erreichen sie Verarbeitungsgeschwindigkeiten, die einst nur Supercomputern möglich waren. Dabei sind sie weit kostengünstiger und einfacher zu skalieren.

In einem solchen Cluster werden die einzelnen Computer als „Nodes“ bezeichnet. Es besteht in der Regel aus mehreren verschiedenen Node-Typen. Hier die drei wichtigsten:

Head Node oder Master Node: Dieser Node kontrolliert die anderen und vergibt diesen Arbeitsaufträge. Meist wählt sich der Benutzer auch über ihn ein – daher wird er oft auch Login-Node genannt.
Compute Nodes: Sie sind die Arbeitstiere des Clusters und führen die Berechnungen durch. Als Hardware sind sie meist mit vielen CPUs mit hohen Taktraten und viel Arbeitsspeicher ausgestattet, während die Festplatten eher klein gehalten sind.
Speicherknoten oder Speichersystem: Diese Nodes dienen als persistenter Speicher des Clusters. Sie enthalten meist ein hochleistungsfähiges, paralleles Dateisystem (PFS), das es allen Knoten ermöglicht, parallel mit den Speicherlaufwerken zu kommunizieren.

Unternehmen, die planen, ein solches HPC-Cluster zu betreiben, müssen aus drei Möglichkeiten für deren Betrieb wählen:

AllCloud: Das Cluster läuft vollständig in der Cloud.
On-premise: Das HPC-Cluster wird komplett in einem eigenen Rechenzentrum betrieben.
Cloud Bursting: Es wird in einem eigenen Rechenzentrum betrieben, bei Lastspitzen wird jedoch auf Reserven in der Public Cloud zurückgegriffen.

Lassen Sie uns einen genaueren Blick auf jede dieser drei Optionen werfen.

HPC-Cluster in der Cloud

Bei der AllCloud-Option sind alle Komponenten der HPC-Infrastruktur, wie Master Node, Compute Nodes und Storages Nodes, in der Cloud-Umgebung untergebracht. Der Benutzer verbindet sich mit dem Master Node des HPC-Clusters über einen Fernzugriff wie zum Beispiel SSH, um den HPC-Workload zu konfigurieren und zu starten.

Unternehmen werden sich schnell der Vorteile von Cloud Computing im HPC-Bereich bewusst. Daher prognostiziert Hyperion, dass die Ausgaben für High Performance Computing in der Cloud bis 2022 um 83 Prozent steigen werden.

Das überrascht nicht, da es mehrere Vorteile bietet: So reduziert es die Zeit und die Kosten für die Bereitstellung. Durch HPC in der Cloud vermeiden Sie die hohen Anfangsinvestitionen und langwierigen Beschaffungszyklen einer Implementierung in einem eigenen Rechenzentrum: Ein Cluster in der Cloud kann jederzeit erstellt, nach Bedarf skaliert und nach Abschluss des Projekts wieder aufgelöst werden – Sie zahlen nur für die von Ihnen genutzte Kapazität. Außerdem können Sie unter verschiedensten Hardwarekonfigurationen wie beispielsweise CPU- oder GPU-Typen wählen, diese kurzzeitig ausprobieren und sich für jene entscheiden, welche die besten Resultate mit Ihrem Workload bietet.

Weiterhin bieten Cloud-Anbieter oft Preismodelle, die Ihnen erhebliche Kosteneinsparungen bringen, wenn Sie Ihre Workloads zeitlich flexibel managen können:

On-demand: Bezahlung von Rechenressourcen pro Stunde oder pro Sekunde. Diese Option eignet sich gut für gelegentliche Spitzen in der Arbeitsbelastung.
Reserved: Reservieren Sie einen Zeitblock für die Ausführung einer bestimmten vorgeplanten Arbeit. Einige Cloud-Anbieter bieten einen niedrigeren Preis für im Voraus geplante Aufträge.
Spot: Der Benutzer gibt Gebote für ungenutzte Kapazität im Cloud-Netzwerk ab. Diese Option bietet oft einen geringeren Preis für Aufträge, die außerhalb der Spitzenlastzeiten ausgeführt werden können.

Während ein Cluster im eigenen Rechenzentrum Gefahr läuft, durch technologische Veränderungen zu veralten, bietet Ihnen HPC in der Cloud Zugriff auf neue Technologien, ohne dass Sie Hardware austauschen müssen. Weiterhin befreit es IT-Administratoren von der Verwaltung kapitalintensiver physischer Hardware, sodass sie sich auf die Softwareentwicklung und -analyse konzentrieren können.

Allerdings kann ein HPC-Cluster in der Cloud Ihre IT-Administratoren nicht von allen Verwaltungsaufgaben entlasten. So sind sie immer noch mit der Verwaltung und Wartung von Betriebssystemen, Netzwerken (in Form von VPCs), Anwendungssoftware und den verteilten Software-Frameworks beschäftigt. Dazu kommen neue Herausforderungen wie die Verwaltung von Cloud-Credentials, VPNs, Direct-Connect- und PLAS-Angeboten und Datensynchronisation.

Auch müssen Sie beachten, ob Ihr Workload für eine reine Verarbeitung in der Cloud geeignet ist. Insbesondere sehr rechenintensive Anwendungen, bei denen wenig Kommunikation zwischen den Nodes oder Datenverschiebungen über Netzwerk-Verbindungen notwendig sind, profitieren von der einfachen Skalierbarkeit der Rechenleistung, die von der Cloud bereitgestellt wird. Ein typisches Beispiel dafür ist die Genomsequenzierung.

Kurz zusammengefasst – die AllCloud-Option ist ideal für diese Szenarien:

Sie wollen ein HPC-System schnell einrichten, ohne auf den Kauf, die Montage und die Konfiguration der Hardware warten zu müssen.
Sie brauchen das HPC-Cluster nur vorübergehend oder erwarten, dass es nicht ausreichend genutzt wird, um die Kosten für die Anschaffung eines Clusters on-premise zu rechtfertigen.
Sie haben einen rechenintensiven Workload, der wenig Kommunikation zwischen den Nodes erfordert.

HPC-Cluster on-premise betreiben

Die Frage, ob Unternehmen ihre Simulationen „on-premise“ betreiben sollen – also in einem eigenen Rechenzentrum – oder in der Cloud, ist vor allem eine Kostenfrage. Der Aufbau eines eigenen Rechenzentrums ist eine langfristige Investition: Nicht nur Server, Software und Netzwerk müssen bereitgestellt werden, sondern auch Strom, Kühlung, Gebäude, Personal und Versicherungen. Dabei werden die Kosten für High Performance Computing durch den Preis vergleichbar gemacht, den der Betrieb einer CPU (auch „Core“ genannt) pro Stunde verursacht. Der Core-pro-Stunde-Preis eines eigenen HPC-Rechenzentrums ist natürlich umso niedriger, je besser dieses ausgelastet ist und je länger es betrieben wird. Dabei müssen Sie auch berücksichtigen, dass Hardware wie Prozessoren mit der Zeit obsolet wird und gegen neuere ausgetauscht werden muss.

Doch neben den Kosten spielt auch die Art der Aufgabe, die mit dem HPC-Cluster gelöst werden soll, eine Rolle. In einem eigenen Rechenzentrum können Unternehmen „nah am Metall“ arbeiten und die Hardware optimal an die Aufgabe anpassen. Dadurch können Latenzen bei der Kommunikation über Netzwerke und zwischen den Nodes auf ein Minimum reduziert werden. Da eine Cloud-Lösung in der Regel durch softwaresimulierte Virtual Machines benutzt wird, kann sie meist nicht die niedrigen Latenzen eines eigenen HPC-Rechenzentrums erreichen. Zudem muss beim Betrieb eines HPC-Clusters in der Public Cloud der Workload zuerst über das Internet hochgeladen werden. Es kann durchaus sein, dass Workloads so groß sind, dass es nicht praktikabel oder unrentabel ist, sie über das Internet in die Public Cloud zu verschieben.

Tendenziell ist daher eine On-Premise-Lösung für sehr große Workloads, die viel Kommunikation zwischen den Nodes und über Netzwerke erfordern, besser geeignet. Letztlich wird hier aber immer der Frage nach Amortisierung der Investitionen und den Kosten pro Core-Stunde der Ausschlag gegeben.

Kurz zusammengefasst – die On-Premise-Option ist ideal für diese Szenarien:

Sie erwarten, dass Sie das HPC-Cluster über einen langen Zeitraum und mit hoher Intensität nutzen werden.
Ihre Aufgabe erfordert viel Kommunikation zwischen Nodes und über Netzwerke.
Sie haben einen extrem großen Workload, dessen Upload und Konfiguration über das Internet zu Verzögerungen oder hohen Kosten führen würde.

Cloud Bursting

Bei einem Burst-Szenario betreiben Unternehmen einen Hauptknoten, Compute Nodes sowie Storage Nodes in ihren lokalen Rechenzentren – genau wie bei der On-Premise-Option. Zusätzlich schalten sie aber bei Spitzenlasten Compute Nodes bei einem Cloud-Anbieter dazu.

Die Cloud-Bursting-Konfiguration verbindet die Vorteile der On-Premise-Option mit denen einer Cloud-Lösung. Sie können Kosten und Wartungsaufwand für Ihr HPC-Rechenzentrum senken, haben bei Bedarf aber trotzdem die Möglichkeit, große Workloads auszuführen.

Wenn Sie bereits ein HPC-System besitzen und einen kostengünstigen Weg zum Upgrade suchen, ist Bursting die beste Option. Auch wenn Sie planen, ein neues HPC-System zu bauen, können Sie mit Bursting Geld sparen, indem Sie Ihre lokale HPC-Präsenz für weniger als die erwartete Höchstlast entwerfen und bei Bedarf in die Cloud hochskalieren.

Eine Bursting-Konfiguration erfordert eine sichere und geeignete Internetzugangsmethode zur Integration von Cloud-Knoten mit der lokalen Infrastruktur. Der Netzwerkzugang erfolgt in der Regel über ein VPN-Gateway oder eine dedizierte Netzwerkverbindung mit hoher Bandbreite wie Direct Connect oder PLAS.

Kurz zusammengefasst – Cloud Bursting ist ideal für diese Szenarien:

Sie wollen ein bestehendes HPC-Cluster in einem Rechenzentrum upgraden, aber nicht in teure Hardware investieren.
Sie planen, ein HPC-Cluster in einem eigenen Rechenzentrum aufzubauen, und wollen Kosten sparen, indem Sie bei Auslastungsspitzen auf die Public Cloud zurückgreifen.

Fazit

HPC-Cluster bieten leistungsfähige Rechenressourcen, um Simulationen und Modellierungen durchzuführen. Eine Implementierung in einem eigenen Rechenzentrum lohnt sich dabei nur, wenn der Betrieb über einen sehr langen Zeitraum mit einer hohen Auslastung sichergestellt ist. In den meisten Fällen planen Unternehmen Berechnungen allerdings temporär – daher ist ein Betrieb in der Cloud meist kostengünstiger. Auch bestehende HPC-Cluster können durch Cloud Bursting kosteneffizient erweitert werden, indem sie bei Lastspitzen auf Ressourcen aus der Cloud zurückgreifen. Mit High Performance Computing aus der Cloud der Deutschen Telekom können Sie dabei flexibel wachsen – von einem bis hin zu 720.000 Cores.

Jetzt direkt buchen und 250 € Startguthaben sichern

Jetzt buchen

Haben Sie Fragen?

Wir beantworten Ihre Fragen zu Testmöglichkeit, Buchung und Nutzung – kostenfrei und individuell. Probieren Sie es aus! Hotline: 24 Stunden am Tag, 7 Tage die Woche
0800 3304477 aus Deutschland / 00800 33044770 aus dem Ausland

E-Mail schreiben