Open Telekom Cloud für Geschäftskunden

NVIDIA A100 GPU – Rechenpower und KI aus der Cloud

von Andreas Walz, Product Manager bei T-Systems
Leuchtend blaue Platine mit Schriftzug GPU in der Mitte
A100 GPUs sind für viele Hochleistungsanforderungen einsetzbar – und können kostengünstig aus der Cloud genutzt werden.
 

In diesem Artikel lesen Sie,

  • was NVIDIAs A100 Graphics Processing Unit (GPU) auszeichnet,
  • welche Einsatzszenarien sich für Unternehmen bieten und
  • wie Sie die Rechenleistung flexibel nach Bedarf in der Cloud nutzen.


Was einst ein Steckenpferd für Gamer war, ist längst im Einsatz bei Forschern, Ingenieuren und in Unternehmen. Sie alle schätzen die enorme Rechenleistung von modernen Graphics Processing Units (GPUs). An der Spitze dieser Entwicklung steht derzeit NVIDIA mit der A100 GPU, die vielseitige Einsatzszenarien erlaubt.

Boom auf dem Markt der Grafikprozessoren

Der Markt für Grafikprozessoren (Graphics Processing Units oder kurz GPUs) hat in den letzten Jahren eine beeindruckende Dynamik erlebt. Die Leistungsfähigkeit der Grafikkarten ist dramatisch gestiegen und hat beeindruckende Erlebnisse für die PC-Nutzer mit grafikintensiven Anwendungen geschaffen. Doch durch ihre Architektur bringen GPUs auch die Fähigkeit mit, Hochleistungsanforderungen zu bedienen. Die Zerlegung großer Workloads und deren parallele Bearbeitung sind ein wichtiger Enabler für High Performance Computing in Wissenschaft und Forschung. Nicht zuletzt spielen Grafikkarten auch für das Training und die Inferenz Künstlicher Intelligenzen (KI) eine herausragende Rolle. Für solche High-End-Zwecke haben GPU-Hersteller spezifische Grafikkarten für den Einsatz im Rechenzentrum konzipiert.

NVIDIA A100 – GPU-Standard im Rechenzentrum

Es kommt also nicht von ungefähr, dass NVIDIA sich als „weltweit führender Anbieter von KI-Computing“ positioniert. Mit ihren Produkten setzt NVIDIA immer wieder neue Bestmarken für das Leistungsvermögen von GPUs. Der aktuelle Preis-/Leistungs-Benchmark für KI-Training ist die A100 GPU.

Auch Konkurrenten wie der MI250 von MosaicML oder auch Chips des Herstellers AMD können der A100 derzeit nicht das Wasser reichen. Die A100 GPU basiert auf der Ampere-Architektur und hat die etwa 20-fache Rechenleistung der Vorgängergeneration. In Kombination mit der höchsten Speicherbandbreite der Welt (über zwei Terabyte pro Sekunde) liefert sie eine bislang nicht erreichte Rechenleistung.

Universell, aber anspruchsvoll

Die A100 ist nicht nur für einen spezifischen Anwendungsfall konzipiert: Sie trainiert KI-Modelle, berechnet komplexe Simulationen oder analysiert große Datenmengen. Doch der wahre Mehrwert der A100 liegt in ihrer Flexibilität und der Fähigkeit, gleichzeitig mehrere Workloads zu bewältigen. Die Multi-Instance-GPU-Technologie erlaubt es, die A100 in bis zu sieben unabhängige Instanzen zu unterteilen, womit mehrere kleine Jobs gleichzeitig bewältigt werden können.

Technische Daten der A100

  • Anzahl der Kerne: 6912 CUDA-Kerne
  • Speicherkapazität: 80GB HBM2e
  • Energieeffizienz: 19,5 TeraFLOPS pro Watt

Einsatzmöglichkeiten für Unternehmen

Die A100 GPUs unterstützen alle modernen Hochleistungsanforderungen für Simulation, Modellierung und KI in verschiedenen Branchen. In vielen Fällen machen sie durch die verkürzte Rechenzeit Einsatzszenarien sogar erst möglich oder verkürzen deren Zyklus – beispielsweise von Wochen auf Tage. Das erlaubt Unternehmen häufigere Einblicke und bessere Steuerungsmöglichkeiten. Einige Beispiele:

  • Energie:
    Intelligente Stromnetze werden dank des A100 Realität: Energieverbrauchsprognosen und Echtzeit-Analyse der Grid-Performance werden schneller und genauer. Die Echtzeit-Analyse von Daten aus Windkraftanlagen optimiert deren Betrieb, aber auch die Analyse seismischer Daten zur Identifikation neuer Energielagerstätten wird beschleunigt.
  • Fertigung und Wartung:
    In Predictive-Maintenance-Konzepten bewerten Vorhersage-Algorithmen den Zustand von Maschinen und erkennen Wartungsbedarfe frühzeitig. Mit der A100 GPU sind auch hier schnellere und detailgetreuere Auswertungen möglich, die eine optimale Produktionsplanung erlauben und Stillstandzeiten minimieren.
  • Gesundheit:
    Die A100 erlaubt schnelleres Training von Deep-Learning-Algorithmen. Aber auch der Einsatz (Inferenz) der Deep-Learning-Services beschleunigt sich: Ärzte und Forscher erhalten schnellere Analyse von medizinischen Daten für Studien und Prognosen. Vom Geschwindigkeitsgewinn profitiert auch die individuelle Diagnostik.

GPU-Power aus der Cloud: kosteneffizient und für alle zugänglich

Kein Geheimnis: Qualität hat ihren Preis. Die Anschaffung einer A100 ist ein teures Unterfangen: Die Listenpreise liegen bei etwa 20.000 € – wenn man sie bekommen kann. Die Cloud bietet eine elegante Möglichkeit, eine A100 bedarfsgerecht zu nutzen – immer dann, wenn sie nötig ist – und so die Kosten deutlich zu senken bzw. zu verteilen. Auf der Open Telekom Cloud beispielsweise kostet die Nutzung einer A100 als p3.2xlarge.8-Flavor mit 80GB HBM2 Hauptspeicher derzeit (Oktober 2023) 3,57 € pro Stunde. Das sind weit über 5.000 Betriebsstunden verglichen mit einem Kauf. Und Kosten fallen – ganz im Cloud-Sinne – nur dann an, wenn die GPU genutzt wird.

Wenn eine GPU stark genutzt und langfristig ausgelastet wird, kann ein Kauf erwogen werden – wenn man sich die Management-Aufwände antun will. Aber für Anwender, die Hochleistungsressourcen nur sporadisch oder temporär benötigen, ist die Nutzung aus der Cloud betriebswirtschaftlich sinnvoller. Außerdem ist die GPU jederzeit verfügbar, die „Lieferzeit“ verkürzt sich deutlich.

Zugleich zeigt sich daran das „demokratische Prinzip“ der Cloud: Sie ermöglicht auch kleineren Unternehmen den Zugriff auf High-End-Rechenkapazitäten. Eine umfassende Analyse über das Wochenende kostet nur knapp 200 € – ein Hundertstel des Anschaffungspreises und ein Betrag, der auch für Kleinstunternehmen tragbar ist. Für Langzeiteinsätze bietet die Open Telekom Cloud übrigens auch rabattierte Reserved-Pakete.

Auch in Zukunft auf Flexibilität setzen

Also kaufen oder mieten? Im letzten Fall nutzen Unternehmen eine bedarfsgerechte und flexible Alternative und vermeiden die hohen Anschaffungskosten. Denn eines ist gewiss: Das Ende der GPU-Technologie markiert auch die A100 nicht – die Konkurrenten schlafen nicht und bringen Dynamik in den Markt. Wo auch immer sich die GPU-Leistungen noch hin entwickeln werden: Die Cloud erlaubt Unternehmen den Zugriff auf die aktuellen GPU-Generationen – bedarfsgerecht und flexibel.


Diese Inhalte könnten Sie auch interessieren
 

Lila leuchtende und nebeneinander ausgerichtete Würfel mit einem hochstehender Würfel mit türkis-leuchtender Aufschrift AI

Künstliche Intelligenz (KI)

Künstliche Intelligenzen oder Neuronale Netze brauchen – zum jeweiligen Modell passende – leistungsfähige Rechenressourcen und Zugriff zu aufbereiteten Daten.
 

 
GPU-Server in einer Halle

GPU-Server: Die wichtigsten Fragen und Antworten für Unternehmen

Graphics Processing Units (GPUs) erlauben die Realisierung vieler moderner IT-Anwendungen mit Hochleistungsansprüchen. Mit der A100 GPU aus der Cloud können Unternehmen solche High-End-Ressourcen bedarfsgerecht und kosteneffizient aus der Cloud nutzen. 

 
Grafik mit Zahnrädern auf blauem Hintergrund

ModelArts (MA)

Mit ModelArts bietet die Open Telekom Cloud eine moderne und einfache Ende-zu-Ende-Entwicklungsplattform für Künstliche Intelligenz (KI), die das Training und die Bereitstellung von Modellen erlaubt.

  • Communities

    Die Open Telekom Cloud Community

    Hier treffen sich Nutzer, Entwickler und Product Owner um sich zu helfen, auszutauschen und zu diskutieren.

    Jetzt entdecken 

  • Telefon

    Kostenfreie Experten-Hotline

    Unsere zertifizierten Cloud-Experten stehen Ihnen mit persönlichem Service zur Seite.

     0800 3304477 (aus Deutschland)

     
    +800 33044770 (aus dem Ausland)

     
    24 Stunden am Tag, 7 Tage die Woche

  • E-Mail

    Unser Kunden-Service steht Ihnen per E-Mail-Support kostenlos zur Verfügung.

    E-Mail schreiben