Open Telekom Cloud für Geschäftskunden

BigData Analytics mit der Open Telekom Cloud

von Michael Matzer

Je stärker die Informationstechnologie (IT) und BigData zum Erfolg und zum Ertrag eines Unternehmens beitragen, desto mehr eignet sie sich dafür, durch geeignete Werkzeuge wie etwa BigData Analytics Einsichten in den aktuellen und vergangenen Betriebsablauf und Geschäftsverlauf zu liefern. Was bislang nur aus Jahresgeschäftsberichten und Quartalsberichten ersichtlich sein mag, kann durch BigData Analytics in wöchentlichen, täglichen, ja sogar stündlichen Übersichten auf Kennzahlen (Key Performance Indicators, KPIs) dem Führungsstab eines Unternehmens entscheidungsunterstützende Informationen liefern, die sich rasch in Aktionen ummünzen lassen.

BigData Analytics mit der Open Telekom Cloud
Täglich schwillt die Flut an Informationen immer weiter an – hier entsteht also im wahrsten Sinne des Worte BigDataBigData Analytics mit der Open Telekom Cloud
 

Business Intelligence vs. Big Data

Mehrere Faktoren drängen ein Unternehmen heute dazu, sich durch BigData Analysen, wie Reports, Data Mining und Predictive Analytics Vorteile im globalen Wettbewerb zu verschaffen. Die Kunden verlangen beispielsweise Pünktlichkeit und Zuverlässigkeit in Lieferung und Produktqualität. Firmenintern sind dafür jedoch Planungs-, Steuerungs- und Überwachungssysteme erforderlich. Deren Daten ("Big Data") müssen laufend automatisch ausgewertet und analysiert werden.

Sollte ein Störfall in einer der Produktionsanlagen oder in der Logistik auftreten, sollte der Unternehmer in der Lage sein, rasch auf einen "Plan B" umzuschalten. Das war beispielsweise der Fall, als 2012 ein Vulkan in Island Aschewolken über Nordeuropa verteilte und der Flugverkehr eingestellt wurde. Um flexibel die Abläufe umschalten zu können, reicht es also nicht mehr, historische Daten von gestern oder einer Woche auszuwerten - aktuellste Daten und die Auswertung von enormen Mengen dieser Daten sind vonnöten, um Disposition, Planung und Logistik auf Erfolgskurs zu halten.

Dies leistet etwa Ad-hoc-BigData-Analyse, die im Arbeitsspeicher, also "in-memory" ausgeführt wird. Diese Analyse stützt sich in der Regel auf strukturierte Daten, die sich mit der Abfragesprache SQL (Structured Query Language) schnell und effizient auswerten lassen.

BigData-Anforderungen

Flexibilität und Performance in der Nutzung und Aktualität hinsichtlich Datenqualität sind zwei von mehreren Anforderungen an Business Intelligence. Aber wie steht es um die Skalierbarkeit der vorhandenen IT-Systeme bei der Aufnahme von unstrukturierten oder halbstrukturierten Datentypen, also jenen Datentypen, die BigData ausmachen? Diese eignen sich weniger für strukturierte Business Intelligence Formen wie Data Warehouse, Reports und Dashboards, sondern eher für Vorhersagenfunktionen, wie etwa vorausschauende Wartung. Allein schon der Umfang mit BigData würde die optimierten BI-Systeme stark verlangsamen und so in ihrem Wert beeinträchtigen.

Täglich schwillt die Flut an Informationen, die aus Logfiles, Mobilgeräten oder Social Media Texten in die firmeneigene IT-Infrastruktur, etwa einen sogenannten "Data Lake", fließen, immer weiter an – hier entsteht also im wahrsten Sinne des Worte BigData. Die Frage, ob der Data Lake wirklich im eigenen Haus (sprich: IT-Abteilung) betrieben werden muss, stellt sich immer drängender, ob die vorhandenen Systeme noch zu vertretbaren Kosten erweitert werden können, oder ob die nötigen Kapazitäten zur Verarbeitung und Analyse von BigData nicht günstiger bei einem Cloud-Dienstleister zu mieten sind.

Schließlich gehört der Betrieb einer IT-Infrastruktur für BigData nicht gerade zum Kerngeschäft eines Unternehmens. Die Open Telekom Cloud bietet Infrastructure as a Service (IaaS), stellt also Speicher-, Compute- und Netzwerkressourcen aus der Cloud bereit, die optimal auf die Analyse von BigData vorbereitet sind.

Heute werden höchstens zehn Prozent dieser stetig ungeordnet und unvorhersehbar hereinströmenden Massendaten - allgemein "Big Data genannt" - ausgewertet, selbst wenn die besten Business-Intelligence-Systeme für BigData Analytics zum Einsatz kommen. Hier müssen also Big-Data-Systeme angewandt werden.

Zu solchen Systemen zur BigData-Analyse gehört in der Regel eine Distribution von Apache Hadoop, optional eine SQL-Erweiterung, eine Entwicklungs- und Reportumgebung sowie diverse Analysewerkzeuge. Alternativ lässt sich auch Apache Spark nutzen, das eine In-memory-Architektur nutzt, wodurch die Datenverarbeitung beschleunigt wird.

Da nach Erkenntnissen von Marktforschern ein hoher Prozentsatz von BigData-Projekten scheitert, lohnt es sich, von Anfang sowohl erfahrene Fachleute für BigData Analytics hinzuziehen, als auch Rechen- und Speicherkapazitäten für BigData anzumieten, statt sie selbst risikoreich zu kaufen. Ein großer Teil von BigData-Projekten wird aus diesem Grund von vornherein von Spezialisten auf Cloud-Plattformen betrieben. Zu diesen Spezialisten für BigData Analytics zählen Data Scientists und Enterprise Architects.

Hadoop und MapReduce

Alles begann bei Google. Was Google brauchte, um effizient und performant BigData auszuwerten, war eine Methode, um große Datenmengen aufzuteilen, auf einem Cluster von Rechnerknoten zu verteilen und diese Server die Daten verarbeiten zu lassen. Diese Methode heißt MapReduce. Der Anfang von MapReduce liegt in Googles Entwicklung einer großen Datenbank namens BigTable, die sich über einem Cluster von Rechenknoten (Nodes) verteilen ließ.

Aus der Google-Datenbank BigTable entstand das quelloffene Projekt Hadoop. Das inzwischen verbreitet genutzte Apache Hadoop ist zunächst mal ein Dateisystem (HDFS), das sich beliebig erweitern und über mehrere Rechnerknoten verteilen lässt: ein Rechner-Cluster, der mehrere hundert Petabyte speichern kann. Zusatzmodule wie MapReduce, Hbase und Hive machen Hadoop zu einer vollwertigen, spaltenorientierten Datenbank, die große Datenmengen aufnehmen kann.

BigData-Technologie: Das MapReduce-Programmiermodell

Googles Technik MapReduce in BigTable war am Anfang bahnbrechend. Nicht nur konnten damit Rechenaufgaben aufgeteilt, verteilt und parallel ausgeführt werden, sondern MapReduce speicherte BigData auf eine ganz andere Weise als die traditionellen Datenbanken.

Statt in Feldern, die durch Spalten und Zeilen definiert werden, bestehen MapReduce-Daten aus prinzipiell nur einem Schlüssel und einem Wert. Wenn der Schlüssel „Kundenname“ lautet, kann der Wert beispielsweise „Otto Müller“ lauten. Eine Transaktion, wie etwa ein Kauf lässt sich schon auf drei Schlüssel/Wert-Paare reduzieren: Käufername, Artikel und Preis. Die Metadaten enthalten noch den Zeitstempel (Datum, Tag, Uhrzeit), die IP-Adresse und weitere Verbindungsdaten.

Hadoop-Komponenten

Die Ablagestruktur für solche Datenmengen ist, was ja naheliegt, ein Netzwerk-Cluster mit Speicherkapazitäten. Ein Knoten übernimmt die Steuerung (NameNode), die anderen die Berechnungen (DataNodes) im Cluster. Das Dateisystem für dieses Cluster trägt den Namen „Hadoop Distributed File System“ (HDFS). Man kann aber HDFS auch durch GPFS (General Parallel File System), das von IBM unter dem Namen „Spectrum Scale“ vertrieben wird, ersetzen, um verschiedene Vorteile bei BigData Analytics zu bekommen.

Der MRS Service der Open Telekom Cloud

Der Service MapReduce (MRS) bietet dem Nutzer von BigData Analytics eine Suite von Tools, die Big-Data-Analysen ermöglicht. Dazu gehören sowohl die Speicherkapazitäten und -methoden als auch Analyse-Funktionen.

Genauer gesagt handelt es sich um folgende Komponenten, die entscheidend für BigData Analytics sind: MRS bietet Hadoop Common als Filesystem und Plattform, Hbase als verteilte NoSQL-Datenbank, Hive als SQL-Abfrage-Werkzeug, die Compute-Engine Spark als Hadoop-Alternative für schnellere Abfragen sowie das Tool Loader, um Massendaten hochzuladen. Spark erlaubt In-memory-Abfragen, die MRS Suite von Haus aus jedoch nicht. Aber sie hat andere Möglichkeiten, In-memory-Computing zu unterstützen.

Über die bei Hadoop und Spark üblichen Rechner-Cluster werden die notwendigen Kapazitäten für die Dauer einer BigData-Analyse bereitgestellt, inklusive eines Monitoring Tools. Die für die Auswertungen kritischen Dienste arbeiten in einem aktiven Stand-by-Modus. Sollte also einmal ein aktiver Server ausfallen, übernimmt in Minutenschnelle ein Ersatz-Server die Arbeit.

Eine weitere Komponente der Suite ist das Konfigurations- und Synchronisationswerkzeug Apache ZooKeeper. Daten können im Object Storage Service (OBS) der Open Telekom Cloud gespeichert werden. Nutzer können auf dieser Grundlage Analyse-Jobs anstoßen. Über eine REST-API oder durch einen Konsolenzugriff können Cluster erzeugt, konfiguriert, erweitert und durchsucht werden.

Streaming Analytics

Ein aus dem Internet der Dinge, wie dem Smart Grid, aus Sensoren, von Windkraftanlagen oder Maschinen aller Art gelieferter Strom von Daten – meist Log- und Sensordaten – wird als Streaming-Data bezeichnet. Den Prozess, diese Form von BigData effizient auszuwerten, nennt man Streaming Analytics. Als Dienste für Streaming Analytics stehen zunächst einmal der Streaming-Service Apache Storm und der Messaging-Dienst Apache Kafka zur Verfügung.

Carbon Data ist ein indiziertes Format für die Speicherung von Daten in Spaltenform und eignet sich sehr für schnelles Schreiben großer Datenmengen, etwa auf Hadoop, Spark oder Storm. Das Tool wird durch die Logdateien-Verwaltung Apache Flume ergänzt. Solche Logdateien gehen ja nicht nur, wie gesagt, ständig ins System ein, sondern werden von diesem auch erzeugt, um dem Systemverwalter die Verwaltung und Überwachung von Big Data Analysen zu erleichtern.

Für den Nutzer bietet der MRS also einen großen Umfang an Technologien und Werkzeugen, um professionell und erfolgreich ein Big Data Projekt auf die Beine zu stellen und die nötigen BigData Analytics durchführen zu können.

 
Michael Matzer
Michael Matzer
 

Michael Matzer, M.A., arbeitet seit 1991 als IT-Journalist und Buchautor und lebt in der Nähe von Stuttgart.


Jetzt direkt buchen und 250 € Startguthaben sichern

 

Haben Sie Fragen?

Wir beantworten Ihre Fragen zu Testmöglichkeit, Buchung und Nutzung – kostenfrei und individuell. Probieren Sie es aus! Hotline: 24 Stunden am Tag, 7 Tage die Woche
0800 3304477 aus Deutschland / 00800 33044770 aus dem Ausland

  • Communities

    Die Open Telekom Cloud Community

    Hier treffen sich Nutzer, Entwickler und Product Owner um sich zu helfen, auszutauschen und zu diskutieren.

    Jetzt entdecken 

  • Telefon

    Kostenfreie Experten-Hotline

    Unsere zertifizierten Cloud-Experten stehen Ihnen mit persönlichem Service zur Seite.

     0800 3304477 (aus Deutschland)

     
    +800 33044770 (aus dem Ausland)

     
    24 Stunden am Tag, 7 Tage die Woche

  • E-Mail

    Unser Kunden-Service steht Ihnen per E-Mail-Support kostenlos zur Verfügung.

    E-Mail schreiben