Data Lake Insight (DLI)

Data Lake Insight (DLI) ist ein serverloser Big-Data-Abfrage- und Analysedienst. Er ist vollständig mit den Ökosystemen von Apache Spark und Apache Flink kompatibel. DLI unterstützt Standard-SQL und ist mit Spark und Flink SQL kompatibel. Er unterstützt außerdem mehrere Zugriffsmodi und ist mit den gängigen Datenformaten kompatibel. DLI unterstützt SQL-Anweisungen und Spark-Anwendungen für heterogene Datenquellen, einschließlich CloudTable, RDS, DWS, CSS, OBS, benutzerdefinierte Datenbanken auf ECSs und Offline-Datenbanken.

Spark ist eine einheitliche Analyse-Engine, die sich ideal für die Verarbeitung großer Datenmengen eignet. Sie konzentriert sich auf Abfragen, Berechnungen und Analysen. DLI optimiert die Leistung und baut Dienste auf der Grundlage von Open-Source-Spark neu auf. Es ist mit dem Apache Spark-Ökosystem und den Schnittstellen kompatibel und verbessert die Leistung um das 2,5-fache im Vergleich zu Open-Source Spark. Auf diese Weise können Sie mit Data Lake Insight Abfragen und Analysen von EB-Daten innerhalb weniger Stunden durchführen.

Flink ist eine verteilte Rechenmaschine, die sich ideal für die Stapelverarbeitung eignet, d. h. für die Verarbeitung statischer und historischer Datensätze. Sie kann auch für die Stream-Verarbeitung verwendet werden, d. h. für die Verarbeitung von Echtzeit-Datenströmen und die Generierung von Datenergebnissen in Echtzeit. DLI verbessert die Funktionen und die Sicherheit auf der Grundlage des Open-Source-Projekts Flink und bietet die für die Datenverarbeitung erforderliche Stream-SQL-Funktion.

Frau arbeitet vor mehreren Bildschirmen in einem Rechenzentrum

Gründe für DLI in der Open Telekom Cloud

Einfache Nutzung

Mit DLI können Sie ganze Terabytes in Ihrem Data Lake in Sekundenschnelle mit Hilfe von Standard-SQLs erforschen, ohne dass Sie sich um den Betrieb kümmern müssen.

Icon mit Kreisdiagramm und Sprechblase mit Bullet List

Analyse aus einer Hand

Vollständig kompatibel mit Apache Spark und Flink; Stream- und Stapelverarbeitung sowie interaktive Analyse an einem Ort.

Icon mit Zahnrad und Pfeilsymbol für Skalierbarkeit

Skalierbare Ressourcen

Gemeinsamer On-Demand-Zugriff auf gepoolte Ressourcen, flexible Skalierung auf der Grundlage voreingestellter Prioritäten.

Quellenübergreifende Verbindung

Einfacher quellenübergreifender Datenzugriff für kollaborative Analysen mit DLI-Datenquellenverbindungen, keine Datenmigration erforderlich.

Key Features von DLI

Frau mit Stift in der Hand arbeitet vor mehreren Bildschirmen, die verschiedene Daten anzeigen

Vollständige SQL-Kompatibilität

Für die Durchführung von Big-Data-Analysen benötigen Sie keine Vorkenntnisse im Bereich Big Data. Sie brauchen nur SQL-Kenntnisse, und schon können Sie loslegen. Die SQL-Syntax ist vollständig kompatibel mit dem Standard ANSI SQL 2003.

Serverloses Spark/Flink

Migrieren Sie Ihre Offline-Anwendungen nahtlos in die Cloud mit serverloser Technologie. DLI ist vollständig kompatibel mit den Ökosystemen und APIs von Apache Spark, Apache Flink und Presto.

Quellenübergreifende Analyse

Analysieren Sie Ihre Daten datenbankübergreifend. Keine Migration erforderlich. Eine einheitliche Sicht auf Ihre Daten verschafft Ihnen ein umfassendes Verständnis Ihrer Daten und hilft Ihnen, schneller zu innovieren. Es gibt keine Einschränkungen in Bezug auf Datenformate, Cloud-Datenquellen oder ob die Datenbank online oder offline erstellt wird.

Unternehmen mit mehreren Mandanten

Verwalten Sie rechen- oder ressourcenbezogene Berechtigungen projekt- oder benutzerspezifisch. Genießen Sie eine feinkörnige Kontrolle, die es einfach macht, die Datenunabhängigkeit für separate Aufgaben zu erhalten.

Entkopplung von Speicher und Rechner

DLI entkoppelt die Speicherung von der Datenverarbeitung, so dass Sie niedrigere Kosten nutzen und gleichzeitig die Ressourcenauslastung verbessern können.

O&M-frei und hohe Verfügbarkeit

DLI befreit Sie von komplizierten O&M- und Upgrade-Vorgängen, während Sie dank der Dual-AZ-Bereitstellung von hoher Datenverfügbarkeit profitieren.

Identitäts- und Zugriffsmanagement

DLI verfügt über einen umfassenden Mechanismus zur Steuerung von Berechtigungen und unterstützt eine fein abgestufte Authentifizierung durch Identity and Access Management (IAM). Sie können in IAM Richtlinien erstellen, um DLI-Berechtigungen zu verwalten. Sie können sowohl den Berechtigungskontrollmechanismus von DLI als auch den IAM-Dienst für die Berechtigungsverwaltung verwenden.

Anwendungsszenarien der IAM-Authentifizierung

Bei der Verwendung von DLI in der Cloud müssen Enterprise-Benutzer DLI-Ressourcen (Warteschlangen) verwalten, die von Mitarbeitern in verschiedenen Abteilungen genutzt werden, einschließlich der Erstellung, Löschung, Verwendung und Isolierung von Ressourcen. Darüber hinaus müssen die Daten der verschiedenen Abteilungen verwaltet werden, einschließlich der Datenisolierung und -freigabe.

DLI verwendet IAM für ein ausgefeiltes Multi-Tenant-Management auf Unternehmensebene. IAM bietet Identitätsauthentifizierung, Berechtigungsverwaltung und Zugriffskontrolle und unterstützt Sie beim sicheren Zugriff auf Ihre Cloud-Ressourcen.

Mit IAM können Sie Ihr Cloud-Konto verwenden, um IAM-Benutzer für Ihre Mitarbeiter zu erstellen und den Benutzern Berechtigungen zuzuweisen, um ihren Zugriff auf bestimmte Ressourcentypen zu steuern. Müssen beispielsweise einige Softwareentwickler in Ihrem Unternehmen DLI-Ressourcen nutzen, dürfen diese aber nicht löschen oder risikoreiche Operationen durchführen, können Sie IAM-Benutzer für die Softwareentwickler anlegen und ihnen nur die für die Nutzung von DLI-Ressourcen erforderlichen Berechtigungen zuweisen.

DLI Systemberechtigungen

Rollen: Eine Art grobkörniger Autorisierungsmechanismus, der Berechtigungen in Bezug auf Benutzerzuständigkeiten definiert. Dieser Mechanismus bietet nur eine begrenzte Anzahl von Rollen auf Dienstebene für die Autorisierung. Wenn Sie Rollen für die Erteilung von Berechtigungen verwenden, müssen Sie auch andere Rollen zuweisen, von denen die Berechtigungen abhängen, damit sie wirksam werden. Rollen sind jedoch nicht die ideale Wahl für eine fein abgestufte Autorisierung und sichere Zugriffskontrolle.

Policies: Eine Art fein abgestufter Autorisierungsmechanismus, der die für die Durchführung von Vorgängen auf bestimmten Cloud-Ressourcen unter bestimmten Bedingungen erforderlichen Berechtigungen definiert. Dieser Mechanismus ermöglicht eine flexiblere richtlinienbasierte Autorisierung, die die Anforderungen an eine sichere Zugriffskontrolle erfüllt. So können Sie beispielsweise DLI-Benutzern nur die Berechtigungen für die Verwaltung eines bestimmten ECS-Typs erteilen.

Name der Rolle/Policy	Beschreibung	Kategorie
DLI FullAccess	Sämtliche Berechtigungen für DLI	Systemdefinierte Policy
DLI ReadOnlyAccess	Leseberechtigungen für DLI	Systemdefinierte Policy
Tenant Administrator	Tenant Administrator Verwalten Sie Berechtigungen für die Administration sämtlicher Cloud-Dienste und den Zugriff auf diese. Nachdem eine Datenbank oder eine Warteschlange erstellt wurde, kann der Benutzer die Access Control List (ACL) verwenden, um anderen Benutzern Rechte zuzuweisen. Umfang: Service auf Projektebene	Systemdefinierte Rolle
DLI Service Admin	DLI Administrator Verwalten Sie Berechtigungen für die Administration der Warteschlangen und Daten von DLI sowie den Zugriff darauf. Nachdem eine Datenbank oder eine Warteschlange erstellt wurde, kann der Benutzer die Access Control List (ACL) verwenden, um anderen Benutzern Rechte zuzuweisen. Umfang: Service auf Projektebene	Systemdefinierte Rolle

DLI Dienstberechtigungen

Berechtigungstyp	Subtyp	SQL Syntax
Queue Permissions	Queue management permissions Queue usage permission	None
Data Permissions	Database permissions Table permissions Column permissions	Weitere Informationen erhalten Sie unter SQL Syntax of Batch Jobs > Data Permissions Management > Data Permissions List in der Data Lake Insight SQL Syntax Reference.
Job Permissions	Flink job permissions	None
Package Permissions	Package group permissions Packe permissions	None
Datasource Connection Permissions	Datasource connection permissions	None

Weitere Informationen zur API-Definition erhalten Sie unter Granting Users with the Queue Usage Permission in der Data Lake Insight API Reference.

Features der DLI-Konsole

SQL-Editor

Sie können SQL-Anweisungen im SQL-Job-Editor verwenden, um Datenabfragen auszuführen. DLI unterstützt SQL 2003 und ist mit Spark SQL kompatibel.

Klicken Sie auf der Übersichtsseite im linken Navigationsbereich auf „SQL Editor“ oder in der oberen rechten Ecke des Bereichs „SQL-Jobs“ auf "Job erstellen". Die Seite „SQL Editor“ wird angezeigt.

Es wird eine Meldung angezeigt, die darauf hinweist, dass ein temporärer DLI-Datenbereich erstellt wird. Der erstellte Bucket wird zum Speichern von temporären Daten verwendet, die von DLI generiert werden, wie z. B. Jobprotokolle. Sie können Jobprotokolle nicht anzeigen, wenn Sie den Bucket nicht erstellen. Sie können Objekte in einem Bereich periodisch löschen oder Objekte zwischen verschiedenen Speicherklassen übertragen. Der Bucket-Name ist standardmäßig festgelegt.

Job-Management

SQL-Jobs ermöglichen die Ausführung von SQL-Anweisungen, die im 4 SQL Editor eingegeben wurden, sowie den Import und Export von Daten.

Die SQL-Auftragsverwaltung bietet die folgenden Funktionen:

Suche nach Stellen: Suche nach Stellen, die den Suchkriterien entsprechen
Job-Details anzeigen: Auftragsdetails anzeigen
Beenden eines Auftrags: Beenden eines Auftrags im Status „Übermittelt“ oder „Läuft“
Abfrageergebnisse exportieren: Maximal 1000 Datensätze können im Abfrageergebnis auf der Konsole angezeigt werden. Um mehr oder alle Daten anzuzeigen, können Sie die Daten nach OBS exportieren

Ressourcen in der Warteschlangen-Verwaltung

Warteschlangen in DLI sind Rechenressourcen, die die Grundlage für die Nutzung von DLI sind. Alle ausgeführten Aufträge benötigen Rechenressourcen.

Derzeit bietet DLI zwei Arten von Warteschlangen: für SQL und für den allgemeinen Gebrauch. SQL-Warteschlangen werden für die Ausführung von SQL-Aufträgen verwendet. Die allgemeinen Warteschlangen sind mit den Spark-Warteschlangen früherer Versionen kompatibel und werden für die Ausführung von Spark- und Flink-Aufträgen verwendet.

Datenverwaltung

Die DLI-Datenbank- und Tabellenverwaltung bietet die folgenden Funktionen:

Verwaltung von Datenbankberechtigungen
Verwaltung von Tabellenberechtigungen
Erstellen einer Datenbank oder einer Tabelle
Löschen einer Datenbank oder einer Tabelle
Ändern der Eigentümer von Datenbanken und Tabellen
Importieren von Daten in die Tabelle
Exportieren von Daten aus DLI nach OBS
Anzeigen von Metadaten
Vorschau von Daten

Job-Vorlage

Um die Ausführung von SQL-Operationen zu erleichtern, können Sie mit DLI Abfragevorlagen anpassen oder die verwendeten SQL-Anweisungen als Vorlagen speichern. Nachdem die Vorlagen gespeichert wurden, müssen Sie die SQL-Anweisungen nicht mehr kompilieren. Stattdessen können Sie die SQL-Operationen direkt mit den Vorlagen ausführen.

Zu den SQL-Vorlagen gehören Beispielvorlagen und benutzerdefinierte Vorlagen. Die Standard-Beispielvorlage enthält 22 Standard-TPC-H-Abfrageanweisungen, die die meisten TPC-H-Testanforderungen erfüllen können.

Die SQL-Vorlagenverwaltung bietet die folgenden Funktionen:

Muster-Vorlagen
Benutzerdefinierte Vorlagen
Erstellen einer Vorlage
Ausführen der Vorlage
Suche nach einer Vorlage
Ändern einer Vorlage
Löschen einer Vorlage

Datenquellen-Verbindungen

DLI unterstützt die Datenquellen-Fähigkeit des nativen Spark und erweitert sie. Mit der DLI-Datenquellenverbindung können Sie über SQL-Anweisungen, Spark-Jobs und Flink-Jobs auf andere Datenspeicherdienste zugreifen und Daten in den Diensten importieren, abfragen, analysieren und verarbeiten.

Globale Konfiguration

Globale Variablen können verwendet werden, um komplexe Parameter zu vereinfachen. So können beispielsweise lange und schwierige Variablen ersetzt werden, um die Lesbarkeit von SQL-Anweisungen zu verbessern.

Anwendungsszenarien

Analyse

Datenbank-Analyse

Anwendungsdaten, die in relationalen Datenbanken gespeichert sind, müssen analysiert werden, um einen größeren Nutzen zu erzielen. Zum Beispiel hilft Big Data aus Registrierungsdetails bei der Entscheidungsfindung im Handel.

Pain Points

Komplizierte Abfragen werden bei größeren relationalen Datenbanken nicht unterstützt.
Umfassende Analysen sind nicht möglich, da Datenbank- und Tabellenpartitionen in mehreren relationalen Datenbanken verteilt sind. Die Analyse von Geschäftsdaten kann die verfügbaren Ressourcen überlasten.

Vorteile

Übertragbarkeit von SQL-Erfahrungen
Starten Sie sofort mit neuen Diensten. DLI unterstützt die standardmäßige ANSI SQL 2003-Syntax für relationale Datenbanken, so dass es fast keine Lernkurve gibt.
Vielseitige, robuste Leistung
Verteilte In-Memory-Computing-Modelle bewältigen mühelos komplizierte Abfragen, partitionsübergreifende Analysen und Business Intelligence-Verarbeitung.

Verwandte Dienste

DataArts Studio

Cloud Data Migration (CDM)

E-Commerce

Präzises Marketing

Die assoziative Analyse kombiniert Informationen aus verschiedenen Kanälen, um die Konversionsraten zu verbessern.

Vorteile

Quellenübergreifende Analyse
In OBS gespeicherte Anzeigen-CTR-Daten und Benutzerregistrierungsdaten in RDS können ohne Migration zu DLI direkt abgefragt werden.
Nur SQL erforderlich
Verbundene Datenquellen werden in einer Tabelle abgebildet, die nur mit SQL-Anweisungen erstellt wird.

Verwandte Dienste

Object Storage Service (OBS)

Großunternehmen

Berechtigungskontrolle

Wenn mehrere Abteilungen Ressourcen unabhängig voneinander verwalten müssen, verbessert eine fein abgestufte Berechtigungsverwaltung die Datensicherheit und die Betriebseffizienz.

Vorteile

Leichtere Zuweisung von Berechtigungen
Erteilen Sie Berechtigungen nach Spalten oder nach bestimmten Operationen, wie INSERT INTO/OVERWRITE, und setzen Sie Metadaten auf schreibgeschützt.
Vereinheitlichte Verwaltung
Ein einziges IAM-Konto verwaltet die Berechtigungen für alle Benutzer des Personals.

Genetik

Integration von Bibliotheken

Die Genomanalyse stützt sich auf Analysebibliotheken von Drittanbietern, die auf dem verteilten Spark-Framework aufgebaut sind.

Pain Points

Für die Installation von Analysebibliotheken wie ADAM und Hail sind hohe technische Kenntnisse erforderlich.
Jedes Mal, wenn Sie einen Cluster erstellen, müssen Sie diese Analysebibliotheken erneut installieren.

Vorteile

Benutzerdefinierte Bilder
Anstatt die Bibliotheken in einem technisch anspruchsvollen Prozess zu installieren, können Sie sie in benutzerdefinierte Images packen, die direkt in das Software Repository for Container (SWR) hochgeladen werden. Wenn Sie DLI zur Erstellung eines Clusters verwenden, werden die benutzerdefinierten Images automatisch aus dem SWR gezogen, sodass Sie diese Bibliotheken nicht erneut installieren müssen.

Verwandte Dienste

Software Repository for Container (SWR)

Finanzwesen

Risikokontrolle in Echtzeit

Nahezu jeder Aspekt der Finanzdienstleistungen erfordert ein umfassendes Risikomanagement und eine entsprechende Risikominderung.

Pain Point

Bei der Risikokontrolle gibt es nur sehr wenig Toleranz für übermäßige Verzögerungen.

Vorteile

Hoher Durchsatz
Die Echtzeit-Datenanalyse in DLI mit Hilfe eines Apache Flink-Datenflussmodells hält die Latenzzeit niedrig. Eine einzige CPU verarbeitet 1.000 bis 20.000 Nachrichten pro Sekunde.
Abdeckung des Ökosystems
Speichern Sie Echtzeit-Datenströme in mehreren Cloud-Diensten wie CloudTable und SMN für eine umfassende Anwendung.

Verwandte Dienste

Simple Message Notification (SMN)

Data Ingestion Service (DIS)

Geografie

Analyse großer Datenmengen

Zu den riesigen Datenmengen gehören Petabytes an Satellitenbildern und viele verschiedene Arten von Daten – strukturierte Fernerkundungs-Gitterdaten, Vektordaten und unstrukturierte räumliche Standortdaten. Die Analyse und Auswertung all dieser Daten erfordert effiziente Werkzeuge.

Vorteile

Räumliche Datenanalyse
Die Spark-Algorithmus-Operatoren in DLI ermöglichen die Stream-Verarbeitung in Echtzeit und die Offline-Stapelverarbeitung. Sie unterstützen umfangreiche Datentypen, einschließlich strukturierter Fernerkundungsbilddaten, unstrukturierter 3D-Modellierung und Laserpunktwolkendaten.
CEP-SQL Funktionalität
SQL-Anweisungen sind alles, was für die Giererkennung und das Geo-Fencing erforderlich ist.
Verarbeitung umfangreicher Daten
Migrieren Sie schnell bis zu Exabytes an Fernerkundungsbildern in die Cloud und zerlegen Sie sie dann in Datenquellen für die verteilte Stapelverarbeitung.

Verwandte Dienste

Data Ingestion Service (DIS)

Cloud Data Migration (CDM)

Weitere Informationen zu diesem Produkt

Dokumentationen

Fragen stellen & austauschen
Best Practices & Blueprint