Data Lake Insight (DLI)
Data Lake Insight (DLI) ist ein serverloser Big-Data-Abfrage- und Analysedienst, der vollständig mit den Ökosystemen von Apache Spark und Apache Flink kompatibel ist. DLI unterstützt Standard-SQL und ist mit Spark und Flink SQL kompatibel. Er unterstützt außerdem mehrere Zugriffsmodi und ist mit den gängigen Datenformaten kompatibel. DLI unterstützt SQL-Anweisungen und Spark-Anwendungen für heterogene Datenquellen, einschließlich CloudTable, RDS, DWS, CSS, OBS, benutzerdefinierte Datenbanken auf ECSs und Offline-Datenbanken.
Spark ist eine einheitliche Analyse-Engine, die sich ideal für die Verarbeitung großer Datenmengen eignet. Sie konzentriert sich auf Abfragen, Berechnungen und Analysen. DLI optimiert die Leistung und baut Dienste auf der Grundlage von Open-Source-Spark neu auf. Es ist mit dem Apache Spark-Ökosystem und den Schnittstellen kompatibel und verbessert die Leistung um das 2,5-fache im Vergleich zu Open-Source Spark. Auf diese Weise können Sie mit Data Lake Insight Abfragen und Analysen von EB-Daten innerhalb weniger Stunden durchführen.
Flink ist eine verteilte Rechenmaschine, die sich ideal für die Stapelverarbeitung eignet, d. h. für die Verarbeitung statischer und historischer Datensätze. Sie kann auch für die Stream-Verarbeitung verwendet werden, d. h. für die Verarbeitung von Echtzeit-Datenströmen und die Generierung von Datenergebnissen in Echtzeit. DLI verbessert die Funktionen und die Sicherheit auf der Grundlage des Open-Source-Projekts Flink und bietet die für die Datenverarbeitung erforderliche Stream-SQL-Funktion.
Mit DLI können Sie ganze Terabytes in Ihrem Data Lake in Sekundenschnelle mit Hilfe von Standard-SQLs erforschen, ohne dass Sie sich um den Betrieb kümmern müssen.
Vollständig kompatibel mit Apache Spark und Flink; Stream- und Stapelverarbeitung sowie interaktive Analyse an einem Ort.
Gemeinsamer On-Demand-Zugriff auf gepoolte Ressourcen, flexible Skalierung auf der Grundlage voreingestellter Prioritäten.
Migrieren Sie Ihre Offline-Anwendungen nahtlos in die Cloud mit serverloser Technologie. DLI ist vollständig kompatibel mit den Ökosystemen und APIs von Apache Spark, Apache Flink und Presto.
Analysieren Sie Ihre Daten datenbankübergreifend. Keine Migration erforderlich. Eine einheitliche Sicht auf Ihre Daten verschafft Ihnen ein umfassendes Verständnis Ihrer Daten und hilft Ihnen, schneller zu innovieren. Es gibt keine Einschränkungen in Bezug auf Datenformate, Cloud-Datenquellen oder ob die Datenbank online oder offline erstellt wird.
DLI entkoppelt die Speicherung von der Datenverarbeitung, so dass Sie niedrigere Kosten nutzen und gleichzeitig die Ressourcenauslastung verbessern können.
DLI verfügt über einen umfassenden Mechanismus zur Steuerung von Berechtigungen und unterstützt eine fein abgestufte Authentifizierung durch Identity and Access Management (IAM). Sie können in IAM Richtlinien erstellen, um DLI-Berechtigungen zu verwalten. Sie können sowohl den Berechtigungskontrollmechanismus von DLI als auch den IAM-Dienst für die Berechtigungsverwaltung verwenden.
Bei der Verwendung von DLI in der Cloud müssen Enterprise-Benutzer DLI-Ressourcen (Warteschlangen) verwalten, die von Mitarbeitern in verschiedenen Abteilungen genutzt werden, einschließlich der Erstellung, Löschung, Verwendung und Isolierung von Ressourcen. Darüber hinaus müssen die Daten der verschiedenen Abteilungen verwaltet werden, einschließlich der Datenisolierung und -freigabe.
DLI verwendet IAM für ein ausgefeiltes Multi-Tenant-Management auf Unternehmensebene. IAM bietet Identitätsauthentifizierung, Berechtigungsverwaltung und Zugriffskontrolle und unterstützt Sie beim sicheren Zugriff auf Ihre Cloud-Ressourcen.
Mit IAM können Sie Ihr Cloud-Konto verwenden, um IAM-Benutzer für Ihre Mitarbeiter zu erstellen und den Benutzern Berechtigungen zuzuweisen, um ihren Zugriff auf bestimmte Ressourcentypen zu steuern. Müssen beispielsweise einige Softwareentwickler in Ihrem Unternehmen DLI-Ressourcen nutzen, dürfen diese aber nicht löschen oder risikoreiche Operationen durchführen, können Sie IAM-Benutzer für die Softwareentwickler anlegen und ihnen nur die für die Nutzung von DLI-Ressourcen erforderlichen Berechtigungen zuweisen.
Rollen: Eine Art grobkörniger Autorisierungsmechanismus, der Berechtigungen in Bezug auf Benutzerzuständigkeiten definiert. Dieser Mechanismus bietet nur eine begrenzte Anzahl von Rollen auf Dienstebene für die Autorisierung. Wenn Sie Rollen für die Erteilung von Berechtigungen verwenden, müssen Sie auch andere Rollen zuweisen, von denen die Berechtigungen abhängen, damit sie wirksam werden. Rollen sind jedoch nicht die ideale Wahl für eine fein abgestufte Autorisierung und sichere Zugriffskontrolle.
Policies: Eine Art fein abgestufter Autorisierungsmechanismus, der die für die Durchführung von Vorgängen auf bestimmten Cloud-Ressourcen unter bestimmten Bedingungen erforderlichen Berechtigungen definiert. Dieser Mechanismus ermöglicht eine flexiblere richtlinienbasierte Autorisierung, die die Anforderungen an eine sichere Zugriffskontrolle erfüllt. So können Sie beispielsweise DLI-Benutzern nur die Berechtigungen für die Verwaltung eines bestimmten ECS-Typs erteilen.
Name der Rolle/Policy | Beschreibung | Kategorie |
DLI FullAccess | Sämtliche Berechtigungen für DLI | Systemdefinierte Policy |
DLI ReadOnlyAccess | Leseberechtigungen für DLI | Systemdefinierte Policy |
Tenant Administrator | Tenant Administrator
| Systemdefinierte Rolle |
DLI Service Admin | DLI Administrator
| Systemdefinierte Rolle |
Berechtigungstyp | Subtyp | SQL Syntax |
Queue Permissions | Queue management permissions | None |
Data Permissions | Database permissions | Weitere Informationen erhalten Sie unter SQL Syntax of Batch Jobs > Data Permissions Management > Data Permissions List in der Data Lake Insight SQL Syntax Reference. |
Job Permissions | Flink job permissions | None |
Package Permissions | Package group permissions | None |
Datasource Connection Permissions | Datasource connection permissions | None |
Weitere Informationen zur API-Definition erhalten Sie unter Granting Users with the Queue Usage Permission in der Data Lake Insight API Reference.
SQL-Editor
Sie können SQL-Anweisungen im SQL-Job-Editor verwenden, um Datenabfragen auszuführen. DLI unterstützt SQL 2003 und ist mit Spark SQL kompatibel.
Klicken Sie auf der Übersichtsseite im linken Navigationsbereich auf „SQL Editor“ oder in der oberen rechten Ecke des Bereichs „SQL-Jobs“ auf "Job erstellen". Die Seite „SQL Editor“ wird angezeigt.
Es wird eine Meldung angezeigt, die darauf hinweist, dass ein temporärer DLI-Datenbereich erstellt wird. Der erstellte Bucket wird zum Speichern von temporären Daten verwendet, die von DLI generiert werden, wie z. B. Jobprotokolle. Sie können Jobprotokolle nicht anzeigen, wenn Sie den Bucket nicht erstellen. Sie können Objekte in einem Bereich periodisch löschen oder Objekte zwischen verschiedenen Speicherklassen übertragen. Der Bucket-Name ist standardmäßig festgelegt.
Job-Management
SQL-Jobs ermöglichen die Ausführung von SQL-Anweisungen, die im 4 SQL Editor eingegeben wurden, sowie den Import und Export von Daten.
Die SQL-Auftragsverwaltung bietet die folgenden Funktionen:
- Suche nach Stellen: Suche nach Stellen, die den Suchkriterien entsprechen
- Job-Details anzeigen: Auftragsdetails anzeigen
- Beenden eines Auftrags: Beenden eines Auftrags im Status „Übermittelt“ oder „Läuft“
- Abfrageergebnisse exportieren: Maximal 1000 Datensätze können im Abfrageergebnis auf der Konsole angezeigt werden. Um mehr oder alle Daten anzuzeigen, können Sie die Daten nach OBS exportieren
Ressourcen in der Warteschlangen-Verwaltung
Warteschlangen in DLI sind Rechenressourcen, die die Grundlage für die Nutzung von DLI sind. Alle ausgeführten Aufträge benötigen Rechenressourcen.
Derzeit bietet DLI zwei Arten von Warteschlangen: für SQL und für den allgemeinen Gebrauch. SQL-Warteschlangen werden für die Ausführung von SQL-Aufträgen verwendet. Die allgemeinen Warteschlangen sind mit den Spark-Warteschlangen früherer Versionen kompatibel und werden für die Ausführung von Spark- und Flink-Aufträgen verwendet.
Datenverwaltung
Die DLI-Datenbank- und Tabellenverwaltung bietet die folgenden Funktionen:
- Verwaltung von Datenbankberechtigungen
- Verwaltung von Tabellenberechtigungen
- Erstellen einer Datenbank oder einer Tabelle
- Löschen einer Datenbank oder einer Tabelle
- Ändern der Eigentümer von Datenbanken und Tabellen
- Importieren von Daten in die Tabelle
- Exportieren von Daten aus DLI nach OBS
- Anzeigen von Metadaten
- Vorschau von Daten
Job-Vorlage
Um die Ausführung von SQL-Operationen zu erleichtern, können Sie mit DLI Abfragevorlagen anpassen oder die verwendeten SQL-Anweisungen als Vorlagen speichern. Nachdem die Vorlagen gespeichert wurden, müssen Sie die SQL-Anweisungen nicht mehr kompilieren. Stattdessen können Sie die SQL-Operationen direkt mit den Vorlagen ausführen.
Zu den SQL-Vorlagen gehören Beispielvorlagen und benutzerdefinierte Vorlagen. Die Standard-Beispielvorlage enthält 22 Standard-TPC-H-Abfrageanweisungen, die die meisten TPC-H-Testanforderungen erfüllen können.
Die SQL-Vorlagenverwaltung bietet die folgenden Funktionen:
- Muster-Vorlagen
- Benutzerdefinierte Vorlagen
- Erstellen einer Vorlage
- Ausführen der Vorlage
- Suche nach einer Vorlage
- Ändern einer Vorlage
- Löschen einer Vorlage
Datenquellen-Verbindungen
DLI unterstützt die Datenquellen-Fähigkeit des nativen Spark und erweitert sie. Mit der DLI-Datenquellenverbindung können Sie über SQL-Anweisungen, Spark-Jobs und Flink-Jobs auf andere Datenspeicherdienste zugreifen und Daten in den Diensten importieren, abfragen, analysieren und verarbeiten.
Globale Konfiguration
Globale Variablen können verwendet werden, um komplexe Parameter zu vereinfachen. So können beispielsweise lange und schwierige Variablen ersetzt werden, um die Lesbarkeit von SQL-Anweisungen zu verbessern.
Analyse
Datenbank-Analyse
Anwendungsdaten, die in relationalen Datenbanken gespeichert sind, müssen analysiert werden, um einen größeren Nutzen zu erzielen. Zum Beispiel hilft Big Data aus Registrierungsdetails bei der Entscheidungsfindung im Handel.
Pain Points
- Komplizierte Abfragen werden bei größeren relationalen Datenbanken nicht unterstützt.
- Umfassende Analysen sind nicht möglich, da Datenbank- und Tabellenpartitionen in mehreren relationalen Datenbanken verteilt sind. Die Analyse von Geschäftsdaten kann die verfügbaren Ressourcen überlasten.
Vorteile
- Übertragbarkeit von SQL-Erfahrungen
Starten Sie sofort mit neuen Diensten. DLI unterstützt die standardmäßige ANSI SQL 2003-Syntax für relationale Datenbanken, so dass es fast keine Lernkurve gibt. - Vielseitige, robuste Leistung
Verteilte In-Memory-Computing-Modelle bewältigen mühelos komplizierte Abfragen, partitionsübergreifende Analysen und Business Intelligence-Verarbeitung.
Verwandte Dienste
DataArts Studio
Cloud Data Migration (CDM)
E-Commerce
Präzises Marketing
Die assoziative Analyse kombiniert Informationen aus verschiedenen Kanälen, um die Konversionsraten zu verbessern.
Vorteile
- Quellenübergreifende Analyse
In OBS gespeicherte Anzeigen-CTR-Daten und Benutzerregistrierungsdaten in RDS können ohne Migration zu DLI direkt abgefragt werden. - Nur SQL erforderlich
Verbundene Datenquellen werden in einer Tabelle abgebildet, die nur mit SQL-Anweisungen erstellt wird.
Verwandte Dienste
Großunternehmen
Berechtigungskontrolle
Wenn mehrere Abteilungen Ressourcen unabhängig voneinander verwalten müssen, verbessert eine fein abgestufte Berechtigungsverwaltung die Datensicherheit und die Betriebseffizienz.
Vorteile
- Leichtere Zuweisung von Berechtigungen
Erteilen Sie Berechtigungen nach Spalten oder nach bestimmten Operationen, wie INSERT INTO/OVERWRITE, und setzen Sie Metadaten auf schreibgeschützt. - Vereinheitlichte Verwaltung
Ein einziges IAM-Konto verwaltet die Berechtigungen für alle Benutzer des Personals.
Genetik
Integration von Bibliotheken
Die Genomanalyse stützt sich auf Analysebibliotheken von Drittanbietern, die auf dem verteilten Spark-Framework aufgebaut sind.
Pain Points
- Für die Installation von Analysebibliotheken wie ADAM und Hail sind hohe technische Kenntnisse erforderlich.
- Jedes Mal, wenn Sie einen Cluster erstellen, müssen Sie diese Analysebibliotheken erneut installieren.
Vorteile
- Benutzerdefinierte Bilder
Anstatt die Bibliotheken in einem technisch anspruchsvollen Prozess zu installieren, können Sie sie in benutzerdefinierte Images packen, die direkt in das Software Repository for Container (SWR) hochgeladen werden. Wenn Sie DLI zur Erstellung eines Clusters verwenden, werden die benutzerdefinierten Images automatisch aus dem SWR gezogen, sodass Sie diese Bibliotheken nicht erneut installieren müssen.
Verwandte Dienste
Finanzwesen
Risikokontrolle in Echtzeit
Nahezu jeder Aspekt der Finanzdienstleistungen erfordert ein umfassendes Risikomanagement und eine entsprechende Risikominderung.
Pain Point
- Bei der Risikokontrolle gibt es nur sehr wenig Toleranz für übermäßige Verzögerungen.
Vorteile
- Hoher Durchsatz
Die Echtzeit-Datenanalyse in DLI mit Hilfe eines Apache Flink-Datenflussmodells hält die Latenzzeit niedrig. Eine einzige CPU verarbeitet 1.000 bis 20.000 Nachrichten pro Sekunde. - Abdeckung des Ökosystems
Speichern Sie Echtzeit-Datenströme in mehreren Cloud-Diensten wie CloudTable und SMN für eine umfassende Anwendung.
Geografie
Analyse großer Datenmengen
Zu den riesigen Datenmengen gehören Petabytes an Satellitenbildern und viele verschiedene Arten von Daten – strukturierte Fernerkundungs-Gitterdaten, Vektordaten und unstrukturierte räumliche Standortdaten. Die Analyse und Auswertung all dieser Daten erfordert effiziente Werkzeuge.
Vorteile
- Räumliche Datenanalyse
Die Spark-Algorithmus-Operatoren in DLI ermöglichen die Stream-Verarbeitung in Echtzeit und die Offline-Stapelverarbeitung. Sie unterstützen umfangreiche Datentypen, einschließlich strukturierter Fernerkundungsbilddaten, unstrukturierter 3D-Modellierung und Laserpunktwolkendaten. - CEP-SQL Funktionalität
SQL-Anweisungen sind alles, was für die Giererkennung und das Geo-Fencing erforderlich ist. - Verarbeitung umfangreicher Daten
Migrieren Sie schnell bis zu Exabytes an Fernerkundungsbildern in die Cloud und zerlegen Sie sie dann in Datenquellen für die verteilte Stapelverarbeitung.