Auswählen eines Bereitstellungsmusters für Big-Data-Analysesysteme

Big-Data-Analysesysteme werden in der Regel mit den zwei folgenden Bereitstellungsmustern bereitgestellt:

Die Auswahl eines geeigneten Bereitstellungsmusters hängt in erster Linie von der Quelle der Daten ab, die von der Big-Data-Analyse verwendet werden.

Das Apache Spark-Bereitstellungsmuster verwendet ArcGIS in Form von Apache Spark-Bibliotheken, um Analysen für persistente Daten von zentralen Speicherorten (z. B. Data Lakes, Objektspeicher, relationale Datenbanken, Dateien) durchzuführen, auf die die Apache Spark-Umgebung zugreifen kann. Das Apache Spark-Bereitstellungsmuster ist das gebräuchlichste Muster für Data Scientists, die räumliche Big-Data-Analysen durchführen. Das Apache Spark-Bereitstellungsmuster basiert grundlegend darauf, räumliche Analysen in die Umgebung zu bringen, mit der der Data Scientist vertraut ist. Dies wird mithilfe einer Spark-Bibliothek erreicht, die es Data Scientists ermöglicht, neuen oder vorhandenen Analyse-Workflows räumliche Funktionen und Prozesse hinzuzufügen. Apache Spark stellt verteilte Computing-Funktionen bereit, die den Zugriff auf eine breite Palette von Datasets sowie eine robuste Funktionsbibliothek unterstützen. Zudem bietet es die Möglichkeit, strukturierte Analysen zu erkunden und mit ihnen zu interagieren sowie Ergebnisse zu erzielen, die von Projektbeteiligten oder einem nachgelagerten Geschäftsprozess genutzt werden können. 

Alternativ können Big-Data-Analysen als Teil des SaaS-Bereitstellungsmusters für Echtzeit-Datenstreaming und -analyse durchgeführt werden. Bei diesem Muster werden Echtzeit-Sensor- oder -Ereignisdaten im SaaS-Angebot erfasst, in Echtzeit analysiert oder für die spätere Verwendung durch einen benutzerdefinierten Big-Data-Analyseprozess archiviert. 

Es gibt zahlreiche funktionale und nicht-funktionale Unterschiede zwischen den Apache Spark- und SaaS-Bereitstellungsmustern, z. B. die Schnittstelle zum Entwerfen von Analysemodellen und die spezifischen bereitgestellten Analysewerkzeuge und -funktionen. Neben der Präferenz der Organisation bezüglich der Bereitstellungsmodelle ist der wichtigste Entscheidungspunkt jedoch in der Regel, ob das Big-Data-Analysesystem in erster Linie für die Analyse von Echtzeitdaten und -beobachtungen verwendet wird oder ob das System zur Analyse von Daten verwendet wird, die in vorhandenen Big Data Stores innerhalb der Organisation (z. B. Data Lakes) gespeichert sind. Weitere Informationen finden Sie auf den Seiten mit den Bereitstellungsmustern für Apache Spark und SaaS.

Allgemeine Informationen und Überlegungen zu diesen Bereitstellungsansätzen finden Sie auf der Seite ArcGIS-Produkte und Bereitstellungsoptionen in der Übersicht über ArcGIS.

Top