Big-Data-Analysesystem
Ein Big-Data-Analysesystem wird für die Analyse großer Mengen geographischer und tabellarischer Daten verwendet. Analysefunktionen konzentrieren sich in erster Linie auf Vektordaten, es gibt jedoch auch einige Funktionen für Bilddaten- und Raster-Datentypen. Dieses Systemmuster nutzt Apache Spark als Engine für umfangreiche Batch-Datenanalysen in einer verteilten Compute-Infrastruktur. Ergebnisse von räumlichen und zeitlichen Big-Data-Analysen werden in der Regel für weitere nachgelagerte Analysen in Data Stores oder zur Visualisierung und weiteren geographischen Analyse in andere ArcGIS-Systeme zurückgeschrieben. Die Funktionsfähigkeit hängt stark vom ausgewählten Bereitstellungsmuster ab.
Ein Systemmuster für die Big-Data-Analyse bietet einer Organisation einen Mehrwert durch verschiedene Merkmale. Dazu zählen u. a.:
- Bereitstellung einer innovativen Dimension für die Big-Data-Analyse durch Einbeziehung der geographischen Wissenschaft, um die Entscheidungsfindung zu verbessern.
- Hinzufügen von auf Geographien basierten Analysen zu vorhandenen Apache Spark-basierten Big-Data-Analyse-Workflows.
- Bereitstellen räumlicher Vorgänge für Data Scientists durch vertraute Tools und Erfahrungen.
- Schnelle Extraktion geographischer Insights aus standortgebundenen Big Data (Breiten- und Längengrad) wie GPS, AIS, Personenbewegungen oder anderen Datasets von sich bewegenden Sensoren.
- Speichern und Indizieren von Analyseergebnissen in Systemen wie dem Objektspeicher, relationalen Datenbanken und Data Warehouses, von wo aus sie freigegeben und in intuitiveren Anwendungen wie Webkarten, Story Maps und benutzerdefinierten Anwendungen verwendet werden können.
Wenn Sie noch nicht mit ArcGIS-Systemmustern vertraut sind, lesen Sie zuerst die Einführung.
Benutzerrollen und Workflows
Die Interaktion mit Big-Data-Analysesystemen erfolgt am häufigsten durch die nachfolgend genannten Benutzerrollen. Bei der Verwendung des Systems kommen normalerweise die folgenden Workflow- und Task-Typen zum Einsatz:
- Data Analyst, Scientist und Engineer. Data Analysts, Scientists und Engineers sind die wichtigsten Benutzerrollen, die mit einem Big-Data-Analysesystem interagieren. Diese Benutzerrollen sind in der Regel mit Apache Spark, Python und der Arbeit mit Big Data vertraut. Diese speziellen Fähigkeiten sind erforderlich, um den Nutzen der hier vorgestellten räumlich aktivierten Big-Data-Analysesysteme zu maximieren. Data Analysts, Scientists und Engineers arbeiten mit Big Data und bereiten diese auf, entwerfen und entwickeln Analyseroutinen und führen diese durch und visualisieren und untersuchen Analyseergebnisse. Der Arbeitsablauf dieser Benutzerrolle ist in der Regel iterativ und beinhaltet oft auch die Beschreibung und den Austausch von Analyseergebnissen mit anderen Projektbeteiligten.
- GIS-Analyst. GIS-Analysten sind in der Regel nicht die Hauptbenutzer von Big-Data-Analysesystemen, da die dafür erforderlichen Fähigkeiten normalerweise nicht in den Bereich der GIS-Analystenrolle fallen. GIS-Analysten arbeiten jedoch in der Regel mit Data Analysts, Scientists und Engineers zusammen, um sicherzustellen, dass wichtige räumliche Konzepte verstanden und Empfehlungen für die Arbeit mit räumlichen Daten sowie Analysemethoden und -werkzeugen angewendet werden.
Um den größtmöglichen Nutzen aus einem Big-Data-Analysesystem zu erhalten, sollten Sie beide oben genannten Benutzerrollen oder Personen einbeziehen, die über Fähigkeiten aus beiden Benutzerrollen verfügen.
Anwendungen
Es gibt zwar viele Anwendungen und Erfahrungen, die von ArcGIS bereitgestellt werden, aber Big-Data-Analysesysteme bieten in der Regel nur Schnittstellen auf niedrigerer Ebene, die Data Analysts, Scientists und Engineers vertraut sind. Diese Schnittstellen variieren je nach ausgewähltem Bereitstellungsmuster. Das Apache Spark-Bereitstellungsmuster basiert in erster Linie auf Python-Notebooks, die in der Regel in der Datenanalyseumgebung ausgeführt werden, auf der PySpark-Python-Code entwickelt und als Auftrag gebündelt wird, der an das Spark-Cluster übermittelt wird. Das SaaS-Bereitstellungsmuster (Software-as-a-Service) bietet eine visuelle Modellierungsschnittstelle, die die Konfiguration von Workflows unterstützt, indem Datenquellen logisch mit Analysewerkzeugen verbunden werden.
Zusätzliche Anwendungen wie Berichte, Dashboards und interaktive Kartenerstellungsanwendungen werden häufig zum Visualisieren und Freigeben von Analyseergebnissen eingesetzt. Dies wird in der Regel mit einem Self-Service-System zur Kartenerstellung, Analyse und Freigabe oder einem anderen ArcGIS-Systemmuster erreicht. Weitere Informationen zum Verwenden, Integrieren und Zusammenstellen von Systemmustern.
Funktionen
Im Folgenden werden die wichtigsten Funktionen eines Big-Data-Analysesystems vorgestellt. Funktionen, die in Big-Data-Analyse-Workflows verwendet werden, aber in der Regel von anderen Systemen bereitgestellt werden, z. B. Grundkarten und andere Positionsservices, die von einem Location-Services-System bereitgestellt werden, sind unten nicht aufgeführt. Weitere Informationen über zugehörige Systemmuster.
Nicht alle unten beschriebenen Funktionen sind in allen Bereitstellungsmustern verfügbar. Weitere Informationen dazu, wie diese Funktionen ggf. in verschiedenen Bereitstellungen angewendet werden, finden Sie unter Auswählen eines Bereitstellungsmusters und auf den Seiten mit den Bereitstellungsmustern.
- Die Datenaufnahme ermöglicht den Zugriff auf Daten durch das Big-Data-Analysesystem beim Ausführen von Analyseaufgaben. In den meisten Fällen werden die Daten direkt an der Quellenposition analysiert. In bestimmten Szenarien erfordert das Big-Data-Analysesystem auf SaaS jedoch möglicherweise die Aufnahme von Daten in das System.
- Räumliche Verbindungen und Beziehungen ermöglichen die Kombination von Zeilen aus zwei Datasets auf der Grundlage einer räumlichen Beziehung. Eine Vielzahl von räumlichen Beziehungen, einschließlich Überschneiden, Löschen, Vereinigung, Identität und symmetrische Differenz, können angewendet werden, obwohl die Funktionen je nach ausgewähltem Bereitstellungsmuster variieren.
- Zeitschritte und zeitliche Beziehungen ermöglichen zeitbasierte Analysen. Zeitschritte unterteilen Eingabedaten in Schritte, die unabhängig voneinander analysiert werden und deren Analyse im Apache Spark-Bereitstellungsmuster verfügbar ist. Zeitliche Beziehungen werden verwendet, um Daten mithilfe der Verbindungswerkzeuge temporär zu verbinden, und werden von beiden Bereitstellungsmustern unterstützt.
- Bei der Musteranalyse werden räumliche und zeitliche Muster in Daten identifiziert. Dazu gehören Werkzeuge wie “Hot-Spots suchen”, “Ähnliche Positionen suchen” und verschiedene regressionsbasierte Analysemethoden zur Modellierung von Trends und zum Generieren von Vorhersagen.
- Bei der Nachbarschaftsanalyse wird die Nähe von Geodaten zu anderen Geodaten untersucht. Dazu gehören Werkzeuge wie das Suchen von Punktclustern und das Erstellen von Puffern.
- Bei der Zusammenfassungsanalyse werden Daten in Datenstrukturen höherer Ordnung aggregiert oder zusammengefasst. Dazu gehören Werkzeuge wie “Punkte aggregieren”, “Dichte berechnen” und “Zusammenfassen (innerhalb)”.
- Die Track-Analyse arbeitet mit Punkten mit aktivierten Zeiteigenschaften, die mit beweglichen Objekten korreliert sind. Dazu gehören Werkzeuge wie “Tracks rekonstruieren”, “An Netzwerk fangen” sowie Werkzeuge zum Analysieren von Reisen und Verweilorten.
- Geokodierung ist der Prozess der Umwandlung von Text in eine Adresse und eine Position. Geokodierungswerkzeuge in Big-Data-Analysesystemen sind für die Verarbeitung großer Mengen von Adressendaten konzipiert. Weitere Informationen zur Geokodierung.
- Die Netzwerkanalyse hilft, allgemeine Netzwerkprobleme – oftmals (aber nicht immer) bei Straßennetzen – zu beheben. Die für die Netzwerkanalyse in einem Big-Data-Analysesystem bereitgestellten Funktionen unterscheiden sich in gewissem Umfang von denen, die in herkömmlichen Analysesystemen verfügbar sind. Darüber hinaus variieren die Netzwerkanalysefunktionen je nach Bereitstellungsmuster beträchtlich. Untersuchen Sie die Bereitstellungsmuster im Detail.
- Die Raster-Analyse unterstützt Analysefunktionen und -prozessoren, die mit Raster-Daten arbeiten. Die für die Raster-Analyse in einem Big-Data-Analysesystem verfügbaren Funktionen sind im Vergleich zu herkömmlichen Analysesystemen relativ begrenzt. Darüber hinaus variieren die Raster-Analyse-Funktionen je nach Bereitstellungsmuster beträchtlich. Untersuchen Sie die Bereitstellungsmuster im Detail. Weitere Informationen zu erweiterten Raster- und Bilddatenanalysen finden Sie im Muster Bilddatenmanagement- und Analysesystem.
- Das Datenmanagement unterstützt das Arbeiten mit Geometrien und anderen Bereichen in Big Data. Dazu gehören Werkzeuge wie “Feld berechnen”. Das Apache Spark-Bereitstellungsmuster enthält auch viele räumliche SQL-Funktionen, die die Spark SQL-API erweitern.
- Benutzerdefinierte Analysetools sind mit einem Big-Data-Analysesystem auf Apache Spark möglich, insbesondere durch die Verwendung der Option Big Data Toolkit (BDT). Weitere Informationen finden Sie im Apache Spark-Bereitstellungsmuster .
- Das Kartenerstellung und Visualisieren von Analyseergebnissen ist ein leistungsstarker Schritt, um Kontext bereitzustellen und Muster, Trends und Beziehungen aufzudecken. Die Visualisierung und Kartenerstellung erfolgt analog zur Darstellung von nicht räumlichen Daten. Es ist eine Möglichkeit, Ihre Analyse zu überprüfen und zu iterieren sowie ansprechende Ergebnisse zu erstellen, die freigegeben werden können. Diese Schnittstellen für die Zuordnung und Visualisierung sowie die Analyseergebnisse variieren je nach ausgewähltem Bereitstellungsmuster. Weitere Informationen finden Sie unter Anwendungen.
- Das Veröffentlichen und Hosten von Analyseergebnissen wird zwar von ArcGIS unterstützt, aber nicht zum Aufgabenbereich des Systemmusters für die Big-Data-Analyse gezählt. Weitere Informationen finden Sie unter Zugehörige Systemmuster.
Überlegungen zur Architektur
In diesem Abschnitt wird näher beschrieben, wie Big-Data-Analysesysteme auf bestimmte Aspekte der ArcGIS-Architektur mit welchen Schwerpunkten abgestimmt sind.
Ausführlichere Überlegungen zur Architektur finden Sie unter Auswählen eines Bereitstellungsmusters.
Daten (Persistenz)

Big-Data-Analysesysteme arbeiten mit einer Vielzahl von Data Stores, darunter Datei- und Objektspeicher (oft als verteilte Data Lake-Speicher), relationale Datenbanken, Cloud Data Warehouses sowie NoSQL-Dokumentenspeicher. Die ArcGIS-Datenmodelle und -Regeln können auch bei Nutzung bestimmter Data Stores verwendet werden. Bei diesem Systemtyp werden jedoch in der Regel keine branchenspezifischen ArcGIS-Datenmodelle verwendet. In den meisten Fällen verwenden Big-Data-Analysesysteme die vorhandenen Daten und sorgen dafür, dass die Analyse nahe an den Daten erfolgt. Das SaaS-Bereitstellungsmuster erfordert jedoch möglicherweise, dass Daten in das von Esri gehostete SaaS-System aufgenommen werden. Weitere Informationen zur Funktionsweise der einzelnen Bereitstellungsmuster mit Daten und den unterstützten Data Stores und Datenquellen
Services (Logik)

Big-Data-Analysesysteme nutzen eine kleine, aber umfassende Gruppe von ArcGIS-Services, insbesondere Big-Data-Analysen sowie KI und Deep Learning. Das Big-Data-Analysesystem wird am häufigsten zur Unterstützung von KI- und Deep-Learning-Analysen für technische Daten sowie zum Trainieren und Testen von Deep-Learning-Modellen eingesetzt. Erfahren Sie mehr über Spatial Analytics und Data Science.
Das Big-Data-Analysesystem kann auch für die Abfrage, den Zugriff, die räumliche Referenzierung, die Anreicherung und die Verwaltung von Big Data verwendet werden. Die Nutzung dieses Systems für ETL-Workflows (Extrahieren, Transformieren und Laden) ist möglich und relativ verbreitet. Das Big-Data-Analysesystem nutzt die interaktive Kartenerstellung mit Grundkarten und Referenz-Layern zur Visualisierung der Analyseergebnisse. Das Katalogisieren und Freigeben von Analyseergebnissen und anderen Inhalten über Portal-Services ist üblich, erfolgt jedoch in der Regel über ein anderes ArcGIS-basiertes System. Weitere Informationen finden Sie unter Zugehörige Systemmuster.
Anwendungen (Präsentation)

Big-Data-Analysesysteme stellen in der Regel nur Bedienoberflächen auf niedrigerer Ebene bereit, die Data Analysts, Scientists und Engineers vertraut sind. Diese Bedienoberflächen oder Anwendungen variieren je nach ausgewähltem Bereitstellungsmuster. Weitere Informationen finden Sie unter Anwendungen.
Support
Big-Data-Analysesysteme basieren auf der verteilten Verarbeitung, wobei der Schwerpunkt auf Elastizität und Skalierbarkeit liegt. Aus diesem Grund sind die meisten Big-Data-Analysesysteme in der Regel cloudbasiert. Zu den zusätzlichen Supportüberlegungen gehören häufig die Effizienz der Infrastruktur und das Kostenmanagement, die Observability lang laufender Analyseprozesse sowie die Integration mit Datenquellen und anderen Analyse- oder Engagement-Systemen. Weitere Informationen zur Systemintegration finden Sie in der Grundpfeiler “Integration” des ArcGIS Well-Architected Framework. Diese Systeme unterliegen in der Regel keinen Leistungs- oder Zuverlässigkeits-SLAs.
Allgemeine Informationen zum Support und zur Architektur finden Sie unter Empfehlungen zur Architektur sowie unter Grundpfeiler der Architektur des ArcGIS Well-Architected Framework.
Zugehörige Systemmuster
Big-Data-Analysesysteme können in andere ArcGIS-Systemmuster integriert oder mit diesen kombiniert werden. Einige gängige Beispiele sind folgende:
Weitere Informationen zum Integrieren oder Kombinieren von Systemmustern finden Sie unter Verwenden von Systemmustern.
Beispiele
Branchenspezifische Systembeispiele für dieses Systemmuster sind:
- Privatwirtschaft. Organisationen in den Bereichen Immobilien, Finanzdienstleistungen und Einzelhandel können ein Systemmuster für die Big-Data-Analyse nutzen, um umfangreiche demografische Analyseaufgaben zu beschleunigen. Dazu könnte etwa eine Aufgabe gehören, bei der Daten mit allen demografischen Variablen von Esri angereicht werden und nicht mit nur einigen wenigen. Mit diesem Muster lassen sich Aufgaben wie diese schneller und häufiger ausführen, sodass Organisationen umfassende, aktuelle demografische Insights erhalten, die als Entscheidungsgrundlage dienen können.
- Gesundheit und soziale Dienstleistungen. Das Risiko für Krankheiten und andere gesundheitliche Probleme kann je nach Standort sehr unterschiedlich sein. Forscher und Organisationen im Gesundheitswesen können korrelierte Faktoren, die das Gesundheits- und Krankheitsübertragungsrisiko in ihren Gemeinden beeinflussen, mithilfe eines Systemusters für die Big-Data-Analyse effizient untersuchen. Gesundheitsorganisationen sind darüber hinaus in der Lage, mithilfe eines Big-Data-Analysesystems die Angemessenheit des Netzwerks zu bewerten.
- Versicherungen. Versicherer nutzen Geodaten, um das Risikomanagement zu vereinfachen und ihre Versicherungspolicen angemessen zu bepreisen. Mithilfe eines Systemmusters für die Big-Data-Analyse können sie räumliche Beziehungen zwischen Gefahren und Richtlinien bewerten und so die Risikoexposition ausgleichen. Sie sind auch daran interessiert, Fahrzeugtelemetriedaten, die sie mit OBD2-Geräten sammeln, zu geoaktivieren, um Insights in das Fahrerverhalten zu gewinnen. Sie können z. B, sichere Fahrer identifizieren, die die sichersten Routen auswählen und die angegebenen Geschwindigkeitsbegrenzungen einhalten, und diese Fahrer dann mit niedrigeren Versicherungsprämien belohnen.
- Regierungsbehörden. Regierungsbehörden sammeln oft extrem große Mengen an Daten über soziale, wirtschaftliche und ökologische Aktivitäten. Mithilfe eines Systemmusters für die Big-Data-Analyse können sie diese Daten analysieren, um zeitkritische Muster und interessante Aktivitäten schnell zu untersuchen und zu verstehen. So lassen sich etwa Verweilorte (Orte, an denen sich Menschen aufhalten), räumliche Cluster (Orte, an denen sich Menschen versammeln) und Anomalien (z. B. unerwartete Veränderungen und Aktivitäten) identifizieren.
- Natürliche Ressourcen. Mit einem Systemmuster für die Big-Data-Analys können Öl- und Gasunternehmen die Daten, die sie für ihre digitalen Zwillinge erstellen, nutzen, um “Was-wäre-wenn”-Szenarien zu erstellen, Anomalien (z. B. defekte Anlagen) zu identifizieren und Beziehungen mithilfe ihrer Spark-Big-Data-Infrastruktur zu modellieren. Diese Unternehmen können auch historische GPS-Tracks nutzen, um Pachtstraßen (die nicht Teil eines öffentlichen Straßennetzes sind) zu erkennen und sie dann mit öffentlichen Straßen zu verbinden. Benutzer haben die Möglichkeit, Inspektionsstandorte mit diesen Straßendaten optimal zu sequenzieren und so die Zeit zu verkürzen, die ihre Mitarbeiter während der Inspektionen auf der Straße verbringen müssen (reine Fahrtzeit).
- Landes- und Kommunalverwaltung. Behörden der Landes- und Kommunalverwaltung sind auf Daten angewiesen, um Bürgern effektive Dienstleistungen anbieten zu können. Mit einem Systemmuster für die Big-Data-Analyse können sie historische Daten in Verbindung mit ihren Diensten interpretieren, wie z. B. Verläufe von Notrufen, Fahrzeugtelemetriedaten usw. Auf diese Weise ist es möglich, Fragen zu ihrer Reaktionsfähigkeit auf Bürgerbeschwerden zu beantworten und die Leistung von Dienstleistern zu bewerten.
- Telekommunikation. Mit einem Muster für das Big-Data-Analysesystem können Telekommunikationsunternehmen Anrufaufzeichnungen analysieren, um Probleme und Anomalien im Netzwerk zu identifizieren, z. B. einen statistisch signifikanten Hotspot mit einer hohen Akkumulation von abgebrochenen Anrufen. Sie können auch demografische Daten mit Daten von WLAN-Zugangs-Hotspots fusionieren, um Rückschlüsse auf die Eigenschaften und das Verhalten von Anrufern zu ziehen. Möglicherweise sind sie auch daran interessiert, diese Verhaltensdaten an externe Kunden, wie z. B. Social-Media-Unternehmen, zu verkaufen.
- Verkehrswesen. Vernetzte Fahrzeuge (wie Autos und Züge) sammeln Telemetriedaten für einen verbesserten Fahrzeugbetrieb. Mit einem Systemmuster für die Big-Data-Analyse können Fahrzeughersteller (und Entwickler von Onboard-Systemen) Analysen anhand historischer Telemetriedaten durchführen, um Einblicke in reale Betriebsbedingungen zu erhalten. Diese Erkenntnisse lassen sich dann nutzen, um die Schätzungen der Reisezeit, Straßen- und Navigationsdaten und andere Dienste im Zusammenhang mit Fahrzeugen und Flotten zu verbessern. Einige Organisationen sind möglicherweise auch daran interessiert, ihre Telemetriedaten und analytischen Insights an Dritte zu verkaufen.
- Versorgungsunternehmen. Versorgungsunternehmen können mithilfe eines Systemmusters für die Big-Data-Analyse historische Nutzungs- und Ausfallinformationen überprüfen und diese Daten dann mit Wettermustern und anderen lokalen Bedingungen korrelieren, um zu verstehen, welche Faktoren zu einer intensiveren Nutzung und einem erhöhten Ausfallrisiko führen. Dies hilft ihnen, die Nutzungsprognose zu verbessern, die vorbeugende Wartung zu priorisieren und den Kundendienstbedarf vorherzusagen.