Databricks- und ArcGIS-Integrationen

Die Databricks Data Intelligence-Plattform bietet eine einheitliche Gruppe von Werkzeugen zum Erstellen, Bereitstellen, Teilen und Warten von Unternehmensdatenlösungen in großem Maßstab. Databricks lässt sich mit Cloud-Speicher und -Sicherheit in Ihrem Cloud-Konto integrieren und führt die Verwaltung und Bereitstellung der Cloud-Infrastruktur in Ihrem Namen durch. Die Databricks Runtime-Versionen umfassen sowohl Open-Source-Technologien wie Apache Spark als auch eine Reihe proprietärer Werkzeuge, die diese Technologien integrieren und erweitern, um Leistung und Benutzerfreundlichkeit zu optimieren.

Viele Organisationen nutzen Databricks und ArcGIS sowohl für unabhängige als auch für integrierte Workflows, insbesondere mit dem Schwerpunkt auf Data Engineering, Datenmanagement, Analytik, maschinellem Lernen und Erstellung von KI-Modellen. Ein gängiges Implementierungsmuster, das ArcGIS- und Databricks-Funktionalität kombiniert, wird im Systemmuster Big-Data-Analysesystem (Apache Spark) beschrieben.

ArcGIS GeoAnalytics Engine in Databricks

Die ArcGIS GeoAnalytics Engine kann auf Databricks in Azure, AWS oder Google Cloud installiert werden, um dem Databricks-Workspace Funktionen für räumliche Analyse und Data Science hinzuzufügen. Nach der Installation der GeoAnalytics Engine können Sie räumliche SQL-Funktionen und Analysewerkzeuge mit einem von Databricks verwalteten Spark-Cluster ausführen. Da die GeoAnalytics Engine PySpark erweitert, können Sie Ihre Daten unabhängig von ihrem Speicherort räumlich aktivieren und Workflows für räumliche Analysen nahtlos zusammen mit anderen Technologien für Data Science und maschinelles Lernen in einem Databricks-Notebook ausführen.

Dieses Integrationsmuster ist besonders nützlich, um räumliche Analyse und geographische Werkzeuge auf vorhandene Daten in Databricks anzuwenden, da die Skalierbarkeit eines Spark-basierten Analyse-Workflows effektiv Milliarden von Datensätzen verarbeiten kann. Die Ergebnisse dieses Prozesses können in einem Databricks-Speicher gespeichert oder als gehostete Feature-Layer in ArcGIS Online oder ArcGIS Enterprise veröffentlicht werden, sodass andere GIS-Anwendungen mit den Ergebnissen interagieren können. In den meisten Fällen eignet sich Databricks am besten als Analysesystem, das große Datasets mit räumlichen Abfragen kombiniert, um ein individuelleres Ergebnis zu erzeugen. Dies vermeidet unnötige Datenduplikationen und baut auf den Batch-Analysefähigkeiten von Databricks auf.

ArcGIS API for Python in Databricks Notebooks

Die ArcGIS API for Python kann in Databricks Notebooks verwendet werden, um auf in ArcGIS Online oder ArcGIS Enterprise gehostete GIS-Inhalte zuzugreifen, sie zu verwalten und zu analysieren. Benutzer können sich sicher authentifizieren, Feature-Layer abfragen, räumliche Analysen durchführen und Ergebnisse visualisieren – alles innerhalb der vertrauten Databricks-Umgebung. Dieser Ansatz ist ideal für Teams, die die Web-GIS-Fähigkeiten von ArcGIS mit den kollaborativen Data-Science-Workflows von Databricks kombinieren möchten, insbesondere bei der Integration räumlicher Daten mit Modellen für maschinelles Lernen oder der Orchestrierung von ETL-Pipelines.

Weitere Informationen finden Sie in dem Blogbeitrag zur Verwendung der ArcGIS API for Python in Databricks Notebooks.

ArcGIS Data Pipelines

ArcGIS Data Pipelines bietet eine Low-Code-Schnittstelle für die Erstellung räumlicher ETL-Workflows, die direkt mit Databricks verbunden werden können. Indem Pipelines so konfiguriert werden, dass sie Delta-Lake-Tabellen lesen, können IT-Teams die Datenbewegung und -transformation mit minimalem Skripting automatisieren.

Diese Integration unterstützt Data-Engineering-Anwendungsfälle auf Unternehmensebene, z. B. die Synchronisation verlässlicher Geschäfts-Datasets von Big-Data-Plattformen, die Anreicherung tabellarischer Daten mit räumlichem Kontext und die Vorbereitung räumlicher Eingaben für KI/ML-Modelle – und gewährleistet dabei Skalierbarkeit und Governance. Diese Funktionalität befindet sich derzeit im Beta-Status und wird in der ArcGIS Data Pipelines-Dokumentation näher erläutert.

Zusätzliche Integrationsoptionen

Databricks bietet verschiedene APIs und Bibliotheken, die genutzt werden können, um sich mit den in diesem System gespeicherten Daten zu verbinden und mit ihnen zu arbeiten. Diese Werkzeuge ermöglichen weitere Integrationsmuster, wie das Anzeigen von Databricks-Inhalten über einen benutzerdefinierte Maps SDK-Layer oder über Python-basiertes ETL.

Ein Team von Databricks hat außerdem einen benutzerdefinierten Beispiel-Datenfeed entwickelt, der ArcGIS Enterprise erweitert, um die Erstellung von Services auf Basis von Databricks-Tabellen und -Inhalten zu ermöglichen.

Top