Databricks Data Intelligence Platform は、エンタープライズ級のデータ ソリューションを大規模に構築、デプロイ、共有、維持するための統一的なツールセットを提供します。 Databricks は、クラウド アカウント内のクラウド ストレージやセキュリティーと統合し、ユーザーに代わってクラウド インフラストラクチャーを管理およびデプロイします。 Databricks Runtime リリースには、Apache Spark のようなオープン ソース技術だけでなく、これらの技術を統合および拡張して、最適化されたパフォーマンスと使いやすさを提供する数々の独自ツールが含まれています。
多くの組織では、特にデータ エンジニアリング、データ管理、解析、機械学習、AI モデル準備に重点を置きながら、独立型および統合型のワークフローの両方で Databricks と ArcGIS を使用しています。 ArcGIS と Databricks の機能を組み合わせた一般的な実装パターンの 1 つは、「ビッグ データ解析システム (Apache Spark)」システム パターンで説明されています。
ArcGIS GeoAnalytics Engine は Azure、AWS、Google Cloud プラットフォームの Databricks にインストールすることで、Databricks のワークスペースに空間データ サイエンスや解析機能を追加できます。 GeoAnalytics Engine をインストールすると、Databricks が管理する Spark クラスターを使って空間 SQL 関数や解析ツールを実行できるようになります。 GeoAnalytics Engine は PySpark を拡張しているため、データがどこにあっても空間対応にでき、Databricks ノートブックで他のデータ サイエンスや機械学習技術と並行して空間解析ワークフローをシームレスに実行できます。
この統合パターンは、Databricks に保存されている既存データに空間解析や地理ツールを導入する際に特に有用です。Spark ベースの解析ワークフローのスケーラビリティーにより、数十億件のレコードを効果的に処理できます。 この処理の結果は Databricks ストレージに保存したり、ArcGIS Online や ArcGIS Enterprise にホスト フィーチャ レイヤーとして公開でき、他の GIS アプリケーションが結果と連携できるようになります。 ほとんどの場合、Databricks は大規模なデータセットと空間クエリーを組み合わせて、より最適化された結果を生成する解析システムとして利用されます。 これにより、不要なデータの複製を回避し、Databricks のバッチ解析機能を活用できます。
ArcGIS API for Python を Databricks ノートブック内で使用すると、ArcGIS Online や ArcGIS Enterprise でホストされている GIS コンテンツへのアクセス、管理、解析を行えます。 ユーザーは使い慣れた Databricks 環境内で、安全な認証、フィーチャ レイヤーのクエリー、空間解析の実行、結果の可視化などを行えます。 このアプローチは、ArcGIS の Web GIS 機能と Databricks の協働的なデータ サイエンス ワークフローを組み合わせたいチーム、特に空間データを機械学習モデルと統合したり、ETL パイプラインをオーケストレーションする場合に最適です。
詳細についてはブログ記事「Databricks のノートブックで ArcGIS API for Python を使う」をご参照ください。
ArcGIS Data Pipelines は、Databricks に直接接続できる空間 ETL ワークフローを構築するためのローコード インターフェイスを提供します。 Delta Lake テーブルから読み取るようにパイプラインを構成することで、IT チームは最小限のスクリプトでデータの移動と変換を自動化できます。
この統合は、ビッグ データ プラットフォームからの信頼性の高いビジネス データセットの同期、空間コンテキストによるテーブル データへの情報付加、AI/ML モデル向けの地理空間入力の準備など、エンタープライズ級のデータ エンジニアリングのユース ケースをサポートします。これらはすべて、ガバナンスとスケーラビリティーを維持しつつ実現されます。 この機能は現在ベータ版であり、詳細は ArcGIS Data Pipelines ドキュメントに記載されています。
Databricks は、そのシステムに保存されたデータに接続し、操作するための多様な API やライブラリーを提供しています。 これらのツールにより、カスタム Maps SDK レイヤーや Python ベースの ETL を通じて Databricks のコンテンツを閲覧するなど、他の統合パターンも実現します。
また、Databricks のチームは、ArcGIS Enterprise を拡張し、Databricks のテーブルとコンテンツに基づくサービスの作成を可能にするカスタム データ フィードのサンプルも開発しました。