ビッグ データ解析システム
ビッグ データ解析システムは、大量の地理データと表形式データの解析に使用されます。 解析機能は主にベクター データに焦点を当てていますが、画像とラスター データ タイプにも一部の機能が存在します。 このシステム パターンでは、分散処理インフラストラクチャーで大規模なデータ解析をまとめて実行するためのエンジンとして Apache Spark が使用されます。 通常、ビッグ データの空間解析と時間解析の結果は、さらなる下流解析のためにデータ ストアに書き込まれるか、視覚化とさらなる地理解析のために他の ArcGIS システムに書き込まれます。 機能は、選択したデプロイメント パターンに大きく依存します。
ビッグ データ解析システム パターンは、次のようなさまざまな特性を通じて組織に価値をもたらします。
- 地理科学を取り入れることでビッグ データ解析に革新的な次元を提供し、意思決定を改善します。
- 既存の Apache Spark ベースのビッグ データ解析ワークフローに地理ベースの解析を追加します。
- 使い慣れたツールとエクスペリエンスを通じて、データ サイエンティストに空間処理を公開します。
- GPS、AIS、人の移動、その他の移動センサー データセットなど、位置情報 (緯度と経度) が付与されたビッグ データから地理的な分析的知見をすばやく抽出します。
- 解析結果をオブジェクト ストレージ、リレーショナル データベース、データ ウェアハウスなどのシステムに格納およびインデックス作成し、Web マップ、ストーリー マップ、カスタム アプリケーションなどのより直感的なアプリケーションで共有および利用することができます。
ArcGIS システム パターンを初めて使用する場合は、まずイントロダクションを確認してください。
ユーザー ペルソナとワークフロー
ビッグ データ解析システムを最もよく操作するユーザー ペルソナと、このシステムを使用して通常実行するワークフローとタスクの種類を次に示します。
- データ アナリスト、データ サイエンティスト、データ エンジニア。 データ アナリスト、データ サイエンティスト、データ エンジニアは、ビッグ データ解析システムを操作する主要なユーザー ペルソナです。 これらのユーザー ペルソナは、通常、Apache Spark、Python、ビッグ データの取り扱いに精通しており、ここで紹介する空間対応ビッグ データ解析システムの価値を最大限に引き出すには、これらの専門的なスキルが必要です。 データ アナリスト、データ サイエンティスト、データ エンジニアは、ビッグ データの取り扱いと準備、解析ルーチンの設計、開発、実施、および解析結果の視覚化と調査を行います。 このユーザー ペルソナの作業は、通常は反復的な作業であり、多くの場合、解析結果の説明および他の関係者との共有も行います。
- GIS アナリスト。 GIS アナリストは、通常、ビッグ データ解析システムの主要なユーザーではありません。ビッグ データ解析に必要なスキルは、GIS アナリストの役割の範囲外です。 ただし、GIS アナリストは通常、データ アナリスト、データ サイエンティスト、データ エンジニアと協力して、重要な空間概念が理解され、地理空間データおよび解析方法およびツールを操作するためのベスト プラクティスが適用されていることを確認します。
ビッグ データ解析システムの価値を最大限に引き出すには、上記の両方のペルソナ、または両方のペルソナのスキルを持つ個人を関与させることを検討します。
アプリケーション
ArcGIS には多くのアプリケーションやエクスペリエンスが用意されていますが、通常、ビッグ データ解析システムは、データ アナリスト、データ サイエンティスト、およびデータ エンジニアに馴染みのある下位レベルのインターフェイスのみを公開します。 これらのインターフェイスは、選択したデプロイメント パターンによって異なります。 Apache Spark デプロイメント パターンは、主に Python ノートブックに依存しており、通常はデータ解析環境内で実行され、PySpark Python コードが開発され、Spark クラスターに送信されるジョブとしてバンドルされます。 SaaS (サービスとしてのソフトウェア) デプロイメント パターンは、データ ソースを解析ツールに論理的に接続することでワークフローの構成をサポートするビジュアル モデリング インターフェイスを提供します。
レポート、ダッシュボード、対話型マッピング アプリケーションなどの追加アプリケーションは、解析結果を視覚化および共有するためによく使用されます。 これは通常、セルフサービスのマッピング、解析、共有システム、またはその他の ArcGIS システム パターンによって実現されます。 システム パターンの使用、統合、および作成の詳細をご参照ください。
機能
ビッグ データ解析システムが提供する主な機能を以下に紹介します。 ビッグ データ解析ワークフローで使用される機能のうち、通常は他のシステムによって提供される機能 (ベースマップや位置情報サービス システムによって提供されるその他の位置情報サービスなど) は、以下に示されていません。 関連するシステム パターンの詳細をご覧ください。
次に示されたすべての機能をすべてのデプロイメント パターンで使用できるわけではありません。 これらの機能がさまざまなデプロイメント コンテキストでどのように適用されるか (または適用されないか) の詳細については、デプロイメント パターンの選択とデプロイメント パターンに関するページをご参照ください。
- データの取り込みにより、解析タスクを実行する際に、ビッグ データ解析シテムからデータにアクセスできます。 ほとんどの場合、データはソースの場所で直接解析されます。ただし、特定のシナリオでは、SaaS 上のビッグ データ解析システムでデータをシステムに取り込む必要がある場合があります。
- 空間結合と空間リレーションシップを使用すると、2 つのデータセットの行を空間リレーションシップに基づいて結合できます。 インターセクト、イレース、ユニオン、アイデンティティー、シンメトリカル ディファレンスなど、さまざまな空間リレーションシップを適用できますが、機能は選択したデプロイメント パターンによって異なります。
- 時間ステップと時系列リレーションシップにより、時間を使用した解析が可能になります。 時間ステップは、入力データを、解析が独立して実行されるステップにスライスし、Apache Spark デプロイメント パターンで使用できます。 時系列リレーションシップは、結合ツールを使用してデータを時系列に結合するために使用され、両方のデプロイメント パターンでサポートされています。
- パターン解析は、データ内の空間的および時間的なパターンを特定します。 ホット スポットの検索、類似した場所の検索、トレンドのモデル化および予測の生成のための回帰ベースの各種解析手段などのツールが用意されています。
- 近接解析では、空間データと他の空間データとの近接性を調べます。 ポイント クラスターの検索やバッファーの作成などのツールがあります。
- 集計解析は、データを上位のデータ構造に集約または集計します。 ポイントの集約、密度の計算、エリア内での集計などのツールがあります。
- トラック解析は、移動するオブジェクトに関連付けられた時間対応ポイントで機能します。 トラックの再構築やネットワークへのスナップ、移動経路と滞在場所の解析ツールなどがあります。
- ジオコーディングは、テキストを住所と位置に変換するプロセスです。 ビッグ データ解析システムのジオコーディング ツールは、大量の住所データを処理するように設計されています。 ジオコーディングの詳細をご覧ください。
- ネットワーク解析は、道路ネットワークの一般的なネットワーク問題の解決に役立つことが多々あります。 ビッグ データ解析システムでのネットワーク解析に使用できる機能は、従来の解析システムで使用できる機能とは範囲が多少異なります。 さらに、ネットワーク解析機能は、デプロイメント パターンによって大きく異なります。 デプロイメント パターンの詳細をご確認ください。
- ラスター解析は、ラスター データに対する解析関数とプロセッサーをサポートします。 ビッグ データ解析システムでのラスター解析に使用できる機能は、従来の解析システムに比べて比較的制限されています。 さらに、ラスター解析機能はデプロイメント パターンによって大きく異なります。 デプロイメント パターンの詳細をご確認ください。 また、より高度なラスター解析と画像解析については、画像データ管理および解析システム パターンをご参照ください。
- データ管理は、ビッグ データのジオメトリーやその他のフィールドでの操作をサポートします。 これには、フィールド演算などのツールが含まれます。 Apache Spark デプロイメント パターンには、Spark SQL API を拡張する多くの空間 SQL 関数も含まれています。
- Apache Spark 上のビッグ データ解析システムでは、特に BDT (Big Data Toolkit) オプションを使用して、カスタム解析ツールが使用可能になります。 詳細については、Apache Spark デプロイメント パターンをご参照ください。
- 解析結果のマッピングと視覚化は、コンテキストを提供し、パターン、傾向、関係を明らかにするための強力なステップです。 視覚化とマッピングは、非空間データを使用したチャート作成およびプロットと似ています。 これにより、解析を検証、反復し、魅力的で共有しやすい結果を作成できます。 マッピング、視覚化、および解析結果のためのこれらのインターフェイスは、選択したデプロイメント パターンによって異なります。詳細については、アプリケーションをご参照ください。
- 解析結果のデータの公開とホスティングは ArcGIS でサポートされていますが、ビッグ データ解析システム パターンの対象には含まれません。 詳細については、関連するシステム パターンをご参照ください。
アーキテクチャーに関する検討事項
このセクションでは、ビッグ データ解析システムが ArcGIS アーキテクチャーの特定の側面とどのように連携し、特定の側面にどのように焦点を当てるかを詳しく説明します。
アーキテクチャーに関する詳細な検討事項については、デプロイメント パターンの選択をご参照ください。
データ (永続性)

ビッグ データ解析システムは、ファイル ストアやオブジェクト ストア (多くの場合、分散データ レイク ストア)、リレーショナル データベース、クラウド データ ウェアハウス、NoSQL ドキュメント ストアなど、さまざまなデータ ストアと連携します。 ArcGIS のデータ モデルとルールは、特定のデータ ストアを操作するときにも使用できますが、このシステム タイプでは通常、業界固有の ArcGIS データ モデルは使用されません。 ほとんどの場合、ビッグ データ解析システムは、その場所にあるデータと連携して、解析をデータに近づけます。ただし、SaaS デプロイメント パターンでは、Esri がホストする SaaS システムにデータを取り込む必要がある場合があります。 各デプロイメント パターンがデータを処理する方法と、それがサポートするデータ ストアとソースについて詳しく説明します。
サービス (ロジック)

ビッグ データ解析システムは、狭く深い一連の ArcGIS サービス (特にビッグ データ解析、AI、ディープ ラーニング) を利用します。 ビッグ データ解析システムは、エンジニアリング データの AI およびディープ ラーニング解析のサポート、およびディープ ラーニング モデルのトレーニングとテストに最も一般的に使用されています。 空間解析とデータ サイエンスの詳細をご参照ください。
ビッグ データ解析システムは、ビッグ データの検索、アクセス、空間参照、情報付加、および管理にも使用できます。 このシステムを ETL (抽出、変換、ロード) ワークフローに使用することは可能であり、比較的一般的です。 ビッグ データ解析システムは、ベースマップおよび参照レイヤーを使用した対話型マッピングを利用して、解析結果を視覚化します。 解析結果やその他のコンテンツはポータル サービスを通じてカタログ化および共有されるのが一般的ですが、通常は別の ArcGIS ベースのシステムを通じて行われます。 詳細については、関連するシステム パターンをご参照ください。
アプリケーション (プレゼンテーション層)

ビッグ データ解析システムは通常、データ アナリスト、データ サイエンティスト、データ エンジニアにとってなじみのある下位レベルのユーザー インターフェイスのみを公開します。 これらのユーザー インターフェイス (アプリケーション) は、選択したデプロイメント パターンによって異なります。 詳細についてはアプリケーションをご参照ください。
サポート
ビッグ データ解析システムは、弾力性とスケーラビリティーに重点を置いた分散型コンピューティングに依存しています。 このため、ビッグ データ解析システムの大部分はクラウドベースとなっている傾向があります。 サポートに関するその他の検討事項には、多くの場合、インフラストラクチャーの効率性とコスト管理、長時間実行される解析プロセスの可観測性、データ ソースや他の解析システムやエンゲージメント システムとの統合などがあります。 システム統合の詳細については、Well-Architected Framework の統合の柱をご参照ください。 これらのシステムは、パフォーマンスや信頼性の SLA の対象とならない傾向があります。
一般的なサポートとアーキテクチャーに関する検討事項については、アーキテクチャーの実践および ArcGIS Well-Architected Framework のアーキテクチャーの柱をご参照ください。
関連するシステム パターン
ビッグ データ解析システムは、他の ArcGIS システム パターンと統合または組み合わせることができる場合があります。 一般的な例を次にいくつか挙げます。
システム パターンを統合または構成する方法の詳細については、システム パターンの使用をご参照ください
例
このシステム パターンにおける業界固有のシステムとして、次のような例があります。
- 商業分野。 商業用不動産、金融サービス、小売業界の組織は、ビッグ データ解析システム パターンを利用して、大規模な人口統計分析タスクを高速化できます。 これには、Esri の人口統計変数の一部だけでなく、すべての変数にデータを付加することが含まれる可能性があります。 このようなタスクは、このパターンを使用するとより迅速かつ頻繁に実行できるため、組織は包括的で最新の人口統計学的洞察を得て、意思決定を周知できます。
- 保健福祉サービス。 病気やその他の健康問題のリスクは、場所によって大きく異なります。 医療機関や公衆衛生機関の研究者は、ビッグ データ解析システム パターンを利用して、コミュニティーの健康と病気の感染リスクに影響を与える相関要因を効率的に調査できます。 医療機関は、ビッグ データ解析システムを利用して、ネットワークの妥当性を評価することもできます。
- 保険。 保険業者は、空間データを使用してリスクを管理し、保険契約に適切な価格を設定しています。 ビッグ データ解析システム パターンを利用して、ハザードとポリシーの間の空間的関係を評価し、リスク エクスポージャーのバランスを取ることができます。 また、OBD2 デバイスを使用して収集した車両のテレメトリー データの地理対応化にも関心があり、ドライバーの行動に関する洞察を得ることができます。 たとえば、可能な限り安全なルートを選択し、掲示されている制限速度を遵守する安全なドライバーを特定し、これらのドライバーの保険料を低くすることができます。
- 中央政府。 国家機関は、社会活動、経済活動、環境活動に関する膨大な量のデータを収集することがよくあります。 ビッグ データ解析システム パターンを利用して、このデータを分析して、タイムクリティカルなパターンや関心のあるアクティビティーを迅速に調査し、理解することができます。 たとえば、滞在場所 (人々が時間を過ごす場所)、空間クラスター (人々が集まる場所)、異常 (予期しない変化やアクティビティーなど) を特定できます。
- 天然資源。 ビッグ データ解析システム パターンを利用すると、石油およびガス会社は、デジタル ツイン用に作成したデータを適用して、Spark ビッグ データ インフラストラクチャーを使用して what-if シナリオを作成し、異常 (壊れた資産など) を特定し、関係をモデル化できます。 これらの企業は、過去の GPS トラックを使用してリース道路 (公道網の一部ではない) を検出し、それらを公道に接続することもできます。 ユーザーは、その道路データを適用して検査現場を最適に順序付けできるため、従業員が検査中に道路 (あるいは車中) で過ごす必要のある時間を短縮できます。
- 地方自治体。 州と地方の機関は、データを利用して、市民に効果的なサービスを提供しています。 ビッグ データ解析システム パターンを利用すると、311 通話履歴、車両テレメトリー データなど、サービスに関連する履歴データを理解できます。 これにより、市民の苦情への対応レベルに関する質問に答え、サービス プロバイダーのパフォーマンスを評価できます。
- 通信。 ビッグ データ解析システム パターンにより、通信事業者は通話記録を解析して、通話の切断が大量に蓄積されている統計的に有意なホットスポットなど、ネットワークの問題や異常を特定できます。 また、人口統計データと Wi-Fi アクセス ホットスポットのデータを融合して、発信者の特性と行動に関する推論を抽出することもできます。 また、この行動データをソーシャル メディア企業などの外部の顧客に販売することにも関心があるかもしれません。
- 交通。 コネクテッド ビークル (自動車や列車など) は、テレメトリー データを収集して、車両の運用を改善します。 ビッグ データ解析システム パターンを利用すると、自動車メーカー (および車載システムの開発者) は、履歴テレメトリーに対して解析を実行して、実際の動作条件に関する洞察を得ることができます。 その後、これらの洞察を利用して、移動時間の見積もり、道路とナビゲーションのデータ、および車両やフリートに関連するその他のサービスを改善できます。 一部の組織は、テレメトリー データと解析情報を第三者に販売することにも関心がある場合があります。
- 公益事業。 公益事業会社は、ビッグ データ解析システム パターンを使用して、過去の使用量と停電の情報を確認し、そのデータを気象パターンやその他の地域の状況と関連付けて、使用量を増加させる要因と停電リスクを高めている要因を把握できます。 これは、公益事業会社が使用量の予測を改善し、予防保守に優先順位を付け、顧客サービスのニーズを予測するのに役立ちます。