配备 GeoAnalytics Engine 的 Spark 环境

许多组织使用统一的数据系统或融合分析平台来管理和处理企业数据资产。 这种整合趋势引入了一种部署和架构模式,该模式侧重于将计算资源部署在数据源旁边,并且通常通过使用 Apache Spark 构建的数据工程和分析环境来访问这些资源。 类似于大数据分析系统模式,空间和时间大数据分析结果通常会写回数据存储以进行进一步的下游分析,或者进行可视化和进一步的地理分析。

作为一种集成模式,GeoAnalytics Engine 的使用允许现有系统将 GeoAnalytics Engine 的空间功能工具集成到现有数据处理管道或工程工作流中。 另一种常见的方法是将企业业务数据(存储在可通过 Spark 访问的系统中)与从 ArcGIS 数据集加载的地理空间要素相结合以进行报告或分析。 GeoAnalytics Engine 可以读取各种数据源,其中包括 CSV、Parquet 和 GeoJSON,并将结果写回 ArcGIS 要素服务或者数据湖或大数据文件系统中的数据结构。

有关其他资源,请参阅:

  • ArcGIS GeoAnalytics Engine 技术文档
  • GeoAnalytics Engine 的 API 参考介绍了此库所提供的具体函数和工具。

ArcGIS 中的集成模式

ArcGIS GeoAnalytics Engine 包含针对若干特定技术的文档化部署模式,每种模式都可以从 ArcGIS Enterprise 或 ArcGIS Online 要素服务读取数据,并将数据写回其中。 用于 ArcGIS Pro 的 GeoAnalytics 工具箱包含可通过桌面分析工作流使用的空间函数和工具的子集。

功能 ArcGIS Online ArcGIS Enterprise ArcGIS Location Platform ArcGIS Pro
ArcGIS GeoAnalytics Engine N/A

完全支持 部分支持


最佳做法

  • 当存在相应工具时,请使用 GeoAnalytics Engine 工具。 这些工具经过设计和优化,旨在解决特定的业务问题,并为进一步开发提供良好的基线。

  • 一般情况下,Spark 分析非常适合 Map/Reduce 类型的工作负载,即使用空间函数或其他数据工程工具(如连接或汇总)将非常大的数据集提炼为特定结果。

  • 大多数基于 Spark 的分析系统都在固定的计算资源范围内运行,因此对查询和操作进行测试和调整以实现有效分析将非常重要。 在运行可能涉及数十亿数据元素或行的分析之前,建议先针对数据子集对查询或工具进行测试。

Top