Databricks 数据智能平台提供了一套统一的工具,用于大规模构建、部署、共享和维护企业级数据解决方案。 Databricks 将与云账户中的云存储和安全功能集成,并代表您管理和部署云基础设施。 Databricks Runtime 版本既包含诸如 Apache Spark 等开源技术,也包含多种专有工具,这些工具集成并扩展了上述技术,以优化性能并提升易用性。
许多组织同时将 Databricks 和 ArcGIS 用于独立和集成的工作流,尤其侧重于数据工程、数据管理、分析、机器学习和 AI 模型准备。 大数据分析系统 (Apache Spark) 系统模式中描述了结合 ArcGIS 和 Databricks 功能的一种常见实现模式。
ArcGIS GeoAnalytics Engine 可以安装在 Azure、AWS 或 Google Cloud 平台中的 Databricks 上,从而为您的 Databricks 工作空间添加空间数据科学和分析功能。 安装 GeoAnalytics Engine 后,即可使用 Databricks 管理的 Spark 集群运行空间 SQL 函数和分析工具。 由于 GeoAnalytics Engine 扩展了 PySpark,您可以在数据所在的任何位置为其启用空间功能,并在 Databricks Notebook 中与其他数据科学和机器学习技术一起无缝执行空间分析工作流。
此集成模式对于为存储在 Databricks 中的现有数据引入空间分析和地理工具尤为有用,因为基于 Spark 的分析工作流具有可扩展性,能够高效处理数十亿条记录。 可以将此过程的结果持久化存储回 Databricks 存储中,或者作为托管要素图层发布至 ArcGIS Online 或 ArcGIS Enterprise,从而允许其他 GIS 应用程序与这些结果进行交互。 在大多数情况下,Databricks 最适合用作分析系统,可将大型数据集与空间查询相结合,以生成更具针对性的结果。 由此可避免不必要的数据重复,并充分利用 Databricks 的批量分析功能。
ArcGIS API for Python 可在 Databricks Notebooks 内使用,以访问、管理和分析托管在 ArcGIS Online 或 ArcGIS Enterprise 中的 GIS 内容。 用户可以在熟悉的 Databricks 环境中安全地进行身份验证、查询要素图层、执行空间分析以及可视化结果。 对于希望将 ArcGIS 的 Web GIS 功能与 Databricks 的协作数据科学工作流相结合的团队来说,此方法是理想选择,尤其在将空间数据与机器学习模型集成或者协调 ETL 管道时更是如此。
有关附加详细信息,请参阅博客文章在 Databricks Notebooks 中使用 ArcGIS API for Python。
ArcGIS Data Pipelines 提供了一个低代码界面,用于构建可直连 Databricks 的空间 ETL 工作流。 通过配置管道以从 Delta Lake 表中进行读取,IT 团队可以实现数据的自动移动和变换,并且几乎无需编写脚本。
此集成支持企业级数据工程用例,例如从大数据平台同步权威业务数据集、使用空间上下文丰富表格数据,以及为 AI/ML 模型准备地理空间输入,并且全程可保持数据治理和可扩展性。 此功能目前处于测试阶段,更多详细信息请参阅 ArcGIS Data Pipelines 文档。
Databricks 提供了多种 API 和库,可用于连接到该系统中存储的数据并对其进行处理。 这些工具支持其他集成模式,例如通过自定义 Maps SDK 图层或者基于 Python 的 ETL 查看 Databricks 内容。
Databricks 的一个团队还开发了示例自定义数据源,用于扩展 ArcGIS Enterprise 以允许基于 Databricks 表和内容创建服务。