为大数据分析系统选择部署模式

大数据分析系统通常使用以下两种部署模式进行部署:

适当部署模式的选择主要取决于大数据分析使用的数据源。

Apache Spark 部署模式以 Apache Spark 库的形式利用 ArcGIS,对 Apache Spark 环境可访问的集中位置(例如数据湖、对象存储、关系数据库、文件)的持久化数据执行分析。 Apache Spark 部署模式是数据科学家执行空间大数据分析的最常用模式。 Apache Spark 部署模式的基础是将空间分析引入数据科学家熟悉的环境中。 这是使用 Spark 库完成的,该库允许数据科学家将空间函数和流程添加到新的或现有的分析工作流中。 Apache Spark 提供分布式计算能力,支持访问各类数据集,具备强大的功能库,能够对结构化分析内容进行探索与交互,并生成可供利益相关方或后续业务流程使用的结果。 

或者,可以将大数据分析作为用于实时数据流和分析的 SaaS 部署模式的一部分进行。 在这种模式下,实时传感器或事件数据被提取到 SaaS 产品中,进行实时分析或存档以供用户定义的大数据分析流程稍后使用。 

Apache Spark 和 SaaS 部署模式之间存在许多功能和非功能差异,例如用于设计分析模型的界面以及提供的特定分析工具和功能。 但是,除了组织对部署模型的偏好之外,关键决策点往往是大数据分析系统是否主要用于分析实时数据和观测结果,或者该系统是否用于分析组织现有大数据存储(例如,数据湖)中持久保存的数据。 有关详细信息,请参阅 Apache SparkSaaS 部署模式页面。

有关这些部署方法的常规信息和注意事项,请参阅 ArcGIS 概览的 ArcGIS 产品和部署选项页面。

Top