大数据分析系统
大数据分析系统用于分析大量地理和表格数据。 分析功能主要侧重于矢量数据,但也有一些功能用于影像和栅格数据类型。 此系统模式利用 Apache Spark 作为引擎,在分布式计算基础设施上批量执行大规模数据分析。 空间和时间大数据分析结果通常会写回数据存储以进行进一步的下游分析,或写回其他 ArcGIS 系统以进行可视化和进一步的地理分析。 功能在很大程度上取决于所选的部署模式。
大数据分析系统模式通过各种特征为组织提供价值,例如:
- 通过整合地理科学为大数据分析提供创新维度,从而改进决策。
- 将基于地理的分析添加到现有的基于 Apache Spark 的大数据分析工作流。
- 通过熟悉的工具和体验向数据科学家公开空间操作。
- 从包含位置属性(纬度和经度)的大数据(如 GPS、AIS、人体运动或其他移动传感器数据集)中快速提取地理信息。
- 将分析结果存储并索引到对象存储、关系数据库和数据仓库等系统中,可以从这些系统中将结果共享,供 Web 地图、故事地图以及自定义应用程序等更直观的应用使用。
如果您不熟悉 ArcGIS 系统模式,请先参阅简介。
用户角色和工作流
最常与大数据分析系统进行交互的用户角色及其通常使用此系统执行的工作流和任务类型,包括:
- 数据分析师、科学家和工程师。 数据分析师、科学家和工程师是与大数据分析系统交互的主要用户角色。 这些用户角色通常熟悉 Apache Spark、Python 和大数据处理。要从此处介绍的启用空间数据的大数据分析系统中实现最大价值,需要掌握这些专业技能。 数据分析师、科学家和工程师处理和准备大数据,设计、开发和执行分析例程,以及可视化和研究分析结果。 此用户角色的工作通常是迭代的,通常还涉及描述分析结果并与其他利益相关者共享。
- GIS 分析师。 GIS 分析师通常不是大数据分析系统的主要用户,因为通常执行此操作所需的技能超出了 GIS 分析师角色的范围。 但是,GIS 分析师通常与数据分析师、科学家和工程师一起工作,确保重要的空间概念被正确理解,以及在处理地理空间数据、分析方法与工具时能够应用最佳实践。
要充分发挥大数据分析系统的价值,建议同时引入上述两类角色,或是具备这两类技能的复合型人才。
应用程序
虽然 ArcGIS 提供了许多应用程序和体验,但通常大数据分析系统仅提供数据分析师、数据科学家和数据工程师熟悉的较低级别界面。 这些界面因所选部署模式而有所不同。 Apache Spark 部署模式主要依赖于 Python 笔记本,通常在数据分析环境中运行,PySpark Python 代码在该环境中开发,并作为提交到 Spark 集群的作业捆绑。 软件即服务 (SaaS) 部署模式提供了一个可视化建模界面,该界面支持通过将数据源与分析工具逻辑连接来配置工作流。
其他应用程序(例如报表、仪表盘和交互式制图应用程序)通常用于可视化和共享分析结果。 这通常通过自助制图、分析和共享系统或其他 ArcGIS 系统模式来实现。 了解有关使用、集成和组合系统模式的详细信息。
功能
下文介绍了大数据分析系统提供的主要功能。 以下未列出在大数据分析工作流中使用但通常由其他系统提供的功能,例如底图和位置服务系统提供的其他位置服务。 了解有关相关系统模式的详细信息。
以下所述所有功能并非在所有部署模式中均可用。 有关这些功能在各种部署环境中的适用性(或不适用性)的详细信息,请参阅选择部署模式和部署模式页面。
- 数据获取使大数据分析系统能够在执行分析任务时访问数据。 在大多数情况下,会直接在源位置分析数据;但在某些情况下,SaaS 上的大数据分析系统可能需要将数据获取到系统中。
- 借助空间连接和关系,可基于空间关系来组合来自两个数据集的行。 可以应用各种空间关系,包括相交、擦除、联合、标识和对称差异,但功能因所选部署模式而有所不同。
- 时间步长和时态关系 支持使用时间进行分析。 时间步长可将输入数据切分成多个步长,在这些步长上独立执行分析,并可通过 Apache Spark 部署模式使用。 时态关系用于使用连接工具通过时间连接数据,并且两种部署模式都支持时态关系。
- 模式分析用于标识数据中的空间和时间模式。 包括查找热点、查找相似位置等工具,以及用于对趋势进行建模和生成预测的各种基于回归的分析方法。
- 邻近分析用于确定空间数据与其他空间数据的接近程度。 其中包括查找点聚类和创建缓冲区等工具。
- 汇总分析用于将数据聚合或汇总到更高阶的数据结构中。 包括诸如聚合点、计算密度和范围内汇总等工具。
- 追踪分析适用于与移动对象相关的启用时间的点。 其中包括重新构建轨迹、捕捉到网络等工具,以及用于分析旅程和停留位置的工具。
- 地理编码是一个将文本转换为地址和位置的过程。 大数据分析系统中的地理编码工具旨在处理大量地址数据。 了解有关地理编码的详细信息。
- 网络分析有助于解决常见的网络问题,通常(但并非总是)针对街道网络。 大数据分析系统上可用于网络分析的功能与传统分析系统中的可用功能在范围上略有不同。 此外,网络分析功能在不同部署模式之间存在显著差异。 更详细地探索部署模式。
- 栅格分析支持处理栅格数据的分析函数和处理器。 与传统分析系统相比,大数据分析系统上可用于栅格分析的功能相对有限。 此外,栅格分析功能在不同部署模式之间存在显著差异。 更详细地探索部署模式。 此外,有关更多高级栅格和影像分析,请参阅影像数据管理和分析系统模式。
- 数据管理支持对大数据中的几何和其他字段进行操作。 这包括计算字段等工具。 Apache Spark 部署模式还包括许多扩展 Spark SQL API 的空间 SQL 函数。
- 自定义分析工具可以通过 Apache Spark 上的大数据分析系统运行,特别是通过使用大数据工具包 (BDT) 选项。 有关更多详细信息,请参阅 Apache Spark 部署模式。
- 分析结果的制图和可视化是提供上下文并帮助发现模式、趋势和关系的强大步骤。 可视化和制图类似于使用非空间数据绘制图表。 这是一种验证您的分析、迭代并创建引人入胜的可共享结果的方式。 这些用于制图和可视化以及分析结果的界面因所选部署模式而有所不同;有关详细信息,请参阅应用程序。
- ArcGIS 支持数据发布和分析结果的托管,但这被视为超出了大数据分析系统模式的范围。 有关详细信息,请参阅相关系统模式。
架构注意事项
本部分将更加详细地介绍大数据分析系统如何与 ArcGIS 架构的特定方面保持一致并侧重于其特定方面。
有关更加详细的架构注意事项,请参阅选择部署模式。
数据(持久)

大数据分析系统适用于各种数据存储,包括文件和对象存储(通常作为分布式数据湖存储)、关系数据库、云数据仓库以及 NoSQL 文档存储。 在处理某些数据存储时,也可以使用 ArcGIS 数据模型和规则;但是,此系统类型通常不使用特定于行业的 ArcGIS 数据模型。 在大多数情况下,大数据分析系统使用现有的数据,使分析更接近数据;但是,SaaS 部署模式可能需要将数据提取到 Esri 托管的 SaaS 系统中。 了解有关各种部署模式的数据处理方式及其支持的数据存储和数据源的详细信息。
服务(逻辑)

大数据分析系统主要依赖 ArcGIS 中一套精而深的服务,尤其是大数据分析功能,以及人工智能和深度学习技术。 大数据分析系统最常用于支持工程数据的 AI 和深度学习分析,以及训练和测试深度学习模型。 了解有关空间分析和数据科学的详细信息。
大数据分析系统还可用于查询、访问、空间参考、数据丰富和大数据管理。 将此系统用于提取、转换和加载 (ETL) 工作流是可能的,并且相对常见。 大数据分析系统可利用带有底图和参考图层的交互式制图来可视化分析结果。 通过门户服务对分析结果和其他内容进行编目和共享是典型操作,但这通常通过另一个基于 ArcGIS 的系统完成。 有关详细信息,请参阅相关系统模式。
应用程序(表示)

大数据分析系统通常只公开数据分析师、数据科学家和数据工程师熟悉的较低级别的用户界面。 这些用户界面或应用程序因所选部署模式而有所不同。 有关详细信息,请参阅应用程序。
支持
大数据分析系统依赖于分布式计算,非常强调灵活性和可扩展性。 因此,大多数大数据分析系统往往基于云。 其他支持注意事项通常包括基础设施效率和成本管理、长时间运行的分析流程的可观测性,以及与数据源和其他分析或参与系统的集成。 有关系统集成的详细信息,请参阅优化架构框架的集成支柱。 这些系统往往不受性能或可靠性 SLA 的约束。
有关常规支持和架构注意事项,请参阅架构实践以及 ArcGIS 优化架构框架的架构支柱。
相关系统模式
大数据分析系统可以与其他 ArcGIS 系统模式集成或组合。 一些常见示例包括:
有关集成或组合系统模式的详细信息,请参阅使用系统模式。
示例
此系统模式的行业特定系统示例包括:
- 商业。 商业房地产、金融服务和零售行业的组织可以利用大数据分析系统模式来加快大规模人口统计分析任务。 这可能包括使用 Esri 的所有人口统计变量(而不仅仅是少数)来丰富数据。 使用此模式可以更快、更频繁地运行此类任务,因此组织可以获得全面、最新的人口统计见解,从而为其决策提供信息。
- 卫生与公共服务。 疾病和其他健康问题的风险会因位置不同而存在显著差异。 医疗保健和公共卫生组织的研究人员可以利用大数据分析系统模式来有效调查影响其社区内健康和疾病传播风险的相关因素。 卫生组织还可以利用大数据分析系统来评估网络充足性。
- 保险。 保险公司使用空间数据来帮助管理风险并实现保险产品的精准定价。 他们可以利用大数据分析系统模式来评估灾害和政策之间的空间关系,从而帮助他们平衡风险暴露。 他们还对使用 OBD2 设备采集的车辆遥测数据进行地理启用感兴趣,旨在深入了解驾驶员的行为。 例如,可以识别出选择最安全路线、遵守限速规定的安全驾驶员,并通过降低保险费率来奖励这些驾驶员。
- 国家政府。 国家机构经常会采集极其大量的有关社会、经济和环境活动的数据。 使用大数据分析系统模式,他们可以分析这些数据,以快速调查和了解时间关键型模式和感兴趣的活动。 例如,它们可以识别停留位置(人们花费时间的地点)、空间聚类(人们聚集的地点)和异常(如意外的变化和活动)。
- 自然资源。 借助大数据分析系统模式,石油和天然气公司可以应用他们为数字孪生创建的数据来创建假设场景,识别异常情况(如损坏的资产),并使用其 Spark 大数据基础设施对关系进行建模。 这些公司还可以使用历史 GPS 轨迹来检测租赁道路(不属于公共道路网络),然后将其与公共道路连接。 用户可以应用该道路数据对检查地点进行最佳排序,从而减少员工在检查期间需要在道路上花费的时间(也称为挡风玻璃时间)。
- 州和地方政府。 州和地方机构依托数据赋能,能够为市民提供高效的服务。 借助大数据分析系统模式,他们可以了解与其服务相关的历史数据,例如 311 呼叫历史记录、车辆遥测数据等。 这使他们能够回答有关对市民投诉响应程度的问题,并评估服务提供商的表现。
- 电信。 借助大数据分析系统模式,电信公司可以分析呼叫记录以识别网络中的问题和异常,例如掉线通话累积量较高的具有统计显著性的热点。 他们还可以将人口统计数据与来自 Wi-Fi 访问热点的数据融合,以提取有关呼叫者特征和行为的推断。 他们可能还有兴趣将这些行为数据出售给外部客户,例如社交媒体公司。
- 交通运输。 联网车辆(如汽车和火车)可以采集遥测数据以帮助改善车辆的运行。 借助大数据分析系统模式,汽车制造商(和车载系统开发人员)可以针对历史遥测数据运行分析,以深入了解实际运行情况。 然后,他们可以使用这些见解来改进行程时间估计、道路和导航数据以及与车辆和车队相关的其他服务。 一些组织可能还有兴趣将其遥测数据和分析见解出售给第三方。
- 公共事业。 公用事业公司可以使用大数据分析系统模式来查看历史使用情况和中断信息,然后将该数据与天气模式和其他当地条件相关联,以了解会导致更高的使用率并增加中断风险的因素。 这有助于他们改进使用情况预测、确定预防性维护的优先级并预测客户服务需求。