Платформа Data Intelligence Databricks предоставляет единый набор инструментов для создания, развертывания, обмена и поддержки корпоративных решений для данных. Databricks интегрируется с облачным хранилищем и параметрами безопасности в вашем облачном аккаунте, а также управляет и внедряет облачную инфраструктуру от вашего имени. Выпуски Databricks Runtime включают как открытые технологии, такие как Apache Spark, так и ряд проприетарных инструментов, которые интегрируют и расширяют эти технологии для повышения производительности и удобства использования.
Многие организации используют Databricks и ArcGIS как для независимых, так и для интегрированных рабочих процессов, особенно с акцентом на инженерию данных, управление данными, аналитику, машинное обучение и подготовку моделей ИИ. Один из распространённых шаблонов реализации, сочетающий функциональность ArcGIS и Databricks, описан в системном шаблоне Big Data Analytics (Apache Spark).
ArcGIS GeoAnalytics Engine можно установить на Databricks в Azure, AWS или Google Cloud, чтобы добавить возможности науки о пространственных данных и анализа в ваше рабочее пространство Databricks. После установки GeoAnalytics Engine вы сможете запускать пространственные SQL-функции и аналитические инструменты с помощью кластера Spark, управляемого Databricks. Поскольку GeoAnalytics Engine расширяет PySpark, вы можете использовать пространственные данные в любом месте и бесшовно выполнять рабочие процессы пространственного анализа наряду с другими технологиями науки о данных и машинном обучении в блокноте Databricks.
Этот шаблон интеграции особенно полезен для внедрения пространственного анализа и географических инструментов в существующие данные, хранящиеся в Databricks, поскольку масштабируемость аналитического рабочего процесса на основе Spark позволяет эффективно обрабатывать миллиарды записей. Результаты этого процесса могут сохраняться в хранилище Databricks или публиковаться в ArcGIS Online или ArcGIS Enterprise в виде размещенных слоев объектов, позволяя другим ГИС-приложениям взаимодействовать с ними. В большинстве случаев Databricks лучше всего использовать как аналитическую систему, которая объединяет большие наборы данных с пространственными запросами для получения более точного результата. Это позволяет избежать ненужного дублирования данных и развивать пакетные аналитические возможности Databricks.
ArcGIS API for Python может использоваться в ноутбуках Databricks для доступа, управления и анализа ГИС-ресурсов, размещенных в ArcGIS Online или ArcGIS Enterprise. Пользователи могут безопасно выполнять аутентификацию, запрашивать слои объектов, проводить пространственный анализ и визуализировать результаты — все это в привычной среде Databricks. Этот подход идеально подходит командам, стремящимся объединить возможности веб-ГИС ArcGIS с совместными рабочими процессами Data Science Databricks, особенно при интеграции пространственных данных с моделями машинного обучения или конвейерами ETL.
См. блог-пост Использование ArcGIS API for Python в Databricks Notebooks для получения дополнительной информации.
ArcGIS Data Pipelines предоставляет интерфейс с небольшим количеством кода для построения пространственных рабочих процессов ETL, которые могут напрямую подключаться к Databricks. Настраивая конвейеры для чтения из таблиц Delta Lake, ИТ-команды могут автоматизировать перемещение и преобразование данных с минимальным количеством скриптов.
Эта интеграция поддерживает корпоративные сценарии использования в области инженерии данных, такие как синхронизация авторитетных бизнес-наборов данных с платформ больших данных, обогащение табличных данных пространственным контекстом и подготовка геопространственных данных для моделей ИИ/ML — все это при сохранении управления и масштабируемости. Эта функциональность сейчас находится в бета-версии и подробно описана в документации ArcGIS Data Pipelines.
Databricks предоставляет различные API и библиотеки, которые можно использовать для подключения и работы с данными, хранящимися в этой системе. Эти инструменты позволяют использовать другие шаблоны интеграции, такие как просмотр контента Databricks через пользовательский слой Maps SDK или через ETL на основе Python.
Команда из Databricks также разработала образец пользовательского потока данных, который расширяет возможности ArcGIS Enterprise в части создания сервисов на основе таблиц и контента Databricks.