Integraciones entre Databricks y ArcGIS

La Plataforma de Inteligencia de Datos Databricks proporciona un conjunto unificado de herramientas para crear, implementar, compartir y mantener soluciones de datos de nivel empresarial a escala. Databricks se integra con el almacenamiento y la seguridad en la nube de su cuenta en la nube, y gestiona e implementa la infraestructura en la nube en su nombre. Las versiones de Databricks Runtime incluyen tanto tecnologías de código abierto, como Apache Spark, como diversas herramientas propietarias que integran y amplían estas tecnologías para agregar rendimiento optimizado y facilidad de uso.

Muchas organizaciones utilizan Databricks y ArcGIS tanto para flujos de trabajo independientes como integrados, especialmente centrados en ingeniería de datos, gestión de datos, analítica, aprendizaje automático y preparación de modelos de IA. Un patrón de implementación común que combina la funcionalidad de ArcGIS y Databricks se describe en el patrón de Sistema de análisis de big data (Apache Spark).

ArcGIS GeoAnalytics Engine en Databricks

ArcGIS GeoAnalytics Engine puede instalarse en Databricks en Azure, AWS o Google Cloud Platform para agregar capacidades de análisis y ciencia de datos espaciales a su espacio de trabajo de Databricks. Después de instalar GeoAnalytics Engine, podrá ejecutar funciones SQL espaciales y herramientas de análisis utilizando un clúster de Spark gestionado por Databricks. Dado que GeoAnalytics Engine amplía PySpark, puede dotar de capacidades espaciales a sus datos allí donde residan y ejecutar de forma fluida flujos de trabajo de análisis espacial junto con otras tecnologías de ciencia de datos y aprendizaje automático en un notebook de Databricks.

Este patrón de integración resulta especialmente útil para llevar el análisis espacial y las herramientas geográficas a los datos ya almacenados en Databricks, ya que la escalabilidad de un flujo de trabajo de análisis basado en Spark puede procesar de forma eficiente miles de millones de registros. Los resultados de este proceso pueden conservarse de nuevo en el almacenamiento de Databricks o publicarse en ArcGIS Online o ArcGIS Enterprise como capas de entidades alojadas, lo que permite que otras aplicaciones SIG interactúen con los resultados. En la mayoría de los casos, Databricks se aprovecha mejor como sistema analítico, que combina grandes volúmenes de datos con consultas espaciales para generar resultados más ajustados. Esto evita la duplicación innecesaria de datos y aprovecha las capacidades analíticas por lotes de Databricks.

ArcGIS API for Python en notebooks de Databricks

ArcGIS API for Python puede utilizarse en notebooks de Databricks para acceder a contenido de SIG alojado en ArcGIS Online o ArcGIS Enterprise, administrarlo y analizarlo. Los usuarios pueden autenticarse de forma segura, consultar capas de entidades, realizar análisis espaciales y visualizar los resultados, todo ello dentro del conocido entorno de Databricks. Este enfoque es ideal para equipos que buscan combinar las capacidades de web de SIG de ArcGIS con los flujos de trabajo colaborativos de ciencia de datos de Databricks, especialmente al integrar datos espaciales con modelos de aprendizaje automático o al orquestar canalizaciones ETL.

Consulta la entrada del blog Utilizar ArcGIS API for Python en notebooks de Databricks para obtener más detalles.

ArcGIS Data Pipelines

ArcGIS Data Pipelines proporciona una interfaz de bajo código para crear flujos de trabajo ETL espaciales que pueden conectarse directamente a Databricks. Al configurar canalizaciones para leer tablas de Delta Lake, los equipos de TI pueden automatizar el movimiento y la transformación de datos con un mínimo de generación de secuencias de comandos.

Esta integración admite casos de uso de ingeniería de datos de nivel empresarial, como la sincronización de conjuntos de datos empresariales oficiales desde plataformas de big data, el enriquecimiento de datos tabulares con contexto espacial y la preparación de entradas geoespaciales para modelos de IA/ML, todo ello manteniendo la gobernanza y la escalabilidad. Esta funcionalidad se encuentra actualmente en fase beta y se describe con más detalle en la documentación de ArcGIS Data Pipelines.

Opciones adicionales de integración

Databricks proporciona una variedad de API y bibliotecas que pueden utilizarse para conectarse a los datos almacenados en ese sistema y trabajar con ellos. Estas herramientas permiten otros patrones de integración, como la visualización de contenido de Databricks a través de una capa personalizada de Maps SDK o mediante un ETL basado en Python.

Un equipo de Databricks también ha desarrollado un feed de datos personalizados de ejemplo que amplía ArcGIS Enterprise para permitir la creación de servicios basados en tablas y contenido de Databricks.

Top