Databricks Data Intelligence Platform propose un jeu d’outils unifié permettant de créer, déployer, partager et gérer des solutions de données d’entreprise à l’échelle. Databricks s’intègre à la sécurité et au stockage cloud de votre compte cloud et gère et déploie l’infrastructure cloud en votre nom. Les versions de Databricks Runtime incluent des technologies open source, telles qu’Apache Spark, ainsi qu’un certain nombre d’outils propriétaires qui intègrent et développent ces technologies pour optimiser les performances et la convivialité.
De nombreuses organisations utilisent Databricks et ArcGIS pour des processus indépendants et intégrés, en particulier axés sur l’ingénierie des données, la gestion des données, l’analyse, le Machine Learning et la préparation de modèles d’IA. Un modèle d’implémentation courant combinant des fonctions ArcGIS et Databricks est décrit dans le modèle de Système d’analyse de Big Data (Apache Spark).
ArcGIS GeoAnalytics Engine peut être installé sur Databricks sur une plateforme Azure, AWS ou Google Cloud pour ajouter des fonctions d’analyse et de science des données spatiales à votre espace de travail Databricks. Une fois que vous avez installé ArcGIS GeoAnalytics Engine, vous pouvez exécuter des fonctions SQL spatiales et des outils d’analyse, à l’aide d’un cluster Spark géré par Databricks. ArcGIS GeoAnalytics Engine étendant PySpark, vous pouvez activer vos données spatialement où qu’elles soient et exécuter sans interruption des processus d’analyse spatiale parrallèlement à d’autres technologies de science des données et de Machine Learning dans un notebook Databricks.
Ce modèle d’intégration est particulièrement utile pour intégrer l’analyse spatiale et les outils géographiques aux données existantes stockées dans Databricks car l’évolutivité d’un processus d’analyse basé sur Spark peut traiter efficacement des milliards d’enregistrements. Les résultats de ce traitement peuvent être conservés dans le stockage Databricks ou publiés sur ArcGIS Online ou ArcGIS Enterprise en tant que couches d’entités hébergées pour permettre à d’autres applications SIG d’interagir avec les résultats. Dans la plupart des cas, il est préférable d’utiliser Databricks comme système d’analyse combinant de vastes jeux de données avec des requêtes spatiales pour générer un résultat plus personnalisé. Cette approche évite une duplication inutile des données et s’appuie sur les fonctionnalités d’analyse par lots de Databricks.
ArcGIS API for Python peut être utilisé dans des notebooks Databricks pour accéder au contenu SIG hébergé dans ArcGIS Online ou ArcGIS Enterprise, gérer ce contenu et l’analyser. Les utilisateurs peuvent s’authentifier de manière sécurisée, interroger des couches d’entités, effectuer des analyses spatiales et visualiser des résultats, le tout dans l’environnement familier de Databricks. Cette approche est idéale pour les équipes souhaitant combiner les fonctionnalités Web SIG d’ArcGIS avec les processus collaboratifs de la science des données de Databricks, notamment lors de l’intégration de données spatiales à des modèles de Machine Learning ou de l’orchestration de pipelines ETL.
Pour plus de détails, reportez-vous à l’article de blog ArcGIS API for Python dans les notebooks Databricks.
ArcGIS Data Pipelines propose une interface nécessitant peu de code pour créer des processus ETL spatiaux pouvant se connecter directement à Databricks. En configurant des pipelines pour lire les tables Delta Lake, les équipes informatiques peuvent automatiser le transfert et la conversion des données avec un minimum de scripts.
Cette intégration prend en charge les cas d’utilisation d’ingénierie des données de niveau entreprise, tels que la synchronisation des jeux de données métier officiels de plateformes de Big Data, l’enrichissement des données tabulaires avec un contexte spatial et la préparation des entrées géospatiales pour les modèles d’IA et de ML, tout en maintenant la gouvernance et l’évolutivité. Cette fonctionnalité est actuellement en version bêta et est décrite plus en détail dans la documentation d’ArcGIS Data Pipelines.
Databricks offre une variété d’API et de bibliothèques permettant de se connecter aux données stockées dans ce système et de les utiliser. Ces outils autorisent d’autres modèles d’intégration, tels que la visualisation du contenu Databricks via une couche ArcGIS Maps SDK personnalisée ou un ETL basé sur Python.
Une équipe de Databricks a également développé un exemple de flux de données personnalisé qui étend ArcGIS Enterprise pour permettre la création de services basés sur des tables et du contenu Databricks.