De nombreuses organisations ont établi des stratégies de consolidation ou de transformation des données au cours des dernières années ou participent activement à une telle activité aujourd’hui. Ces stratégies résultent souvent de priorités croisées, notamment la nécessité de décloisonner les systèmes de données en silos, de permettre une analyse intégrée et rapide entre les jeux de données et de travailler efficacement à grande échelle à mesure que le volume et la complexité des données augmentent.
Deux catégories de technologies sont souvent mises en œuvre d’une manière ou d’une autre pour faciliter cette transformation : la technologie des lacs de données et la technologie des entrepôts de données, parfois utilisées conjointement. On confond souvent les technologies des lacs de données et les entrepôts de données et ces termes peuvent être utilisés de manière interchangeable dans des discussions informelles. Toutefois, leurs objectifs et leurs rôles diffèrent dans un système d’information d’entreprise, aux niveaux de la conception et de la mise en œuvre. Cette page tente de décrire ces technologies d’un point de vue général, indépendant du fournisseur et du produit, et d’expliquer l’approche stratégique d’Esri pour utiliser ces technologies du point de vue du système ArcGIS.
Les lacs de données peuvent varier considérablement en termes de définition et de construction, mais en règle générale, un lac de données est un référentiel centralisé pour des éléments de données individuels (fichiers) de différents types, qui sont stockés dans un système de stockage volumineux et évolutif qui permet l’indexation, le catalogage et l’exécution d’analyses sur ces fichiers. Les données peuvent être structurées ou non structurées, stockées dans différents formats de fichiers et organisées en fonction des flux de données entrants ou d’autres systèmes qui créent ces données. Les données sont ensuite consultées, visualisées et analysées à l’aide d’outils et de fonctionnalités que le fournisseur de lac de données met à disposition par le biais d’un logiciel.
Par exemple, une organisation peut utiliser un lac de données pour stocker des milliers de fichiers CSV qui représentent des suivis horaires individuels de la position, de la vitesse et de la direction du véhicule. Les logiciels de lac de données peuvent prendre en charge l’exécution d’analyses par lots sur ces milliers de fichiers. Ceci leur permet d’extraire des scénarios dans lesquels la vitesse dépasse un certain niveau ou de détecter des tendances dans des localisations dans lesquelles des arrêts fréquents se produisent. Les systèmes de données traditionnels nécessitent de fusionner ces nombreux fichiers en un seul jeu de données qui est accessible par la suite, mais un lac de données permet d’utiliser cette expérience de requête et d’analyse à grande échelle sur le vaste gisement de données. Dans un même lac de données, une même organisation peut stocker un format de données différent qui synthétise les profils des clients et les données liées aux ventes sous un format d’archive basé sur des fichiers. Ainsi, il est possible de corréler l’activité précédente à la base de données transactionnelle en direct des commandes ou des clients actifs.
Les lacs de données sont principalement accessibles à partir d’ArcGIS en tant que source de données permettant de poser des questions analytiques, les résultats étant ensuite visualisés dans une interface spatiale ou cartographique. Étant donné que ces systèmes de stockage contiennent généralement de très grands ensembles de données dans des fichiers de structure similaire, les processus qui portent sur ces données ont souvent pour objet de synthétiser le contenu avant d’exécuter une analyse géospatiale ou de comparer ces jeux de données à d’autres couches spatiales ou non spatiales pour répondre à une question analytique particulière. En général, ces analyses nécessitent un grand nombre de traitements, de sorte que le processus implique généralement plusieurs étapes :
Les lacs de données peuvent également être utilisés comme référentiels de jeux de données d’imagerie ou de fichiers raster accessibles via un fichier de connexion au Cloud à partir d’ArcGIS Pro ou dans le cadre d’un jeu de données mosaïque. Les images du lac de données peuvent être ajoutées à un jeu de données mosaïque et utilisées pour publier un service d’imagerie, en tant que source pour les analyses exécutées à l’aide d’analyses raster, affichées dans ArcGIS Pro et utilisées pour les processus de géotraitement, d’analyse ou de rendu.
Voici quelques exemples de processus de lac de données à l’aide d’ArcGIS :
Les entrepôts de données correspondent à un autre type de système de stockage dont la conception, la définition et la construction peuvent varier. En principe, un entrepôt de données est très similaire à un système de gestion de base de données relationnelle. Il permet le stockage de grands jeux de données structurés et bénéficie de fonctionnalités d’interrogation, d’analyse et de synthèse des jeux de données. Un entrepôt de données diffère généralement d’un système de base de données relationnelle traditionnel par l’échelle des données qu’il peut prendre en charge, le type et la diversité d’analyses qui peuvent être effectuées et la vitesse à laquelle ces processus sont réalisés.
Les entrepôts de données sont également souvent créés dans une configuration plus native du Cloud ou fournis dans un modèle de logiciel en tant que service qui permet aux clients de se connecter à un système géré par l’entreprise à l’origine de la technologie d’entrepôt de données en utilisant la capacité de calcul et le stockage, également hébergés et gérés par ce fournisseur. Un autre composant courant de l’entreposage de données est l’utilisation de modèles de données non relationnels, tels qu’un modèle en étoile, un modèle de données dimensionné ou d’autres concepts similaires.
Dans ArcGIS, l’utilisation des entrepôts de données peut prendre plusieurs formes. Le modèle le plus courant commence par une connexion d’ArcGIS Pro à l’entrepôt de données pour exécuter une requête sur une table, une vue ou un jeu de données. Celle-ci est créée par le biais d’une couche de requête, qui est un type de couche dans ArcGIS Pro pouvant exécuter une requête SQL définie par l’utilisateur sur un système de gestion de base de données relationnelle pris en charge ou un entrepôt de données Cloud. Pour obtenir la liste des bases de données et des entrepôts de données Cloud pris en charge, consultez la documentation d’ArcGIS Pro.
La couche de requête renvoie les résultats de la base de données sous forme de table, qui peut être affichée sur la carte si elle contient une colonne spatiale reconnue par ArcGIS. Elle permet ensuite la visualisation, en tant qu’entrée d’une analyse ou en entrée pour la création d’une carte. Cette couche est une connexion en direct à l’entrepôt, de sorte qu’une nouvelle requête est envoyée à chaque changement d’étendue de la carte. Cette requête renvoie un nouvel ensemble de lignes, reflétant potentiellement des données sources mises à jour, un calcul mis à jour ou simplement une nouvelle étendue spatiale.
Si un accès Web est requis, cette couche de requête peut être publiée dans un service de carte dynamique sur un site ArcGIS GIS Server, qui transférera toute symbologie ou définition de la carte ArcGIS Pro dans la configuration du service. Toutefois, chaque requête de l’utilisateur déclenchera désormais une requête SQL mise à jour d’ArcGIS Server vers l’entrepôt de données.
Les entrepôts de données sont optimisés pour les requêtes volumineuses, analytiques ou synthétiques, ce qui permet aux propriétaires de données de répondre à des questions telles que « Quel est le montant moyen des achats dans différentes catégories de produits sur plusieurs millions de transactions dans nos magasins au cours des dernières 24 heures ? ». Une requête de ce type s’exécute généralement à intervalles réguliers et les résultats permettent d’alimenter et de tenir à jour un tableau de bord, une synthèse des données ou un graphique. Un analyste de données ou un expert en mégadonnées peut également faire appel aux entrepôts de données pour lancer une analyse exploratoire plus itérative visant à définir et à réutiliser une statistique ou un rapport récapitulatif.
Pour cette raison, les couches de requête dans ArcGIS qui se connectent à des entrepôts de données doivent le plus souvent interroger les résultats d’une telle analyse, plutôt qu’un ensemble spécifique de lignes transactionnelles (par exemple, une liste des millions de transactions au cours de la période de 24 heures). Même s’il est possible d’interroger les entrepôts de données ligne par ligne, ils ne sont pas optimisés pour ce type d’interaction transactionnelle et cela peut aboutir à des expériences frustrantes. Ainsi, une tentative visant à interroger un million de lignes à afficher sur une carte se solde par un temps de réponse de cinq minutes pour renvoyer (et afficher) toutes les lignes demandées.
Une fois qu’une couche de requête basée sur un entrepôt de données est publiée dans ArcGIS Enterprise, ArcGIS peut mettre en œuvre une optimisation supplémentaire des performances pour certains fournisseurs. Avec les entrepôts de données dans le Cloud, ArcGIS a introduit une logique supplémentaire pour faciliter le traitement efficace des requêtes et l’utilisation des ressources de calcul, en particulier pour les bases de données AWS Redshift, Google BigQuery et Snowflake, qui peuvent imposer un coût basé sur la consommation totale des ressources de calcul. Lors de la publication, ArcGIS peut (si vous le souhaitez) créer automatiquement une vue matérialisée dans l’entrepôt de données source, ce qui permet d’améliorer les performances et de réduire le coût global des requêtes. Le mode « instantané » est une autre option disponible : une copie des données est transférée dans ArcGIS Data Store lors de la publication et est régulièrement mise à jour selon une planification définie par l’éditeur. Le système SIG dispose ainsi toujours d’un ensemble de résultats récents, mais les requêtes relativement lentes ne sont pas envoyées en permanence à l’entrepôt de données source.
D’autres méthodes d’intégration avec les entrepôts de données existent également, mais sont moins courantes, notamment les suivantes :