Système d’analyse de Big Data
Un système d’analyse de Big Data permet d’analyser d’importants volumes de données géographiques et tabulaires. Les fonctionnalités d’analyse portent principalement sur les données vectorielles, mais certaines fonctionnalités ont trait aux types d’imagerie et aux données raster. Ce modèle de système exploite le moteur Apache Spark pour effectuer des analyses de données à grande échelle par lots sur une infrastructure de calcul distribuée. Les résultats d’analyse spatiale et temporelle de Big Data sont généralement réécrits dans des data stores pour une analyse plus approfondie en aval, ou dans d’autres systèmes ArcGIS pour une visualisation et une analyse géographique plus approfondies. Les capacités fonctionnelles dépendent fortement du modèle de déploiement sélectionné.
Un modèle de système d’analyse de Big Data représente un atout pour une organisation de différentes manières :
- L’apport d’une dimension innovante à l’analyse Big Data en intégrant les sciences géographiques, ce qui améliore la prise de décision.
- L’ajout d’analyses géographiques aux processus d’analyse de Big Data basés sur Apache Spark existants.
- L’exposition des opérations spatiales aux experts en mégadonnées à l’aide d’outils et d’expériences familiers.
- L’extraction rapide d’informations géographiques à partir de masses de données dotées d’attributs de localisation (latitude et longitude) telles que le GPS, l’AIS, les mouvements humains ou d’autres jeux de données de capteurs en mouvement.
- Les résultats du stockage et de l’indexation des analyses dans des systèmes tels que le stockage d’objets, les bases de données relationnelles et les entrepôts de données, à partir desquels ils peuvent être partagés et utilisés dans des applications plus intuitives telles que des cartes Web, des story maps et des applications personnalisées.
Si vous débutez avec les modèles de système ArcGIS, consultez d’abord l’introduction.
Personas d’utilisateurs et processus
Les personas d’utilisateurs qui interagissent le plus souvent avec les systèmes d’analyse de Big Data, ainsi que les types de processus et de tâches qu’ils effectuent généralement à l’aide de ce système, sont les suivants :
- Analyste, spécialiste et ingénieur de données. Les analystes, spécialistes et ingénieurs de données sont les principaux utilisateurs qui interagissent avec un système d’analyse de Big Data. En général, ces utilisateurs maîtrisent Apache Spark, Python et l’utilisation du Big Data. Ces compétences spécialisées sont nécessaires pour maximiser la valeur des systèmes d’analyse de Big Data spatialisés présentés ici. Les analystes, spécialistes et ingénieurs de données utilisent et préparent le Big Data. Chargés de la conception, du développement et de l’exécution des procédures d’analyse, ils visualisent et étudient également les résultats d’analyse. Le travail de ces utilisateurs est généralement itératif et implique souvent la description et le partage des résultats d’analyse avec d’autres parties prenantes.
- Analyste SIG. Les analystes SIG ne sont généralement pas les principaux utilisateurs des systèmes d’analyse de Big Data, car les compétences requises ne relèvent généralement pas du rôle d’un analyste SIG. Cependant, les analystes SIG travaillent généralement aux côtés d’analystes, de spécialistes et d’ingénieurs de données pour s’assurer de la bonne compréhension des concepts spatiaux importants et de l’application des bonnes pratiques en matière d’utilisation des données géospatiales, des méthodes et outils d’analyse.
Pour tirer le meilleur parti d’un système d’analyse de Big Data, envisagez de faire appel aux utilisateurs mentionnés ci-dessus ou à des personnes possédant les compétences de ces personas.
Applications
ArcGIS fournit de nombreuses applications et expériences, mais les systèmes d’analyse Big Data n’exposent généralement que des interfaces de niveau inférieur que les analystes, spécialistes et ingénieurs de données connaissent. Ces interfaces varient en fonction du modèle de déploiement sélectionné. Le modèle de déploiement Apache Spark s’appuie principalement sur des notebooks Python, généralement exécutés dans l’environnement d’analyse de données, sur lesquels le code Python PySpark est développé et regroupé en tant que tâche soumise au cluster Spark. Le modèle de déploiement SaaS (Software as a Service, logiciel en tant que service) fournit une interface de modélisation visuelle qui prend en charge la configuration des processus en connectant logiquement les sources de données aux outils d’analyse.
Des applications supplémentaires telles que des rapports, des tableaux de bord et des applications cartographiques interactives sont souvent utilisées pour visualiser et partager les résultats d’analyse. Pour cela, on recourt généralement à un système de cartographie, d’analyse et de partage en libre-service ou d’un autre modèle de système ArcGIS. En savoir plus sur l’utilisation, l’intégration et la composition de modèles de système.
Fonctionnalités
Les principales fonctionnalités fournies par un système d’analyse de Big Data sont présentées ci-dessous. Les fonctionnalités utilisées dans les processus d’analyse de Big Data, généralement fournies par d’autres systèmes, tels que les fonds de carte et autres services de localisation fournis par un système de services de localisation, ne sont pas répertoriées ci-dessous. En savoir plus sur les modèles de système associés.
Certaines fonctionnalités décrites ci-dessous ne sont pas disponibles dans les modèles de déploiement. Pour plus d’informations sur la façon dont ces fonctionnalités s’appliquent (ou ne s’appliquent pas) dans divers contextes de déploiement, consultez la section Sélection d’un modèle de déploiement et les pages consacrées aux modèles de déploiement.
- L’ingestion de données permet au système d’analyse de Big Data d’accéder aux données lors de l’exécution de tâches d’analyse. Dans la plupart des cas, les données sont analysées directement à l’emplacement source. Cependant, dans certains scénarios, le système d’analyse de Big Data sur SaaS peut nécessiter l’ingestion de données dans le système.
- Les jointures et relations spatiales permettent de combiner les lignes de deux jeux de données en fonction d’une relation spatiale. Diverses relations spatiales, notamment l’intersection, l’effacement, l’union, l’identité et la différence symétrique, peuvent être appliquées, bien que les fonctionnalités varient en fonction du modèle de déploiement sélectionné.
- Les intervalles temporels et relations temporelles permettent d’analyser les données dans le temps. Les intervalles temporels divisent les données en entrée en intervalles, lesquels font l’objet d’une analyse indépendante et sont disponibles avec le modèle de déploiement Apache Spark. Les relations temporelles permettent de joindre temporellement des données à l’aide des outils de jointure et sont prises en charge par les deux modèles de déploiement.
- L’analyse de modèles identifie les modèles spatiaux et temporels dans les données. Elle fait appel à des outils tels que la recherche de points chauds, la recherche des localisations similaires et diverses méthodes d’analyse basées sur la régression pour modéliser les tendances et générer des prévisions.
- L’analyse de proximité examine la proximité de données spatiales par rapport à d’autres données spatiales. Elle inclut des outils tels que Rechercher des agrégats de points et Créer des zones tampon.
- L’analyse de synthèse agrège ou synthétise les données dans des structures de données d’ordre supérieur. Elle fait appel à des outils tels que Agréger les points, Calculer la densité et Synthétiser - À l’intérieur.
- L’analyse de traces fonctionne avec des points temporels corrélés aux objets en mouvement. Elle fait appel à des outils tels que Reconstruire les traces et Capturer sur le réseau, ainsi qu’à des outils permettant d’analyser les trajets et les localisations d’arrêt.
- Le géocodage est le processus de conversion d’un texte en une adresse et une localisation. Les outils de géocodage dans les systèmes d’analyse de Big Data sont conçus pour utiliser d’importants volumes de données d’adresse. En savoir plus sur le géocodage.
- L’analyse de réseau permet de résoudre des problèmes courants liés aux réseaux qui concernent souvent (mais pas systématiquement) les réseaux de transport. Les fonctionnalités disponibles pour l’analyse de réseau sur un système d’analyse de Big Data diffèrent quelque peu de celles disponibles dans les systèmes d’analyse traditionnels. De plus, les fonctionnalités d’analyse du réseau varient considérablement d’un modèle de déploiement à l’autre. Explorez les modèles de déploiement plus en détail.
- L’analyse raster prend en charge les fonctions d’analyse et les processeurs utilisant les données raster. Les fonctionnalités disponibles pour l’analyse raster sur un système d’analyse de Big Data sont relativement limitées par rapport aux systèmes d’analyse traditionnels. De plus, les fonctionnalités d’analyse raster varient considérablement d’un modèle de déploiement à l’autre. Explorez les modèles de déploiement plus en détail. Pour en savoir plus sur une analyse raster et d’imagerie plus avancée, consultez également le modèle de système de gestion et d’analyse des données d’imagerie.
- La gestion des données prend en charge l’exploitation des géométries et d’autres aspects du Big Data. Elle fait appel à des outils tels que Calculer un champ. Le modèle de déploiement Apache Spark inclut également de nombreuses fonctions SQL spatiales qui étendent l’API SQL Spark.
- Il est possible d’utiliser des outils d’analyse personnalisés avec un système d’analyse de Big Data sur Apache Spark, en particulier avec l’option Big Data Toolkit (BDT). Pour plus d’informations, consultez le modèle de déploiement Apache Spark.
- La cartographie et la visualisation des résultats d’analyse représentent un moyen efficace pour fournir un contexte et aider à découvrir des modèles, des tendances et des relations. La visualisation et la cartographie sont semblables à la création de diagrammes et au traçage à l’aide de données non spatiales. Elles permettent de vérifier l’analyse, d’effectuer des itérations et de créer résultats attrayants qu’il est possible de partager. Ces interfaces de cartographie et de visualisation des résultats d’analyse varient en fonction du modèle de déploiement sélectionné. Pour plus d’informations, reportez-vous à la section Applications.
- La publication des données et l’hébergement des résultats d’analyse sont pris en charge par ArcGIS, mais sont considérés comme hors du champ d’application du modèle de système d’analyse Big Data. Pour plus d’informations, consultez la section Modèles de système associés.
Considérations relatives à l’architecture
Cette section décrit plus en détail certains aspects de l’architecture ArcGIS et la façon dont les systèmes d’analyse de Big Data s’y conforment.
Pour plus d’informations sur l’architecture, consultez la section Sélection d’un modèle de déploiement.
Données (persistance)

Les systèmes d’analyse de Big Data fonctionnent avec une multitude de data stores, y compris des file et object stores (souvent sous forme de stores de lacs de données distribués), des bases de données relationnelles, des entrepôts de données Cloud, ainsi que des magasins de documents NoSQL. Il est également possible d’employer les modèles de données et les règles ArcGIS lors de l’utilisation de certains data stores. Cependant, ce type de système n’utilise généralement pas de modèles de données ArcGIS spécifiques à un secteur. Dans la plupart des cas, les systèmes d’analyse de Big Data utilisent les données en place en rapprochant les analyses des données. Toutefois, le modèle de déploiement SaaS peut nécessiter l’ingestion de données dans le système SaaS hébergé par Esri. Familiarisez-vous avec l’utilisation des données par chaque modèle de déploiement et découvrez les data stores et sources de données qu’il prend en charge.
Services (logique)

Les systèmes d’analyse Big Data utilisent un ensemble restreint mais approfondi de services ArcGIS, en particulier l’analyse Big Data, ainsi que l’IA et le Deep Learning. Le système d’analyse de Big Data est le plus souvent utilisé pour prendre en charge l’analyse de l’IA et du Deep Learning pour les données d’ingénierie, ainsi que pour l’entraînement et le test des modèles de Deep Learning. En savoir plus sur l’analyse spatiale et la science des données.
Le système d’analyse de Big Data peut également être utilisé pour l’interrogation, l’accès, le référencement spatial, l’enrichissement et la gestion des Big Data. L’utilisation de ce système pour les processus d’extraction, de transformation et de chargement (ETL) est possible et relativement courante. Le système d’analyse de Big Data utilise une cartographie interactive avec des fonds de carte et des couches de référence pour visualiser les résultats de l’analyse. Le catalogage et le partage des résultats d’analyse ainsi que d’autres contenus par le biais de services de portail sont classiques, bien que cela soit généralement réalisé par le biais d’un autre système basé sur ArcGIS. Pour plus d’informations, consultez la section Modèles de système associés.
Applications (présentation)

Les systèmes d’analyse de Big Data n’exposent généralement que des interfaces de niveau inférieur que les analystes, spécialistes et ingénieurs de données connaissent. Ces interfaces utilisateur, ou applications, varient en fonction du modèle de déploiement sélectionné. Pour plus d’informations, reportez-vous à la section Applications.
Support
Les systèmes d’analyse de Big Data s’appuient sur l’informatique distribuée, en mettant l’accent sur l’élasticité et l’évolutivité. Pour cette raison, la majorité des systèmes d’analyse de Big Data ont tendance à être basés sur le Cloud. Parmi les autres facteurs de support, citons l’efficacité de l’infrastructure et la gestion des coûts, l’observabilité des processus analytiques de longue durée, ainsi que l’intégration avec des sources de données et d’autres systèmes d’analyse ou de participation. Pour plus d’informations sur l’intégration des systèmes, consultez la section Pilier de l’intégration du Well-Architected Framework. Ces systèmes ne sont généralement pas soumis à des contrats de niveau de service en termes de performance ou de fiabilité.
Pour plus d’informations sur le support général et l’architecture, consultez les pratiques en matière d’architecture ainsi que les piliers de l’architecture de l’ArcGIS Well-Architected Framework.
Modèles de système associés
Les systèmes d’analyse de Big Data peuvent être intégrés ou combinés à d’autres modèles de système ArcGIS. Voici quelques exemples courants :
Pour plus d’informations sur l’intégration ou la composition de modèles de système, consultez la section Utilisation des modèles de système.
Exemples
Voici des exemples de systèmes propres à certains secteurs d’activité pour ce modèle de système :
- Secteur commercial. Les organisations des secteurs de l’immobilier commercial, des services financiers et de la vente au détail peuvent utiliser un modèle de système d’analyse de Big Data pour accélérer les tâches d’analyse démographique à grande échelle. Il peut s’agir d’enrichir les données avec toutes les variables démographiques d’Esri, plutôt que seulement quelques-unes. Des tâches comme celle-ci peuvent être exécutées plus rapidement et plus fréquemment grâce à ce modèle, ce qui permet aux organisations d’obtenir des informations démographiques complètes et à jour pour éclairer leurs décisions.
- Santé et services à la personne. Le risque de maladies et d’autres préoccupations ayant trait à la santé peut varier considérablement d’un endroit à l’autre. Les chercheurs des établissements de soins et des organismes chargés de la santé publique peuvent utiliser un modèle de système d’analyse de données de Big Data pour étudier efficacement les facteurs corrélés qui ont des répercussions sur la santé et le risque de transmission de maladies dans leurs communautés. Les organismes de santé peuvent également utiliser un système d’analyse de Big Data pour évaluer l’adéquation du réseau.
- Assurances. Les assureurs utilisent les données spatiales pour les aider à gérer les risques et à fixer le prix de leurs polices d’assurance. Ils peuvent utiliser un modèle de système d’analyse de Big Data pour évaluer les relations spatiales entre les dangers et les politiques, ce qui les aide à équilibrer l’exposition aux risques. Ils s’intéressent également à la géolocalisation des données de télémétrie des véhicules qu’ils collectent à l’aide d’appareils OBD2, afin d’obtenir des informations sur le comportement des conducteurs. Par exemple, ils peuvent identifier les conducteurs prudents qui choisissent les itinéraires les plus sûrs et respectent les limites de vitesse affichées, et récompenser ensuite ces conducteurs en leur offrant des primes d’assurance moins élevées.
- Administration nationale. Les organismes nationaux collectent souvent des quantités extrêmement importantes de données sur l’activité sociale, économique et environnementale. À l’aide d’un modèle de système d’analyse de Big Data, ils peuvent analyser ces données pour enquêter rapidement et comprendre les modèles et les activités d’intérêt critiques dans le temps. Par exemple, ils peuvent identifier les lieux d’arrêt (lieux où les gens passent du temps), les agrégats spatiaux (lieux où les gens se retrouvent) et les anomalies (comme les changements et les activités inattendus).
- Ressources naturelles. Avec un modèle de système d’analyse de Big Data, les entreprises du secteur pétrolier et gazier peuvent appliquer les données qu’elles créent pour leurs jumeaux numériques afin de créer des scénarios de simulation, d’identifier les anomalies (comme les actifs endommagés) et de modéliser les relations à l’aide de leur infrastructure Big Data Spark. Ces entreprises peuvent également utiliser des traces GPS historiques pour détecter les routes d’accès à travers une concession (qui ne font pas partie d’un réseau routier public) et les relier aux routes publiques. Les utilisateurs peuvent appliquer ces données routières pour séquencer de manière optimale les sites d’inspection, réduisant ainsi le temps que leurs employés doivent passer sur la route pendant les inspections (également appelé temps au volant).
- État et collectivités locales Les agences de l’État et les collectivités locales s’appuient sur des données pour fournir des services efficaces aux citoyens. Grâce à un modèle de système d’analyse de Big Data, ils peuvent comprendre les données historiques liées à leurs services, telles que les historiques d’appels au 311, les données de télémétrie des véhicules, etc. Cela leur permet de répondre à des questions sur leur niveau de réponse aux plaintes des citoyens et d’évaluer les performances des prestataires de services.
- Télécommunications. Grâce à un modèle de système d’analyse de Big Data, les opérateurs de télécommunications peuvent analyser les relevés des appels pour identifier les problèmes et les anomalies dans le réseau, tels qu’un point chaud statistiquement significatif présentant une forte proportion de coupures d’appel. Ils peuvent également fusionner des données démographiques avec des données provenant de points d’accès Wi-Fi pour extraire des inférences sur les caractéristiques et le comportement des appelants. Ils peuvent également s’intéresser à la vente de ces données comportementales à des clients externes, comme les réseaux sociaux.
- Transport. Les véhicules connectés (comme les voitures et les trains) collectent des données de télémétrie pour aider à améliorer le fonctionnement des véhicules concernés. Grâce à un modèle de système d’analyse de Big Data, les constructeurs automobiles (et les développeurs de systèmes embarqués) peuvent réaliser des analyses sur la télémétrie historique afin d’obtenir des informations sur les conditions de fonctionnement réelles. Ils peuvent ensuite utiliser ces connaissances pour améliorer les estimations de temps de trajet, les données routières et de navigation, ainsi que d’autres services liés aux véhicules et aux flottes. Certaines organisations peuvent également s’intéresser à la commercialisation de leurs données de télémétrie et de leurs informations analytiques à des tiers.
- Exploitation de réseaux. Les exploitants de réseaux peuvent utiliser un modèle de système d’analyse de Big Data pour examiner l’historique de consommation et les informations sur les pannes, puis corréler ces données avec les conditions météorologiques et d’autres conditions locales afin de comprendre les facteurs qui induisent une consommation plus élevée et augmentent le risque de panne. Cela les aide à améliorer les prévisions de consommation, à hiérarchiser la maintenance préventive et à prévoir les besoins du service client.