Sistema de análisis de big data

Un sistema de análisis de big data se utiliza para analizar grandes volúmenes de datos geográficos y tabulares. Las funcionalidades analíticas se centran principalmente en los datos vectoriales, pero existen algunas funcionalidades para los tipos de datos ráster y de imágenes. Este patrón de sistema aprovecha Apache Spark como motor para realizar análisis de datos a gran escala por lotes en infraestructuras de cómputo distribuidas. Los resultados analíticos espaciales y temporales de big data suelen escribirse en data store para su posterior análisis, o en otros sistemas ArcGIS para su visualización y posterior análisis geográfico. Las funcionalidades dependen en gran medida del patrón de implementación seleccionado.

Un patrón de sistema de análisis de big data aporta valor a una organización a través de diversas características, como:

  • Aportar una dimensión innovadora al análisis de big data mediante la incorporación de la ciencia geográfica, mejorando la toma de decisiones.
  • Agregar análisis basados en la geografía a los flujos de trabajo existentes de análisis de big data basados en Apache Spark.
  • Exponer las operaciones espaciales a los científicos de datos a través de herramientas y experiencias familiares.
  • Extraer rápidamente perspectivas geográficas a partir de big data atribuidos a la ubicación (latitud y longitud) como GPS, AIS, movimiento de poblaciones u otros datasets de sensores en movimiento.
  • Almacenamiento e indexación de resultados analíticos en sistemas como el almacén de objetos, las bases de datos relacionales y los almacenes de datos, desde los que se pueden compartir y consumir en aplicaciones más intuitivas como mapas web, story maps y aplicaciones personalizadas.

Si no está familiarizado con los patrones del sistema de ArcGIS, revise primero la introducción.

Roles de usuario y flujos de trabajo

Entre los roles de usuario que suelen interactuar con los sistemas de análisis de big data, junto con los tipos de flujos de trabajo y tareas que suelen realizar utilizando este sistema, están:

  • Analista, científico e ingeniero de datos. Los analistas, científicos e ingenieros de datos son los principales roles de usuario que interactúan con un sistema de análisis de big data. Estos roles de usuario suelen estar familiarizados con Apache Spark, Python y el trabajo con big data, y estos conocimientos especializados son necesarios para maximizar el valor de los sistemas de análisis de big data habilitados espacialmente que aquí se presentan. Los analistas, científicos e ingenieros de datos trabajan con big data y los preparan, diseñan, desarrollan y llevan a cabo rutinas de análisis, así como visualizan y estudian los resultados de los análisis. El trabajo de este rol de usuario suele ser iterativo y con frecuencia también implica describir y compartir los resultados del análisis con otras partes interesadas.
  • Analista SIG. Los analistas SIG no suelen ser los usuarios principales de los sistemas de análisis de big data, ya que normalmente las habilidades necesarias para ello están fuera del ámbito del rol de analista SIG. Sin embargo, los analistas SIG suelen trabajar junto a analistas de datos, científicos e ingenieros para asegurarse de que se comprenden los conceptos espaciales importantes y de que se aplican las prácticas recomendadas para trabajar con datos geoespaciales y métodos y herramientas de análisis.

Para obtener el máximo valor de un sistema de análisis de big data, considere la posibilidad de involucrar a los dos roles anteriores o a personas que posean habilidades de ambos roles.

Aplicaciones

Aunque son muchas las aplicaciones y experiencias que ofrece ArcGIS, normalmente los sistemas de análisis de big data exponen solo interfaces de bajo nivel familiares para analistas de datos, científicos de datos e ingenieros de datos. Estas interfaces varían en función del patrón de implementación seleccionado. El patrón de implementación de Apache Spark se basa principalmente en notebooks de Python, que suelen ejecutarse dentro del entorno de análisis de datos, en los que se desarrolla el código PySpark de Python y se empaqueta como un trabajo que se envía al clúster de Spark. El patrón de implementación del software como servicio (SaaS) proporciona una interfaz de modelado visual que admite la configuración de flujos de trabajo mediante la conexión lógica de fuentes de datos con herramientas analíticas.

A menudo se emplean aplicaciones adicionales como informes, cuadros de mando y aplicaciones de representación cartográfica interactiva para visualizar y compartir los resultados de los análisis. Normalmente, se consigue normalmente con un sistema de autoservicio de representación cartográfica, análisis y uso compartido u otro patrón de sistema de ArcGIS. Más información sobre el uso, la integración y la composición de patrones de sistema.

Capacidades

A continuación, se presentan las principales funcionalidades que ofrece un sistema de análisis de big data. No se enumeran a continuación las funcionalidades utilizadas en los flujos de trabajo de análisis de big data, pero que suelen proporcionar otros sistemas, como los mapas base y otros servicios de ubicación proporcionados por un sistema de servicios de ubicación. Más información sobre los patrones de sistema relacionados.

Nota:

No todas las funcionalidades que se describen a continuación están disponibles en todos los patrones de implementación. Consulte Selección de un patrón de implementación y las páginas de patrones de implementación para obtener más información acerca de cómo se aplican (o no se aplican) estas funcionalidades en diversos contextos de implementación.

  • El procesamiento de datos permite el acceso a los datos por parte del sistema de análisis de big data cuando realiza tareas de análisis. En la mayoría de los casos, los datos se analizan directamente en su ubicación de origen; sin embargo, en determinados escenarios, el sistema de análisis de big data en SaaS puede requerir ingerir los datos en el sistema.
  • Las uniones y relaciones espaciales permiten combinar filas de dos datasets basándose en una relación espacial. Se pueden aplicar diversas relaciones espaciales, como intersección, borrado, unión, identidad y diferencia simétrica, aunque las funcionalidades varían en función del patrón de implementación seleccionado.
  • Los periodos de tiempo y las relaciones temporales hacen posible el análisis utilizando el tiempo. Los periodos de tiempo dividen los datos de entrada en pasos sobre los que se realiza el análisis de forma independiente y están disponibles con el patrón de implementación de Apache Spark. Las relaciones temporales se utilizan para unir datos temporalmente mediante las herramientas de unión y se admiten en ambos patrones de implementación.
  • El análisis de patrones identifica patrones espaciales y temporales en los datos. Incluye herramientas como encontrar puntos calientes, encontrar ubicaciones similares y diversos métodos de análisis basados en la regresión para modelar tendencias y generar predicciones.
  • El análisis de proximidad examina la proximidad de los datos espaciales con respecto a otros datos espaciales. Incluye herramientas como buscar clústeres de puntos y crear zonas de influencia.
  • El análisis de resumen agrega o resume datos en estructuras de datos de orden superior. Incluye herramientas como agregar puntos, calcular densidad y resumir dentro de.
  • El análisis de recorridos funciona con puntos habilitados en el tiempo correlacionados con objetos en movimiento. Incluye herramientas como la reconstrucción de recorridos, la alineación con la red y herramientas para analizar los trayectos y las ubicaciones de permanencia.
  • La geocodificación es el proceso de convertir un texto en una dirección y una ubicación. Las herramientas de geocodificación de los sistemas de análisis de big data están diseñadas para trabajar con grandes volúmenes de datos de direcciones. Más información sobre la geocodificación.
  • El análisis de redes ayuda a resolver problemas comunes de las redes, con frecuencia (pero no siempre) en el caso de las redes de calles. Las funcionalidades disponibles para el análisis de redes en un sistema de análisis de big data difieren en cierto modo de las disponibles en los sistemas de análisis tradicionales. Además, las funcionalidades de análisis de la red varían significativamente entre patrones de implementación. Explore los patrones de implementación con más detalle.
  • El análisis ráster admite funciones analíticas y procesadores que trabajan con datos ráster. Las funcionalidades disponibles para el análisis de ráster en un sistema de análisis de big data son relativamente limitadas en comparación con los sistemas de análisis tradicionales. Además, las funcionalidades de análisis de ráster varían significativamente entre patrones de implementación. Explore los patrones de implementación con más detalle. Además, para un análisis más avanzado de rásters e imágenes, consulte el patrón de sistema de análisis y administración de datos de imágenes.
  • La administración de datos admite operar sobre geometrías y otros campos en big data. Incluye herramientas como los campos de cálculo. El patrón de implementación de Apache Spark también abarca muchas funciones SQL espaciales que amplían la API SQL de Spark.
  • Las herramientas de análisis personalizadas son posibles con un sistema de análisis de big data en Apache Spark, concretamente mediante el uso de la opción Big Data Toolkit (BDT). Consulte el patrón de implementación de Apache Spark para más información.
  • La representación cartográfica y la visualización de los resultados de los análisis es un paso poderoso para proporcionar contexto y ayudar a descubrir patrones, tendencias y relaciones. La visualización y la representación cartográfica son análogas a la elaboración de gráficos y trazados con datos no espaciales. Es una forma de verificar su análisis, iterar y crear resultados compartibles y atractivos. Estas interfaces para la representación cartográfica y la visualización y análisis de los resultados varían en función del patrón de implementación seleccionado; consulte las aplicaciones para obtener más información.
  • La publicación de datos y el alojamiento de los resultados de los análisis están admitidos por ArcGIS, pero se consideran fuera del ámbito del patrón de sistema de análisis de big data. Consulte los patrones de sistema relacionados para obtener más información.

Consideraciones de arquitectura

En esta sección, se describe con más detalle cómo los sistemas de análisis de big data se alinean con aspectos específicos de la arquitectura de ArcGIS y se centran en ellos.

Para obtener información más detallada sobre la arquitectura, consulte selección de un patrón de implementación.

Datos (persistencia)

Consideraciones sobre la arquitectura de datos de los sistemas de análisis de big data

Los sistemas de análisis de big data trabajan con una gran variedad de data stores, incluidos los de archivos y objetos (con frecuencia como almacenes en lagos de datos distribuidos), bases de datos relacionales, almacenes de datos en la nube, así como almacenes de documentos NoSQL. Los modelos de datos y las reglas de ArcGIS también pueden emplearse cuando se trabaja con determinados data store; sin embargo, este tipo de sistema no suele hacer uso de modelos de datos ArcGIS específicos de un sector. En la mayoría de los casos, los sistemas de análisis de big data trabajan con los datos in situ, acercando el análisis a los datos; sin embargo, el patrón de implementación SaaS puede requerir que los datos se ingesten en el sistema SaaS alojado en Esri. Más información sobre cómo funciona cada patrón de implementación con los datos y qué almacenes y fuentes de datos admite.

Servicios (lógica)

Consideraciones sobre la arquitectura de servicios de los sistemas de análisis de big data

Los sistemas de análisis de big data hacen uso de un estrecho pero profundo conjunto de servicios de ArcGIS, concretamente el análisis de big data, así como la IA y el aprendizaje profundo. El sistema de análisis de big data se utiliza con mayor frecuencia para admitir análisis de IA y aprendizaje profundo para datos de ingeniería, así como para entrenar y probar modelos de aprendizaje profundo. Más información sobre el análisis espacial y la ciencia de datos.

El sistema de análisis de big data también puede utilizarse para consultar, acceder, referenciar espacialmente, enriquecer y administrar big data. Utilizar este sistema para flujos de trabajo de extracción, transformación y carga (ETL) es posible y relativamente habitual. El sistema de análisis de big data hace uso de la representación cartográfica interactiva con mapas base y capas de referencia para visualizar los resultados del análisis. Es típico catalogar y compartir los resultados de los análisis y otros contenidos a través de los servicios del portal, aunque se suele llevar a cabo mediante otro sistema basado en ArcGIS. Consulte los patrones de sistema relacionados para obtener más información.

Aplicaciones (presentación)

Consideraciones sobre la arquitectura de aplicaciones de los sistemas de análisis de big data

Los sistemas de análisis de big data suelen exponer solo interfaces de usuario de bajo nivel familiares para analistas de datos, científicos de datos e ingenieros de datos. Estas interfaces de usuario, o aplicaciones, varían en función del patrón de implementación seleccionado. Consulte las aplicaciones para obtener más información.

Soporte

Los sistemas de análisis de big data se basan en el cómputo distribuido, con gran énfasis en la elasticidad y la escalabilidad. Por esta razón, la mayoría de los sistemas de análisis de big data están basados en la nube. Entre las consideraciones adicionales de soporte suelen figurar la eficiencia de la infraestructura y la administración de los costes, la observabilidad de los procesos analíticos de larga duración, así como la integración con las fuentes de datos y otros sistemas analíticos o de participación. Para más información acerca de la integración de sistemas, consulte el pilar de integración del marco Well-Architected Framework. Estos sistemas no suelen estar sujetos a SLA de rendimiento o fiabilidad.

Para obtener asistencia general y consideraciones sobre la arquitectura, consulte las prácticas de arquitectura, así como los pilares de la arquitectura del marco ArcGIS Well-Architected Framework.

Patrones de sistema relacionados

Los sistemas de análisis de big data pueden integrarse o combinarse con otros patrones de sistema de ArcGIS. Estos son algunos ejemplos habituales:

Para obtener más información acerca de la integración o composición de patrones de sistema, consulte uso de patrones de sistema.

Ejemplos

Entre los ejemplos de sistemas sectoriales para este patrón de sistema se incluyen:

  • Comercial. Las organizaciones de los sectores inmobiliario comercial, financiero y minorista pueden utilizar un patrón de sistema de análisis de big data para acelerar las tareas de análisis demográfico a gran escala. Esta labor podría suponer el enriquecimiento de los datos con todas las variables demográficas de Esri, en lugar de solo unas pocas. Tareas como esta pueden ejecutarse con mayor rapidez y frecuencia gracias a este patrón, de modo que las organizaciones pueden obtener perspectivas demográficas completas y actualizadas para fundamentar sus decisiones.
  • Salud y servicios humanos. El riesgo de enfermedades y otros problemas de salud puede variar considerablemente según la ubicación. Los investigadores de organizaciones sanitarias y de salud pública pueden aprovechar un patrón de sistema de análisis de big data para investigar de forma eficiente los factores correlacionados que influyen en el riesgo de salud y de transmisión de enfermedades en sus comunidades. Las organizaciones sanitarias también pueden utilizar un sistema de análisis de big data para evaluar la adecuación de la red.
  • Seguros. Las aseguradoras utilizan datos espaciales para ayudar a administrar el riesgo y fijar los precios adecuados para sus pólizas de seguro. Pueden utilizar un patrón de sistema de análisis de big data para evaluar las relaciones espaciales entre los peligros y las políticas, ayudándoles a equilibrar la exposición al riesgo. También están interesados en geohabilitar los datos telemétricos de los vehículos que recogen mediante dispositivos OBD2, para poder obtener perspectivas sobre el comportamiento de los conductores. Por ejemplo, pueden identificar a los conductores seguros que seleccionan las rutas más seguras posibles y respetan los límites de velocidad publicados, y luego recompensar a estos conductores con primas de seguro más bajas.
  • Gobierno nacional. Los organismos nacionales recopilan con frecuencia grandes cantidades de datos sobre la actividad social, económica y medioambiental. Utilizando un patrón de sistema de análisis de big data, pueden analizar estos datos para investigar y comprender rápidamente los patrones y actividades de interés críticos para el tiempo. Por ejemplo, pueden identificar ubicaciones locales (lugares donde la gente pasa el tiempo), clústeres espaciales (lugares donde la gente se reúne) y anomalías (como cambios inesperados y actividad).
  • Recursos naturales. Con un patrón de sistema de análisis de big data, las empresas de petróleo y gas pueden aplicar los datos que crean para sus gemelos digitales para crear escenarios hipotéticos, identificar anomalías (como activos averiados) y modelar relaciones utilizando su infraestructura de big data de Spark. Estas empresas también pueden utilizar recorridos GPS históricos para detectar vías arrendadas (que no forman parte de una red pública de carreteras), y luego conectarlas a las carreteras públicas. Los usuarios pueden aplicar esos datos de carretera para secuenciar de forma óptima los sitios de inspección, reduciendo la cantidad de tiempo que sus empleados tienen que pasar en la carretera durante las inspecciones (también conocido como tiempo de conducción por trabajo).
  • Gobierno local y estatal. Los organismos estatales y locales dependen de los datos para poder prestar servicios eficaces a los ciudadanos. Con un patrón de sistema de análisis de big data, pueden comprender datos históricos relacionados con sus servicios, como historiales de llamadas al 311, datos de telemetría de vehículos, etc. Les permite responder a preguntas sobre su nivel de reactividad ante las quejas de los ciudadanos y evaluar el rendimiento de los proveedores de servicios.
  • Telecomunicaciones. Con un patrón de sistema de análisis de big data, las compañías de telecomunicaciones pueden analizar los registros de llamadas para identificar problemas y anomalías en la red, como un punto caliente estadísticamente significativo con una gran acumulación de llamadas perdidas. También pueden fusionar datos demográficos con datos de puntos de calientes de acceso de wifi para extraer inferencias sobre las características y el comportamiento de los usuarios de la telefonía. También pueden estar interesadas en vender estos datos de comportamiento a clientes externos, como empresas de redes sociales.
  • Transporte. Los vehículos conectados (como los automóviles y los trenes) recogen datos telemétricos para ayudar a mejorar el funcionamiento del vehículo. Con un patrón de sistema de análisis de big data, los fabricantes de vehículos (y los desarrolladores de sistemas de a bordo) pueden ejecutar análisis contra la telemetría histórica para obtener una perspectiva de las condiciones de funcionamiento en el mundo real. A continuación, pueden utilizar estas perspectivas para mejorar las estimaciones del tiempo de viaje, los datos sobre carreteras y navegación y otros servicios relacionados con los vehículos y las flotas. Algunas organizaciones también pueden estar interesadas en vender a terceros sus datos telemétricos y perspectivas analíticas.
  • Servicios públicos. Las empresas de servicios públicos pueden utilizar un patrón de sistema de análisis de big data para consultar la información histórica sobre el aprovechamiento y los cortes y, a continuación, correlacionar esos datos con los patrones meteorológicos y otras condiciones locales para comprender qué factores impulsan un mayor aprovechamiento y aumentan el riesgo de cortes. Les ayuda a mejorar la predicción de uso, priorizar el mantenimiento preventivo y predecir las necesidades de servicio de los clientes.
Top