Lagos de datos y almacenes de datos

Muchas organizaciones han establecido estrategias en torno a la consolidación o la transformación de los datos en los últimos años o están participando activamente en una actividad de este tipo en la actualidad. Estas estrategias suelen estar impulsadas por prioridades que se entrecruzan, como la necesidad de acabar con los sistemas de datos aislados, habilitar un análisis integrado y rápido de los datasets y trabajar eficazmente a escala a medida que crecen el volumen y la complejidad de los datos.

A menudo se implementan dos categorías de tecnologías en alguna combinación para ayudar a esta transformación: la tecnología de lago de datos y la tecnología de almacén de datos, que a veces se utilizan conjuntamente. Las tecnologías de los lagos de datos y los almacenes de datos se confunden con frecuencia y pueden utilizarse indistintamente en discusiones informales, pero tanto a nivel conceptual como de implementación sirven a propósitos distintos y tienen roles diferentes en un sistema de información empresarial. Esta página intentará describir estas tecnologías a un nivel general, independiente del proveedor y del producto, y explicar el planteamiento estratégico de Esri para trabajar con estas tecnologías desde la perspectiva del sistema ArcGIS.

Patrones de integración en ArcGIS

ArcGIS Online admite conexiones a almacenes de datos a través de conectores de entrada para ArcGIS Data Pipelines. Los usuarios de ArcGIS Enterprise pueden conectarse a almacenes de datos mediante capas de consulta publicadas a través de ArcGIS Pro. Los usuarios de ArcGIS Pro pueden conectarse a almacenes de datos compatibles como capas de consulta, así como utilizar servicios de mapas publicados desde ArcGIS Enterprise. La extensión ArcGIS Data Interoperability para ArcGIS Pro también incluye lectores y escritores que trabajan con sistemas de almacén de datos.

ArcGIS Online admite conexiones a lagos de datos que utilizan proveedores de almacenamiento de objetos compatibles, y puede usarse para trabajar con formatos de datos de lagos de datos comunes como parquet. Data Pipelines no admite consultas analíticas por lotes en lagos de datos. ArcGIS Data Pipelines para ArcGIS Enterprise ofrece capacidades similares, y ArcGIS Enterprise también permite publicar servicios de imágenes que hacen referencia a datasets almacenados en un sistema de lago de datos. ArcGIS Pro admite conectividad a lagos de datos mediante conexiones de entidades de varios archivos al almacenamiento por carpetas y a través de archivos de conexión en la nube que pueden conectarse a lagos de datos para acceder a imágenes ráster o guardar resultados de análisis ráster en formato .crf.

Funcionalidad ArcGIS Online ArcGIS Enterprise ArcGIS Location Platform ArcGIS Pro
Conectividad de almacén de datos N/A
Conectividad de lago de datos N/A

Compatibilidad completa Compatibilidad parcial


Lagos de datos

Los lagos de datos pueden variar mucho en su definición y construcción, pero como concepto general, un lago de datos es un repositorio centralizado para elementos de datos individuales (archivos) de diversos tipos, que se almacenan en un sistema de almacenamiento grande y escalable que permite indexar, catalogar y ejecutar análisis a través de estos archivos. Los datos pueden estar estructurados o no, almacenados en diversos formatos de archivo y organizados según los flujos de datos entrantes u otros sistemas que crean esos datos. A continuación, se accede a los datos, se visualizan y se analizan mediante las herramientas y funcionalidades que el proveedor del lago de datos pone a su disposición a través del software.

Por ejemplo, una organización puede utilizar un lago de datos para almacenar miles de archivos CSV que representan los recorridos individuales por hora de la ubicación, velocidad y dirección de los vehículos. El software de lago de datos podría admitir la ejecución de análisis por lotes en estos miles de archivos para extraer escenarios en los que la velocidad superó una determinada cantidad o detectar tendencias en ubicaciones en las que se producen paradas frecuentes. Los sistemas tradicionales de datos requerirían fusionar estos numerosos archivos en un único dataset al que luego se pudiera acceder, pero un lago de datos permite que esta experiencia de consulta y análisis funcione a escala en el enorme grupo de datos. En el mismo lago de datos, la misma organización podría almacenar un formato diferente de datos que resuma los perfiles de los clientes y los datos de ventas con base en un formato de archivo basado en ficheros, de modo que la actividad anterior pueda correlacionarse con la base de datos transaccional en vivo de pedidos o clientes activos.

Trabajar con lagos de datos en ArcGIS

A los lagos de datos se accede principalmente desde ArcGIS como fuente de datos para formular preguntas analíticas y, a continuación, se visualizan los resultados en una interfaz espacial o basada en mapas. Como estos sistemas de almacenamiento suelen contener colecciones muy grandes de datos en archivos de estructura similar, los procesos que trabajan con estos datos suelen resumir el contenido antes de ejecutar un análisis geoespacial o comparar estos datasets con otras capas espaciales o no espaciales para responder a una pregunta analítica específica. Por lo general, estos análisis requieren un procesamiento intensivo, por lo que el flujo de trabajo suele implicar varios pasos:

  1. Diseñar o definir cuidadosamente la pregunta analítica, utilizando con frecuencia un subconjunto de los datos o un único archivo o dataset de ejemplo. Optimizar este análisis tanto como sea posible si se va a ciclar contra una capa de datos muy grande y reducir las columnas de salida y los datos tanto como sea posible para aumentar la eficiencia.

  2. Ejecutar los análisis utilizando una interfaz proporcionada por el lago de datos o un sistema de procesamiento externo como Apache Spark. Los resultados se devuelven con frecuencia a un marco de datos en memoria o a un dataset dentro de esa interfaz

  3. Visualizar los resultados resumidos de los análisis en forma tabular o como capa espacial para consultar las respuestas a la pregunta analítica. Si lo desean, pueden conservar los resultados en otro formato o repositorio, publicando un archivo CSV, creando una capa de entidades alojada de ArcGIS o enviando los resultados a otra API o sistema.

Los lagos de datos también pueden utilizarse como repositorio de datasets de imágenes o archivos ráster a los que se accede a través de un archivo de conexión a la nube desde ArcGIS Pro o como parte de un dataset de mosaico. Las imágenes de los lagos de datos pueden agregarse a un dataset de mosaico y utilizarse para publicar un servicio de imágenes, como origen de análisis que se ejecutan mediante análisis de ráster, visualizarse en ArcGIS Pro y utilizarse para flujos de trabajo de geoprocesamiento, análisis o representación en pantalla.

Algunos ejemplos de flujos de trabajo en un lago de datos con ArcGIS podrían ser:

  • Completar un análisis de puntos calientes en miles de archivos CSV que contienen ubicaciones de aves recopiladas durante un periodo de varios años utilizando ArcGIS GeoAnalytics Engine o ArcGIS GeoAnalytics en ArcGIS Pro.

  • Como científico medioambiental, utilizar la Python API de ArcGIS para identificar las horas y ubicaciones de los altos niveles de ozono en todo el país en un dataset de millones de lecturas de sensores estáticos, utilizando herramientas como Detectar incidentes y Crear cubo de espacio-tiempo.

Almacenes de datos

Los almacenes de datos son otro tipo de sistema de almacenamiento que puede variar en su diseño, definición y construcción. Como concepto general, un almacén de datos es muy similar a un sistema de administración de bases de datos relacionales, que permite almacenar grandes datasets estructurados, con funcionalidad de consulta, análisis y resumen de datasets cruzados. Por lo general, un almacén de datos se diferencia de un sistema tradicional de base de datos relacional en la escala de datos que puede admitir, el tipo y la variedad de análisis que pueden realizarse y la velocidad con la que pueden completarse estos procesos.

Los almacenes de datos también se construyen con frecuencia en una configuración más nativa de la nube o se proporcionan en un modelo de software como servicio, en el que los clientes se conectan a un sistema gestionado por la empresa que construye la tecnología del almacén de datos, utilizando la capacidad de cómputo y el almacenamiento que también están alojados y administrados por ese proveedor. Otro componente común del almacenamiento de datos es el uso de modelos de datos no relacionales, como el modelo en estrella, el modelo dimensional de datos u otros conceptos similares.

Trabajar con almacenes de datos en ArcGIS

El trabajo con almacenes de datos de ArcGIS puede adoptar varias formas diferentes. El patrón más común comienza con una conexión desde ArcGIS Pro al almacén de datos para ejecutar una consulta contra una tabla o vista. Esto se crea mediante una capa de consulta, que es un tipo de capa en ArcGIS Pro que puede ejecutar SQL definido por el usuario contra una bases de datos compatible. Para ver una lista de las bases de datos y almacenes de datos en la nube admitidos, consulte la documentación de ArcGIS Pro.

La capa de consulta devuelve los resultados de la base de datos en forma de tabla, que puede mostrarse en el mapa si contiene una columna espacial reconocida por ArcGIS, y puede utilizarse entonces para la visualización, como entrada para un análisis o como entrada para la creación de mapas cartográficos. Esta capa es una conexión en vivo con el almacén, por lo que se envía una nueva consulta en cada cambio de extensión del mapa, que devuelve un nuevo conjunto de filas, que potencialmente reflejan datos de origen actualizados, un cálculo actualizado o simplemente una nueva extensión espacial.

Si se requiere acceso web, esta capa de consulta puede publicarse en ArcGIS Enterprise como un servicio de mapas dinámico. Este servicio trasladará cualquier simbología o definición del mapa de ArcGIS Pro a la configuración del servicio. Cada solicitud de usuario desencadenará una consulta SQL actualizada al almacén de datos desde ArcGIS Enterprise. También se puede acceder a los servicios de mapas como capas de entidades para la visualización y consulta del lado del cliente.

Los almacenes de datos están optimizados para consultas grandes, analíticas o resumidas, lo que permite a los propietarios de datos responder a preguntas como «¿cuál fue el tamaño medio de compra en diferentes categorías de productos a través de varios millones de transacciones en nuestras tiendas en las últimas 24 horas?». Por lo general, una consulta de este tipo se ejecuta de forma periódica, y los resultados se utilizan para alimentar un cuadro de mando, un resumen de datos o un gráfico hasta que se actualizan en un horario posterior y regular. Los almacenes de datos también pueden utilizarse para un análisis más iterativo y exploratorio por parte de un analista o científico de datos, normalmente para definir y luego reutilizar un resumen estadístico o un informe.

Por este motivo, las capas de consulta de ArcGIS que se conectan a almacenes de datos deberían consultar con frecuencia los resultados de un análisis de este tipo, en lugar de un conjunto específico de filas de transacciones, como una lista de todo el millón de transacciones en el periodo de 24 horas. Aunque los almacenes de datos pueden consultarse funcionalmente fila por fila, no están optimizados para este tipo de interacción transaccional y pueden dar lugar a experiencias frustrantes como intentar consultar un millón de filas para visualizarlas en un mapa, lo que puede dar lugar a un tiempo de respuesta prolongado para devolver y mostrar todas las filas solicitadas.

Las capas de consulta pueden optimizarse aún más reduciendo el número de consultas que se realizan directamente contra los datos. Ejecutar menos consultas puede reducir los costes de su almacén de datos en la nube porque estos servicios suelen generar costes basados en los recursos de cómputo utilizados. Al publicar capas de datos en almacenes de datos en la nube, ArcGIS puede crear opcionalmente una vista materializada. La vista materializada puede actualizarse después de que se hayan actualizado los datos subyacentes para incorporar esas actualizaciones en la vista. El uso de vistas materializadas significa que solo incurre en costes de cómputo del almacén de datos en la nube cuando actualiza la vista, no cada vez que accede a los datos. El uso de vistas materializadas precalculadas también suele ser más rápido que ejecutar una consulta directamente sobre los datos. Las vistas materializadas son especialmente útiles para datasets que se actualizan con poca frecuencia y para consultas complejas que requieren recursos computacionales significativos.

Otra estrategia para reducir el número de consultas realizadas al almacén de datos en la nube consiste en crear una instantánea de los datos al publicar una capa de consulta. Una instantánea copia el conjunto de resultados de la consulta desde el almacén de datos en la nube a ArcGIS Enterprise. La capa hace referencia a esta copia en lugar de consultar el almacén de datos en la nube, lo que, por lo general, mejora el rendimiento de la capa. Las instantáneas no se actualizan automáticamente cuando se actualizan los datos subyacentes. En ArcGIS Enterprise, puede actualizar la instantánea bajo demanda o programar una actualización a intervalos específicos.

También existen otros métodos de integración con los almacenes de datos, pero son menos comunes, entre ellos:

  • Integraciones de tipo ETL, en las que los resultados de una consulta o vista de un almacén de datos se copian periódicamente en ArcGIS. Estas integraciones pueden llevar a cabo este trabajo mediante ArcGIS Data Pipelines, las bibliotecas de Python de ArcGIS, ArcGIS Notebooks o la extensión ArcGIS Data Interoperability. Una ventaja de las integraciones de tipo ETL es que permiten incorporar datos de los almacenes de datos a ArcGIS Online como una capa de entidades alojada o una tabla alojada.

  • Integraciones de tipo API, en las que una aplicación web o una aplicación cliente de ArcGIS puede consultar un almacén de datos para devolver resultados o valores. Esto puede ser posible con ArcGIS Maps SDKs, donde se puede crear una capa de entidades o una capa de gráficos del lado del cliente a partir de los resultados. SDK ArcGIS Enterprise también podría usarse para crear un feed de datos personalizados para servicios de entidades.

En ambas situaciones, la autenticación, la frecuencia de actualización de los datos y los controles de acceso son aspectos y requisitos importantes que deben tenerse en cuenta.

Top