Lagos de datos y almacenes de datos

Muchas organizaciones han establecido estrategias en torno a la consolidación o la transformación de los datos en los últimos años o están participando activamente en una actividad de este tipo en la actualidad. Estas estrategias suelen estar impulsadas por prioridades que se entrecruzan, como la necesidad de acabar con los sistemas de datos aislados, habilitar un análisis integrado y rápido de los datasets y trabajar eficazmente a escala a medida que crecen el volumen y la complejidad de los datos.

A menudo se implementan dos categorías de tecnologías en alguna combinación para ayudar a esta transformación: la tecnología de lago de datos y la tecnología de almacén de datos, que a veces se utilizan conjuntamente. Las tecnologías de los lagos de datos y los almacenes de datos se confunden con frecuencia y pueden utilizarse indistintamente en discusiones informales, pero tanto a nivel conceptual como de implementación sirven a propósitos distintos y tienen roles diferentes en un sistema de información empresarial. Esta página intentará describir estas tecnologías a un nivel general, independiente del proveedor y del producto, y explicar el planteamiento estratégico de Esri para trabajar con estas tecnologías desde la perspectiva del sistema ArcGIS.

Lagos de datos

Los lagos de datos pueden variar mucho en su definición y construcción, pero como concepto general, un lago de datos es un repositorio centralizado para elementos de datos individuales (archivos) de diversos tipos, que se almacenan en un sistema de almacenamiento grande y escalable que permite indexar, catalogar y ejecutar análisis a través de estos archivos. Los datos pueden estar estructurados o no, almacenados en diversos formatos de archivo y organizados según los flujos de datos entrantes u otros sistemas que crean esos datos. A continuación, se accede a los datos, se visualizan y se analizan mediante las herramientas y funcionalidades que el proveedor del lago de datos pone a su disposición a través del software.

Por ejemplo, una organización puede utilizar un lago de datos para almacenar miles de archivos CSV que representan los recorridos individuales por hora de la ubicación, velocidad y dirección de los vehículos. El software de lago de datos podría admitir la ejecución de análisis por lotes en estos miles de archivos para extraer escenarios en los que la velocidad superó una determinada cantidad o detectar tendencias en ubicaciones en las que se producen paradas frecuentes. Los sistemas tradicionales de datos requerirían fusionar estos numerosos archivos en un único dataset al que luego se pudiera acceder, pero un lago de datos permite que esta experiencia de consulta y análisis funcione a escala en el enorme grupo de datos. En el mismo lago de datos, la misma organización podría almacenar un formato diferente de datos que resuma los perfiles de los clientes y los datos de ventas con base en un formato de archivo basado en ficheros, de modo que la actividad anterior pueda correlacionarse con la base de datos transaccional en vivo de pedidos o clientes activos.

Trabajar con lagos de datos en ArcGIS

A los lagos de datos se accede principalmente desde ArcGIS como fuente de datos para formular preguntas analíticas y, a continuación, se visualizan los resultados en una interfaz espacial o basada en mapas. Como estos sistemas de almacenamiento suelen contener colecciones muy grandes de datos en archivos de estructura similar, los procesos que trabajan con estos datos suelen resumir el contenido antes de ejecutar un análisis geoespacial o comparar estos datasets con otras capas espaciales o no espaciales para responder a una pregunta analítica específica. Por lo general, estos análisis requieren un procesamiento intensivo, por lo que el flujo de trabajo suele implicar varios pasos:

  1. Diseñar o definir cuidadosamente la pregunta analítica, utilizando con frecuencia un subconjunto de los datos o un único archivo o dataset de ejemplo. Optimizar este análisis tanto como sea posible si se va a ciclar contra una capa de datos muy grande y reducir las columnas de salida y los datos tanto como sea posible para aumentar la eficiencia.
  2. Ejecutar los análisis utilizando una interfaz proporcionada por el lago de datos o un sistema de procesamiento externo como Apache Spark. Los resultados se devuelven con frecuencia a un marco de datos en memoria o a un dataset dentro de esa interfaz
  3. Visualizar los resultados resumidos de los análisis en forma tabular o como capa espacial para consultar las respuestas a la pregunta analítica. Si lo desean, pueden conservar los resultados en otro formato o repositorio, publicando un archivo CSV, creando una capa de entidades alojada de ArcGIS o enviando los resultados a otra API o sistema.

Los lagos de datos también pueden utilizarse como repositorio de datasets de imágenes o archivos ráster a los que se accede a través de un archivo de conexión a la nube desde ArcGIS Pro o como parte de un dataset de mosaico. Las imágenes de los lagos de datos pueden agregarse a un dataset de mosaico y utilizarse para publicar un servicio de imágenes, como origen de análisis que se ejecutan mediante análisis de ráster, visualizarse en ArcGIS Pro y utilizarse para flujos de trabajo de geoprocesamiento, análisis o representación en pantalla.

Algunos ejemplos de flujos de trabajo en un lago de datos con ArcGIS podrían ser:

  • Completar un análisis de puntos calientes en miles de archivos CSV que contienen ubicaciones de aves recopiladas durante un periodo de varios años utilizando ArcGIS GeoAnalytics Engine o ArcGIS GeoAnalytics en ArcGIS Pro.
  • Como científico medioambiental, utilizar la Python API de ArcGIS para identificar las horas y ubicaciones de los altos niveles de ozono en todo el país en un dataset de millones de lecturas de sensores estáticos, utilizando herramientas como Detectar incidentes y Crear cubo de espacio-tiempo.

Almacenes de datos

Los almacenes de datos son otro tipo de sistema de almacenamiento que puede variar en su diseño, definición y construcción. Como concepto general, un almacén de datos es muy similar a un sistema de administración de bases de datos relacionales, que permite almacenar grandes datasets estructurados, con funcionalidad de consulta, análisis y resumen de datasets cruzados. Por lo general, un almacén de datos se diferencia de un sistema tradicional de base de datos relacional en la escala de datos que puede admitir, el tipo y la variedad de análisis que pueden realizarse y la velocidad con la que pueden completarse estos procesos.

Los almacenes de datos también se construyen con frecuencia en una configuración más nativa de la nube o se proporcionan en un modelo de software como servicio, en el que los clientes se conectan a un sistema gestionado por la empresa que construye la tecnología del almacén de datos, utilizando la capacidad de cómputo y el almacenamiento que también están alojados y administrados por ese proveedor. Otro componente común del almacenamiento de datos es el uso de modelos de datos no relacionales, como el modelo en estrella, el modelo dimensional de datos u otros conceptos similares.

Trabajar con almacenes de datos en ArcGIS

El trabajo con almacenes de datos de ArcGIS puede adoptar varias formas diferentes. El patrón más común comienza con una conexión desde ArcGIS Pro al almacén de datos para ejecutar una consulta contra una tabla, vista o dataset. Esto se crea mediante una capa de consulta, que es un tipo de capa en ArcGIS Pro que puede ejecutar SQL definido por el usuario contra un sistema de administración de bases de datos relacionales admitido o un almacén de datos en la nube. Para ver una lista de las bases de datos y almacenes de datos en la nube admitidos, consulte la documentación de ArcGIS Pro.

La capa de consulta devuelve los resultados de la base de datos en forma de tabla, que puede mostrarse en el mapa si contiene una columna espacial reconocida por ArcGIS, y puede utilizarse entonces para la visualización, como entrada para un análisis o como entrada para la creación de mapas cartográficos. Esta capa es una conexión en vivo con el almacén, por lo que se envía una nueva consulta en cada cambio de extensión del mapa, que devuelve un nuevo conjunto de filas, que potencialmente reflejan datos de origen actualizados, un cálculo actualizado o simplemente una nueva extensión espacial.

Si se requiere un acceso basado en la web, esta capa de consulta puede publicarse en un servicio de mapas dinámico a un Servidor SIG de ArcGIS, que trasladará cualquier simbología o definición del mapa de ArcGIS Pro a la configuración del servicio, pero ahora cada solicitud de usuario desencadenará una consulta SQL actualizada desde ArcGIS Server al almacén de datos.

Los almacenes de datos están optimizados para consultas grandes, analíticas o resumidas, lo que permite a los propietarios de datos responder a preguntas como «¿cuál fue el tamaño medio de compra en diferentes categorías de productos a través de varios millones de transacciones en nuestras tiendas en las últimas 24 horas?». Por lo general, una consulta de este tipo se ejecuta de forma periódica, y los resultados se utilizan para alimentar un cuadro de mando, un resumen de datos o un gráfico hasta que se actualizan en un horario posterior y regular. Los almacenes de datos también pueden utilizarse para un análisis más iterativo y exploratorio por parte de un analista o científico de datos, normalmente para definir y luego reutilizar un resumen estadístico o un informe.

Por este motivo, las capas de consulta de ArcGIS que se conectan a almacenes de datos deberían consultar con frecuencia los resultados de un análisis de este tipo, en lugar de un conjunto específico de filas de transacciones (como una lista de todo el millón de transacciones en el periodo de 24 horas). Aunque los almacenes de datos pueden consultarse funcionalmente fila por fila, no están optimizados para este tipo de interacción transaccional y pueden dar lugar a experiencias frustrantes como intentar consultar un millón de filas para visualizarlas en un mapa, lo que puede dar lugar a un tiempo de respuesta de cinco minutos para devolver (y mostrar) todas las filas solicitadas.

Una vez publicada en ArcGIS Enterprise una capa de consulta respaldada por un almacén de datos, para determinados proveedores ArcGIS puede implementar una optimización adicional del rendimiento. Con los almacenes de datos en la nube, ArcGIS ha introducido una lógica adicional para ayudar al procesamiento eficiente de las consultas y al uso de los recursos de cómputo, específicamente para las bases de datos AWS Redshift, Google BigQuery y Snowflake, que pueden imponer un coste basado en el consumo total de cómputo. Durante la publicación, ArcGIS puede (si lo desea) crear automáticamente una vista materializada en el almacén de datos de origen, lo que puede mejorar el rendimiento y ahorrar en el coste total de las consultas. Otra opción es un modo «instantáneo» en el que una copia de los datos se traslada al ArcGIS Data Store durante la publicación y, a continuación, se actualiza periódicamente según un calendario establecido por el editor, de modo que el sistema SIG siempre dispone de un conjunto reciente de resultados, pero las consultas relativamente lentas no se envían continuamente al almacén de datos de origen.

También existen otros métodos de integración con los almacenes de datos, pero son menos comunes, entre ellos:

  • Integraciones de estilo ETL, en las que los resultados de una consulta o vista de un almacén de datos se copian a otro formato de datos o se integran en el sistema SIG corporativo de forma periódica como una vista de capa de entidades alojada o una clase de entidad de geodatabase corporativa.
  • Integraciones de estilo API, en las que una aplicación web o cliente de ArcGIS puede consultar un extremo HTTP del almacén de datos para devolver resultados o valores. Esto puede ser posible con ArcGIS Maps SDKs, donde se puede crear una capa de entidades o una capa de gráficos del lado del cliente a partir de los resultados.
  • En ambos casos, la autenticación, la frecuencia de actualización de los datos y los controles de acceso son aspectos y requisitos importantes que deben tenerse en cuenta.
Top