Selección de un patrón de implementación para sistemas de análisis de big data

Los sistemas de análisis de big data suelen desplegarse siguiendo los dos patrones de implementación siguientes:

La selección de un patrón de implementación apropiado depende principalmente del origen de los datos que utiliza el análisis de big data.

El patrón de implementación de Apache Spark utiliza ArcGIS en forma de bibliotecas de Apache Spark para realizar análisis sobre datos persistentes de ubicaciones centralizadas (por ejemplo, lagos de datos, almacenamiento de objetos, bases de datos relacionales, archivos) accesibles al entorno de Apache Spark. El patrón de implementación de Apache Spark es el más común para los científicos de datos que realizan análisis espaciales de big data. La base fundamental del patrón de implementación de Apache Spark es llevar el análisis espacial al entorno con el que el científico de datos está familiarizado. Para ello, se utiliza una biblioteca Spark que permite a los científicos de datos agregar funciones y procesos espaciales a flujos de trabajo analíticos nuevos o ya existentes. Apache Spark proporciona funcionalidades de cómputo distribuido que admiten el acceso a un amplio rango de datasets, un robusto conjunto de funcionalidades de biblioteca, la posibilidad de explorar e interactuar con análisis estructurados y la posibilidad de producir resultados que puedan ser aprovechados por una parte interesada o un proceso de negocio posterior.

Como alternativa, el análisis de big data puede llevarse a cabo como parte del patrón de implementación SaaS para la transmisión streaming y el análisis de datos en tiempo real. En ese patrón, los datos de sensores o eventos en tiempo real se procesan en la oferta SaaS, se analizan en tiempo real o se archivan para su uso posterior mediante un proceso de análisis de big data definido por el usuario. 

Existen muchas diferencias funcionales y no funcionales entre los patrones de implementación de Apache Spark y SaaS, como la interfaz para diseñar modelos de análisis y las herramientas y capacidades analíticas específicas proporcionadas. Sin embargo, además de la preferencia de la organización por modelos de implementación concreto, el punto clave de decisión tiende a ser si el sistema de análisis de big data se utilizará principalmente para analizar datos y observaciones en tiempo real o si el sistema se utilizará para analizar datos persistentes en los big data stores existentes dentro de la organización (por ejemplo, los lagos de datos). Para más información, consulte las páginas de patrones de implementación de Apache Spark y SaaS.

Para obtener información general y consideraciones sobre estos planteamientos de implementación, consulte la página de productos y opciones de implementación de ArcGIS en la descripción general de ArcGIS.

Top