Система аналитики больших данных

Система аналитики больших данных используется для анализа больших объемов географических и табличных данных. Аналитические возможности в основном сфокусированы на векторных данных, но некоторые возможности существуют для изображений и растровых типов данных. Этот системный шаблон использует Apache Spark в качестве подсистемы для пакетной обработки крупномасштабных данных в распределенной вычислительной инфраструктуре. Результаты пространственного и временного анализа больших данных, как правило, записываются обратно в хранилища данных для дальнейшего анализа или в другие системы ArcGIS для визуализации и дальнейшего географического анализа. Функциональные возможности в значительной степени зависят от выбранного шаблона развертывания.

Шаблон системы аналитики больших данных приносит пользу организации за счет различных характеристик, таких как:

  • Придание инновационного аспекта анализу больших данных за счет использования географической науки и улучшения процесса принятия решений.
  • Добавление аналитики на основе географии в существующие рабочие процессы анализа больших данных на основе Apache Spark.
  • Предоставление пространственных операций специалистам по обработке и анализу данных с помощью знакомых инструментов и навыков.
  • Быстрое извлечение географической информации из больших данных с атрибутами местоположения (широта и долгота), таких как наборы данных GPS, AIS, перемещения людей или других движущихся датчиков.
  • Хранение и индексация аналитических результатов в таких системах, как хранилища объектов, реляционные базы данных и хранилища данных, из которых их можно опубликовать и использовать в более интуитивно понятных приложениях, таких как веб-карты, карты-истории и пользовательские приложения.

Если вы новичок в системных шаблонах ArcGIS, сначала ознакомьтесь с введением.

Пользователи и рабочие процессы.

Типы пользователей, которые чаще всего взаимодействуют с системами аналитики больших данных, а также типы рабочих процессов и задач, которые они обычно выполняют с помощью этой системы, включают:

  • Аналитик данных, ученый и инженер. Аналитики данных, ученые и инженеры являются основными пользователями, взаимодействующими с системой анализа больших данных. Эти пользователи обычно знакомы с Apache Spark, Python и работой с большими данными, и эти специализированные навыки необходимы для получения максимальной отдачи от представленных здесь систем пространственной аналитики больших данных. Аналитики данных, ученые и инженеры работают с большими данными и подготавливают их, проектируют, разрабатывают и проводят процедуры анализа, а также визуализируют и изучают результаты анализа. Работа этого пользователя обычно повторяется и часто также включает в себя описание результатов анализа и обмен ими с другими заинтересованными лицами.
  • ГИС-аналитик. ГИС-аналитики, как правило, не являются основными пользователями систем аналитики больших данных, так как необходимые для этого навыки обычно выходят за рамки роли ГИС-аналитика. Тем не менее, ГИС-аналитики обычно работают вместе с аналитиками данных, учеными и инженерами, чтобы обеспечить понимание важных пространственных концепций и применение лучших практик работы с геопространственными данными, а также методов и инструментов анализа.

Чтобы получить максимальную отдачу от системы аналитики больших данных, рассмотрите возможность привлечения обоих вышеперечисленных персонажей или людей, обладающих навыками обоих персонажей.

Приложения

Хотя ArcGIS предоставляет множество приложений и возможностей, обычно системы анализа больших данных предоставляют только низкоуровневые интерфейсы, знакомые аналитикам данных, ученым и инженерам по работе с данными. Эти интерфейсы различаются в зависимости от выбранного шаблона развертывания. Шаблон развертывания Apache Spark в основном основан на блокнотах Python, обычно работающих в среде анализа данных, на основе которых код Python PySpark разрабатывается и объединяется в виде задания, отправляемого в кластер Spark. Шаблон развертывания SaaS (программное обеспечение как сервис) предоставляет интерфейс визуального моделирования, который поддерживает настройку рабочих процессов путем логического соединения источников данных с аналитическими инструментами.

Для визуализации и обмена результатами анализа часто используются дополнительные приложения, такие как отчеты, операционные панели и интерактивные картографические приложения. Обычно это достигается с помощью системы самостоятельного картографирования, анализа и публикации или другого шаблона системы ArcGIS. Узнайте больше об использовании, интеграции и составлении системных шаблонов.

Функциональные возможности

Ниже приведены основные функциональные возможности, предоставляемые системой анализа больших данных. Возможности, используемые в рабочих процессах анализа больших данных, но обычно предоставляемые другими системами, такими как базовые карты и другие сервисы местоположения, предоставляемые системой сервисов местоположения, ниже не перечислены. Узнайте больше о связанных системных шаблонах.

Примечание:

Не все возможности, описанные ниже, доступны во всех шаблонах развертывания. Дополнительные сведения о том, как эти возможности применяются (или не применяются) в различных контекстах развертывания, см. в разделе выбор шаблона развертывания и на страницах шаблонов развертывания.

  • Функция приема данных обеспечивает доступ к данным системе аналитики больших данных при выполнении задач анализа. В большинстве случаев данные анализируются непосредственно в месте их расположения; однако в некоторых сценариях система аналитики больших данных на основе SaaS может потребовать загрузки данных в систему.
  • Пространственные соединения и отношения позволяют объединять строки двух наборов данных на основе пространственных отношений. Могут применяться различные пространственные отношения, включая пересечение, стирание, объединение, идентичность и симметричная разность, хотя возможности зависят от выбранного шаблона развертывания.
  • Временные шаги и временные отношения позволяют проводить анализ с использованием критерия времени. Временные шаги разделяют входные данные на этапы, в которых анализ выполняется независимо и доступен с помощью шаблона развертывания Apache Spark. Временные отношения используются для временного объединения данных с помощью средств объединения и поддерживаются обоими шаблонами развертывания.
  • Анализ закономерностей выявляет пространственные и временные закономерности в данных. К нему относятся такие инструменты, как поиск горячих точек, поиск похожих местоположений, а также различные методы регрессионного анализа для моделирования тенденций и создания прогнозов.
  • Анализ близости рассматривает близость пространственных данных к другим пространственным данным. Сюда входят такие инструменты, как поиск кластеров точек и создание буферов.
  • При анализе суммаризации данные агрегируются или суммируются в структуры данных более высокого порядка. Сюда входят такие инструменты, как агрегирование точек, вычисление плотности и суммирование в пределах.
  • Анализ трека работает с точками включенного времени, коррелированными с движущимися объектами. Сюда входят такие инструменты, как реконструкция треков, привязка к сети, а также инструменты для анализа поездок и мест проживания.
  • Геокодирование — это процесс конвертации текста в адрес и местоположение. Инструменты геокодирования в системах аналитики больших данных предназначены для работы с большими объемами адресных данных. Узнайте больше о геокодировании.
  • Сетевой анализ помогает решить общие сетевые проблемы, часто (но не всегда) для дорожных сетей. Возможности, доступные для сетевого анализа в системе аналитики больших данных, несколько отличаются по объему от тех, которые доступны в традиционных системах аналитики. Кроме того, возможности сетевого анализа значительно различаются в зависимости от шаблона развертывания. Изучите шаблоны развертывания более подробно.
  • Анализ растров поддерживает аналитические функции и процессоры, работающие с растровыми данными. Возможности анализа растров в системе анализа больших данных относительно ограничены по сравнению с традиционными аналитическими системами. Кроме того, возможности анализа растров значительно различаются в зависимости от шаблона развертывания. Изучите шаблоны развертывания более подробно. Кроме того, для знакомства с более продвинутым анализом растров и изображений см. шаблон системы управления и аналитики данных изображений.
  • Управление данными поддерживает работу с геометрией и другими полями в больших данных. Сюда входят такие инструменты, как вычисление поля. Шаблон развертывания Apache Spark также включает множество пространственных функций SQL, которые расширяют API SQL Spark.
  • пользовательские инструменты анализа можно использовать с помощью системы аналитики больших данных в Apache Spark, в частности с использованием опции Big Data Toolkit (BDT), Дополнительные сведения см. в разделе Шаблон развертывания Apache Spark.
  • Картографирование и визуализация результатов анализа — это мощный шаг для обеспечения контекста и выявления закономерностей, тенденций и отношений. Визуализация и картографирование аналогичны построению диаграмм и построению графиков с использованием непространственных данных. Это способ проверить свой анализ, итерировать его и получить привлекательные результаты, которыми можно поделиться. Эти интерфейсы для картографирования, визуализации и анализа результатов различаются в зависимости от выбранного шаблона развертывания; для получения дополнительной информации см. раздел Приложения.
  • Публикация данных и размещение результатов анализа поддерживаются ArcGIS, но считаются выходящими за рамки шаблона системы аналитики больших данных. Дополнительные сведения см. в разделе связанные системные шаблоны.

Рекомендации по архитектуре

В этом разделе более подробно описывается, как системы аналитики больших данных согласуются с конкретными аспектами архитектуры ArcGIS и фокусируются на них.

Более подробные сведения об архитектуре см. в разделе Выбор шаблона развертывания.

Данные (сохранение)

Рекомендации по архитектуре систем аналитики больших данных

Системы аналитики больших данных работают с широким спектром хранилищ данных, включая хранилища файлов и объектов (часто в виде распределенных хранилищ озер данных), реляционные базы данных, облачные хранилища данных, а также хранилища документов NoSQL. Модели данных и правила ArcGIS также могут использоваться при работе с определенными хранилищами данных; однако этот тип системы обычно не использует отраслевые модели данных ArcGIS. В большинстве случаев системы аналитики больших данных работают с имеющимися данными, приближая аналитику к данным; однако шаблон развертывания SaaS может потребовать приема данных в размещенную Esri систему SaaS. Узнайте больше о том, как каждый шаблон развертывания работает с данными, а также о том, какие хранилища и источники данных он поддерживает.

Сервисы (логика)

Рекомендации по архитектуре сервисов систем аналитики больших данных

Системы аналитики больших данных используют узкий, но глубокий набор сервисов ArcGIS, в частности, аналитику больших данных, а также искусственный интеллект и глубокое обучение. Система аналитики больших данных чаще всего используется для поддержки ИИ и глубокого обучения, анализа инженерных данных, а также для обучения и тестирования моделей глубокого обучения. Узнайте больше о пространственной аналитике и науке о данных.

Система аналитики больших данных также может использоваться для запросов, доступа, пространственной привязки, обогащения и управления большими данными. Использование этой системы для рабочих процессов извлечения, преобразования и загрузки (ETL) возможно и относительно распространено. Система аналитики больших данных использует интерактивное картографирование с базовыми картами и опорными слоями для визуализации результатов анализа. Каталогизация и публикация результатов анализа и других ресурсов через сервисы портала является типичной, хотя обычно это выполняется с помощью другой системы на основе ArcGIS. Дополнительные сведения см. в разделе связанные системные шаблоны.

Приложения (презентация)

Рекомендации по архитектуре приложений систем аналитики больших данных

Системы аналитики больших данных обычно предоставляют только низкоуровневые пользовательские интерфейсы, знакомые аналитикам данных, ученым и инженерам по работе с данными. Эти пользовательские интерфейсы или приложения различаются в зависимости от выбранного шаблона развертывания. Для получения дополнительной информации см. приложения .

Поддержка

Системы аналитики больших данных опираются на распределенные вычисления, уделяя особое внимание эластичности и масштабируемости. По этой причине большинство систем аналитики больших данных, как правило, основаны на облаке. Дополнительные соображения по поддержке часто включают в себя эффективность инфраструктуры и управление затратами, наблюдаемость длительных аналитических процессов, а также интеграцию с источниками данных и другими аналитическими системами или системами взаимодействия. Дополнительные сведения о системной интеграции см. в разделе компонент интеграции по Well-Architected Framework. На эти системы, как правило, не распространяются соглашения об уровне обслуживания по производительности или надежности.

Общие рекомендации по поддержке и архитектуре см. в разделах практики создания архитектуры и основные компоненты архитектуры по ArcGIS Well-Architected Framework.

Связанные системные шаблоны

Системы аналитики больших данных могут быть интегрированы или объединены с другими системными шаблонами ArcGIS. Некоторые распространенные примеры включают:

Дополнительные сведения об интеграции или составлении системных шаблонов см. в разделе Использование системных шаблонов.

Примеры

Отраслевые примеры систем для этого системного шаблона включают:

  • Коммерческие задачи. Организации, работающие в сфере коммерческой недвижимости, финансовых услуг и розничной торговли, могут использовать шаблон системы аналитики больших данных для ускорения выполнения крупномасштабных задач демографического анализа. Потенциально это может включать в себя обогащение данных всеми демографическими переменными от Esri, а не только несколькими. С помощью этого шаблона такие задачи можно выполнять быстрее и чаще, поэтому организации могут получать всестороннюю и актуальную демографическую информацию для принятия обоснованных решений.
  • Здравоохранение и социальные услуги. Риск заболеваний и других проблем со здоровьем может значительно различаться в зависимости от местоположения. Исследователи в сфере здравоохранения и общественного здравоохранения могут использовать системный шаблон анализа больших данных для эффективного исследования коррелированных факторов, влияющих на здоровье и риск передачи заболеваний в их сообществах. Медицинские организации также могут использовать систему анализа больших данных для оценки адекватности сети.
  • Страхование. Страховщики используют пространственные данные для управления рисками и установления соответствующих цен на страховые полисы. Они могут использовать шаблон системы аналитики больших данных для оценки пространственных отношений между опасностями и политиками, что помогает им сбалансировать подверженность риску. Они также заинтересованы в геовключении данных телеметрии транспортных средств, которые они собирают с помощью устройств OBD2, чтобы получить представление о поведении водителя. Например, они могут определить безопасных водителей, которые выбирают наиболее безопасные маршруты и соблюдают установленные ограничения скорости, а затем вознаграждать этих водителей более низкими страховыми взносами.
  • Национальное правительство. Национальные агентства часто собирают чрезвычайно большой массив данных о социальной, экономической и экологической деятельности. Используя шаблон системы аналитики больших данных, они могут анализировать эти данные, чтобы быстро исследовать и понимать критичные по времени закономерности и действия, представляющие интерес. Например, они могут определять места обитания (места, где люди проводят время), пространственные кластеры (места, где люди собираются) и аномалии (например, неожиданные изменения и активность).
  • Природные ресурсы. С помощью шаблона системы аналитики больших данных нефтегазовые компании могут применять данные, которые они создают для своих цифровых двойников, чтобы создавать сценарии «что, если», выявлять аномалии (например, неисправное оборудование) и моделировать отношения с помощью инфраструктуры больших данных Spark. Эти компании также могут использовать исторические GPS-треки для обнаружения арендованных дорог (которые не являются частью сети дорог общего пользования), а затем соединять их с дорогами общего пользования. Пользователи могут применять эти дорожные данные для оптимизации последовательности пунктов осмотра, сокращая время, которое их сотрудники проводят на дороге во время осмотров (также известное как время нахождения на лобовом стекле).
  • Государственное и местное управление. Государственные и местные агентства полагаются на данные, которые помогают им предоставлять эффективные услуги гражданам. С помощью шаблона системы аналитики больших данных они могут анализировать исторические данные, связанные с их сервисами, такие как история вызовов 311, данные телеметрии транспортных средств и многое другое. Это позволяет им отвечать на вопросы об уровне реагирования на жалобы граждан и оценивать эффективность работы поставщиков услуг.
  • Телекоммуникации. С помощью шаблона системы аналитики больших данных телекоммуникационные компании могут анализировать записи звонков для выявления проблем и аномалий в сети, таких как статистически значимые горячие точки с высоким уровнем накопления прерванных вызовов. Они также могут объединять демографические данные с данными из точек доступа Wi-Fi, чтобы делать выводы о характеристиках и поведении звонящих. Они также могут быть заинтересованы в продаже этих поведенческих данных внешним клиентам, таким как компании социальных сетей.
  • Транспорт. Подключенные транспортные средства (например, автомобили и поезда) собирают данные телеметрии, чтобы улучшить работу транспортного хозяйства. С помощью шаблона системы аналитики больших данных производители транспортных средств (и разработчики бортовых систем) могут выполнять аналитику по исторической телеметрии, чтобы получить представление о реальных условиях эксплуатации. Затем они могут использовать эту информацию для улучшения оценки времени в пути, данных о дорогах и навигации, а также других услуг, связанных с транспортными средствами и автопарками. Некоторые организации также могут быть заинтересованы в продаже своих данных телеметрии и аналитических сведений третьим сторонам.
  • Коммунальные инженерные сети. Коммунальные предприятия могут использовать шаблон системы аналитики больших данных для анализа исторической информации об использовании и отключениях, а затем сопоставлять эти данные с погодными условиями и другими местными условиями, чтобы понять, какие факторы приводят к более высокому потреблению и увеличивают риск сбоев. Это помогает им улучшить прогнозирование потребления, определить приоритеты профилактического обслуживания и прогнозировать потребности клиентов в обслуживании.
Top