Управление данными в нефтегазовой отрасли
Не осталось отраслей экономики, для которых данные не имели бы огромного значения. Все больше компаний приходят к пониманию, что информация — это корпоративный и стратегический актив. При грамотном управлении данными и использовании аналитики для прогнозирования, ценность собираемой и накапливаемой информации только растет.
Данные — это не только сведения о бизнесе и сопутствующая ему атрибутика, но и активы, которые приносят прибыль. Именно поэтому ими можно и нужно управлять. Вовлечение полной структурированной и неструктурированной информации в аналитический оборот позволяет быстро и эффективно решать задачи, которые ранее выполнялись крайне сложно или не выполнялись вовсе.
Вся собираемая, обрабатываемая и используемая информация — надежная основа для увеличения производственной и экономической эффективности компании, повышения качества обслуживания оборудования, заказчиков, увеличения получаемых прямых и косвенных выгод. Это также опора для принятия взвешенных управленческих решений, подспорье для проведения различных исследований и разработок по повышению операционной эффективности и оптимизации существующих бизнес-процессов.
С помощью современных IT- и методологических решений можно поддерживать критически важную информацию в актуальном состоянии, контролировать ее целостность и непротиворечивость, оперативно устранять возникающие ошибки и неточности, использовать их для решения бизнес-задач, достижения стратегических и оперативных целей с минимальным привлечением технического персонала.
Специфика данных в нефтегазовом сегменте
Предприятия нефтегазового сектора занимаются геологоразведкой и добычей, хранением и транспортировкой добываемых продуктов и специализируются на работе с объемной геолого-геофизической информацией, промысловыми данными, информацией о процессах хранения и транспортировки, сопровождающих их рисках, диагностических проверках оборудования и т. д.
Занимаясь переработкой и сбытом, организации активно работают с огромными массивами данных по заводам, скважинам, трубопроводам, а также с информацией о торговых партнерах, дистрибьюторах, коммерческих и бытовых потребителях, объемах продаж, адресам отгрузок, расчетам — то есть с нормативно-справочной информацией. Кроме того, такие компании активно взаимодействуют с правилами, регламентами, инструкциями в области безопасности и охраны труда и пр.
Работа с информацией в нефтегазовом секторе имеет свои особенности. Во-первых, у предприятий отрасли традиционно сверхбольшой объем разнородных данных, часть из которых быстро устаревает или постоянно обновляется. Во-вторых, ими часто используются различные источники данных — это могут быть десятки, сотни IT-продуктов и специализированных решений. В-третьих, эффективная работа отрасли строится на сложных и интенсивных процессах обработки, анализа данных и создания отчетности.
Управление информационными ресурсами и анализ данных
Предприятия нефтегазовой отрасли могут сталкиваться с проблемой разрозненности большого количества бизнес-данных, их неструктированностью и быстрым устареванием, дублированием справочной информации, частыми изменениями в приложениях, недостоверной отчетностью, а также отсутствием единых стандартов и высокой стоимостью сопровождения используемых IT-систем.
При этом компании могут испытывать потребность:
- в создании единой централизованной системы управления данными с «одной версией правды» (управление процессами разработки) и требуемым уровнем качества данных;
- реализации эффективных механизмов сбора, хранения и управления данными;
- монетизации данных за счет повышения эффективности и оптимизации процессов на основе данных;
- формировании оперативной корпоративной отчетности для поддержки принятия решений и моделирования сценариев;
- возможности управления эксплуатацией производственных объектов в реальном времени.
Чтобы закрыть эти потребности, нужно комплексное решение по управлению данными на всем протяжении жизненного цикла, включающего методологию, сбор, обработку, хранение, управление, визуализацию, а также анализ и прогнозирование. С помощью инструментов анализа компании имеют возможность консолидировать данные и извлечь из них максимальную выгоду. Например, нефтегазовые компании могут прогнозировать добычу ресурсов, вести визуальный мониторинг, распознавание и классификацию объектов, проводить эффективное диагностическое обслуживание и оценку рисков.
Автоматизация процесса: платформа данных
Для максимальной эффективности процесса управления данными требуется ряд организационно-методологических и программно-технических решений.
Поскольку современные хранилища данных и аналитические системы для нефтегазовой отрасли все чаще представляют из себя сложные комплексные решения, команда IBS решила создать продукт, который объединял бы в себе все необходимые компоненты, имел модульную структуру, базировался на импортозамещенном стыке программного обеспечения. Так у IBS появилась собственная Платформа данных, решающая большую часть задач как предиктивной и регуляторной аналитики, так и в части хранения информации (Рис.1). Причем любой — структурированной, неструктурированной, больших и малых объемов.
Это комплексное инфраструктурное решение включает весь набор предопределенных компонентов, необходимых для:
- сбора данных из систем-источников с учетом их доступности, в том числе в режиме реального времени;
- персистентного хранения данных с должным уровнем детализации и избыточности, как на уровне накопления данных, так и на уровне их представления для внешних систем;
- выбора внутреннего оптимального межкомпонентного движения данных (Dataflow) для каждой новой предметной области;
- реализации имманентной адаптивной модели данных, служащей источником для реализации бизнес-задач внешними средствами аналитической отчетности;
- обслуживания аналитических сервисов и внешних систем-потребителей за счет стандартизованных и открытых протоколов взаимодействия, а также инструментов, обеспечивающих загрузку данных в целевые системы.
Рис.1 Возможный вариант технической архитектуры
Платформа данных IBS решает задачу по импортозамещению, так как абсолютное большинство компонент продукта составляют отечественные решения из Единого реестра российских программ для электронных вычислительных машин и баз данных. Кроме того, очень многие из них относятся к Open Source-приложениям (с открытым исходным кодом). Также в Платформе используются универсальная масштабируемая платформа данных Arenadata и зарекомендовавшая себя на рынке разработка IBS — платформа «Планета.Аналитика» (Рис.2).
Рис.2 Возможный вариант технической архитектуры
Созданная Платформа данных может вмещать несколько модулей или работать без любого (любых) из них — количество легко варьируется в зависимости от потребностей бизнеса. Благодаря гибкости и масштабируемости она способна решать самый широкий спектр задач.
Важно отметить, что это не программный, а больше консалтинговый продукт. Команда IBS собирает, внедряет и настраивает все компоненты, исходя из нужд заказчика.
Основные компоненты системы: четыре модуля — четыре возможности
При разработке архитектуры решения команда экспертов IBS руководствовалась основными принципами, сформулированными Международной ассоциацией управления данными DAMA International. Поэтому в Платформе данных четыре больших блока: интеграционный слой, слой хранилища данных, слой аналитических сервисов и управления данными (Рис.3). Можно подключать все из них или только то, в чем есть необходимость на данный момент.
Рис.3 Концептуальная архитектура Платформы данных
Первый модуль — это интеграционный слой. Он предназначен для взаимодействия с источниками данных, реализации внутренних алгоритмов в режиме реального времени и по расписанию, выстраивания оркестрациии и мониторинга интеграционных процессов.
В слое хранилища данных хранится информация, полученная из различных внешних и внутренних источников (системы промысловых данных, капитальное строительство, геолокация и разработка, финансовые системы, корпоративные системы управления, нормативно-справочная информация и др.). При этом данные не изменяемы, историчны и распределяются по «температурным слоям» в зависимости от требований к доступности.
Слой аналитических сервисов — это набор средств визуализации, библиотек машинного обучения, областей проведения экспериментов с данными и разработки сервисов.
В блоке управления данными происходит отслеживание качества и всего жизненного цикла данных. Там же хранится единое определение бизнес-терминов.
Чтобы лучше понять функциональность модулей, стоит остановиться на каждом подробнее.
Интеграционный слой
Компоненты этого модуля забирают данные из разных источников, перекладывают полученную информацию и выполняют алгоритмическую обработку (Рис. 4).
Рис.4 Интеграционный слой
В Платформе данных интеграционный слой важен для проектирования и поддержки основных типов источников данных и методологий взаимодействия. Технология и подход к интеграции в каждом случае должен выбираться на основе анализа функциональных и нефункциональных требований к конкретному потоку. В целом Платформа может поддерживать весь спектр возникающих интеграционных задач.
Слой хранилища данных
Задача модуля — обеспечение хранения данных в соответствии с требованиями к составу, структуре, гранулярности, историчности для подготовки отчетов и проведения анализа. Хранилище данных может честно показать, что происходит в системе и что происходит на предприятии.
В этом слое объединены несколько баз данных для разных нужд и целей:
- хранение — база данных, настроенная для хранения большого объема информации с учетом частоты доступа и изменений;
- поддержка аналитических разрезов — хранилище базируется на модели данных предприятия и поддерживает предоставление информации по требуемым разрезам и предметным областям;
- поддержка историчности — данные в хранилище не создаются, а попадают из внешних систем. В случае изменений данных создается новая запись, а предыдущая сохраняется как история;
- консолидация — хранилище содержит единую консолидированную версию данных.
Рис. 5 Слой хранилища данных
В слое хранилища есть база данных так называемого «холодного хранения», где лежит информация, нужная не часто (Рис. 5). Как правило, это большие объемы данных за большой период времени, к которому редко обращаются и в которых так же редко происходят какие-либо изменения.
Выше устанавливается база данных «теплого хранения» — ARENADATA DB — российское решение на базе продукта компании Greenplum. Здесь хранятся «нормальные» данные, средние по объему, к которым могут часто обращаться, но в которых редко происходят изменения, или к которым редко обращаются, но в них часто происходят изменения.
Обе системы горизонтально масштабируются: можно использовать дополнительные серверы и за счет их мощностей увеличивать производительность. Средние объемы, которые могут храниться на этом уровне составляют порядка пяти петабайт (5242880 гигабайт) данных.
Третий уровень, так называемый «горячий». Как правило, там хранятся витринные данные, на которых строятся отчеты, выгрузки, которые нужны очень быстро, но по объему относительно небольшие. Для Платформы используется решение ClickHouse от «Яндекса».
Слой аналитических сервисов
Аналитический сервис — это программный продукт, представляющий из себя отчеты, сервисы прогнозной аналитики, набор метрик для самостоятельного создания информационных панелей.
По сути, этот модуль — транс-аналитическая система — то, с чем работают конечные пользователи. На текущий момент здесь можно выделить несколько блоков.
Первый блок — это классическая отчетность: регуляторная, управленческая, а также информационные и аналитические панели, которые помогают руководству принимать управленческие решения. Это большая классическая отчетная аналитика.
Во втором блоке находятся предиктивная аналитика, Data Science, машинное обучение — специально для потребителей данных, которые смотрят в будущее, стараются прогнозировать, делать лучше, выявлять явные закономерности и т.д.
Еще стоит упомянуть большой блок процессов управления. Здесь особенно интересны геопроцессинг — управление командной разработкой — и блок внешней интеграции с различными приложениями, ведь хранилище не только потребляет данные, но может отдавать их во вне.
Рис. 6 Умные сервисы
В слой аналитических сервисов входят (Рис. 6):
- сервисы отчетности: статическая отчетность;
- аналитические сервисы: дашборды, KPI, Drill-down, Self-service;
- сервисы на базе Machine Learning (ML-сервисы): репозиторий моделей; прогнозирование (отказы, выявление событий и пр.); экспертные и рекомендательные системы;
- промышленный интернет вещей (Industrial Internet of Things, IIOT): цифровой двойник; имитационное моделирование; планирование ресурсов; энергосбережение.
Модуль включает все необходимые инструменты для интеллектуального анализа данных, прогнозирования, визуализации и сценарного моделирования. Аналитический центр обеспечивает поддержку принятия управленческих решений, оперативный мониторинг достижения целевых показателей эффективности подразделений и организации в целом.
Управление данными
Управление данными — процесс, обеспечивающий контроль за успешным выполнением всех инициатив, связанных с данными, путем формирования целей, организационных изменений и создания политик и стандартов.
Сюда входят:
- методологический аспект: бизнес-глоссарий; политика управления данными; политика качества данных; политика безопасности; регламенты ведения данных; соответствие DMBOK;
- технологический аспект: архитектура данных; система хранения и управления мета-данными; система управления качеством данных;
- организационный аспект: совет по управлению DG; владельцы данных; процессы управления данными; роли и ответственность сотрудников.
В Платформе от IBS система управления данными включает модуль жизненного цикла данных, глоссарий данных, модули справочной информации и контроля качества данных. Обеспечение качества данных — это планирование, организация и контроль выполнения работ по применению методов управления качеством в целях обеспечения пригодности данных к использованию (Рис. 7).
Основные аспекты качества данных: полнота (отсутствие пробелов); правильность (корректность, точность, достоверность); непротиворечивость (согласованность, целостность, уникальность); актуальность (своевременность обновления или реагирования); доступность, возможность использования (годность); безопасность (защищенность).
Рис. 7 Управление данными
Цели качества данных:
- согласованный подход соответствия данных потребностям;
- определение стандартов контроля качества данных на протяжении их жизненного цикла;
- разработка процессов мониторинга и учета показателей качества данных;
- выявление, изыскание и реализация возможностей для повышения качества данных посредством совершенствования систем и процессов.
Что касается стратегии управления данными, то в нее входят принципы классификации данных и критерии качества данных, принципы и цели управления данными, жизненный цикл данных, требования к организации управления данными, базовые требования для разработки архитектуры данных и базовые процессы управления данными.
Еще один важный и большой блок в модуле управления данными — Data Governance. Ее бизнес-задача — обеспечение организационного процесса управления корпоративными данными как активом организации. Это достаточно молодое направление, имеющее свою методологическую часть, собственные стратегии и решения. Оно может закрывать возможную потребность компании в монетизации данных.
Если рассматривать данные как актив компании наравне с заводами, произведенными продуктами и проч., то они представляют сопоставимую ценность. Самый простой вариант — продажа или торговля данными. Например, компания получает много геологоразведочных данных, которыми может обмениваться с другими, делиться полученной информацией. Пропуская их через модуль Data Science, можно узнать, например, что в конкретных точках нет нефти, но с высокой вероятность есть уран. Тогда можно продать эти данные заинтересованным компаниям. Data Governance помогает и с неявной монетизацией. Постоянный мониторинг данных, оптимизация процессов компании экономят значительные материальные ресурсы и повышают экономическую эффективность.
Бизнес-эффекты, технологические и функциональные преимущества для компаний нефтегазовой отрасли
Платформа данных, разработанная экспертами IBS, представляет собой надежную кастомизированную инфраструктуру, адаптивную к целям, задачам и потребностям различных предприятий. Система способна решать самые сложные задачи по обработке данных любого формата и объема, хранению, управлению, аналитике и интеграции.
Эффективное использование данных улучшает работу предприятия нефтегазового сегмента, сокращает излишние расходы, увеличивает эффективность добычи нефти и газа на действующих месторождениях, повышает безопасность и многое другое. А определить значимые данные, выбрать и настроить необходимые модули, построить и проверить гипотезы, используя аналитические решения, поможет проверенный внешний партнер.
Результаты использования Платформы данных:
- повышение производственной и экономической эффективности (за счет использования только необходимых модулей);
- поддержка требуемого уровня качества данных;
- гибкое управление сервисами;
- консолидация и мета-описание информации для удобства использования;
- минимизация операционных и санкционных рисков;
- сокращение затрат на владение IT-решениями;
- сокращение времени на принятие решений.
Ключевые преимущества:
- обеспечивается высокая производительность и масштабируемость решений;
- проверка гипотез и выявление причинно-следственных связей средствами многомерного анализа данных;
- настройка процессов сбора данных с распределенных организационных структур и их согласование;
- решение задач нескольких подразделений компании в рамках одной платформы;
- работа через интернет-браузер без установки дополнительного программного обеспечения;
- работа с версиями данных и структур, гибкая система хранения показателей;
- полностью российская разработка, нацеленная на импортозамещение.
Источник: Газовая промышленность, № 11, 2021
Москва, ул. Складочная,
д. 3, стр. 1