2020/11/27 22:50:08

Почему внедрение ИТ-систем не приводит к ожидаемому эффекту? Зри в корень

По мере развития ИТ-ландшафтов и увеличения количества и многообразия ИТ-систем предметом возрастающей критики и недовольства конечных пользователей становятся проблемы качества данных. ИТ-директора рассматривают варианты возможных решений, но рынок может предложить только точечные решения для специализированных задач. В статье, подготовленной специально для TAdviser экспертом Алексеем Еремяшевым, предлагается комплексный взгляд на проблему некачественных данных и стратегию управления их качеством.

Содержание

Управление качеством данных как самостоятельная область
- История вопроса
Оценки рынка
- 2019: Магический квадрант Gartner
Проблема качества пользовательских данных
Как управлять качеством данных на практике
- Внедрение
- Ответственность за данные
Перспектива развития управления качеством данных
Развитие управления качеством данных в России
- 2020: Российский Центр Аналитических Систем предложил сделать качество данных основой цифровой трансформации
Предложение для бизнеса
Читайте также
Примечания

Наибольшего успеха добивается тот, кто располагает лучшей информацией

Бенджамин Дизраэли, английский государственный деятель

Эра умных устройств перерастает в эру умных систем. Предоставляя персональные сервисы об отслеживании мероприятий, маршрутов передвижений, оптимальных корзин покупок, умные устройства передают эту информацию в умные системы. И вся информационная среда адаптируется под индивидуальные предпочтения.

На Петербургском международном экономическом форуме 2017 много говорили о роли современных информационных технологий. Президент России Владимир Владимирович Путин в одном из пленарных заседаний четко высказался о государственных приоритетах создания и развития цифровой экономики:

Мы способны добиваться лидерства по ряду направлений новой экономики, прежде всего цифровой. Российские ИТ-компании, безусловно, глобально конкурентны. Либо мы возглавим этот процесс, либо будем еще более зависимы.

И бизнес должен принять этот вызов и научиться работать по новым правилам. Научиться - это значит разобраться в тенденциях, увидеть новые возможности и своевременно ими воспользоваться.

Глобальные задачи являются драйверами стремительного развития во многих областях деятельности общества. Они приводят к множеству научных открытий, созданию прогрессивных технологий и появлению на рынке новых продуктов и услуг.Эволюция в развитии российских средств защиты от сетевых угроз: как Kaspersky NGFW меняет расстановку сил на рынке

Согласно статистике The Standish Group, процент успешно реализованных ИТ-проектов в Европе составляет около 30%. При этом, для мелких проектов (до $1 млн) этот процент существенно выше (больше 70%), чем для крупных проектов (10%).

Несмотря на сложность сбора реальной статистики, эксперты подтверждают, что ситуация на постсоветском пространстве не лучше. Как правило, проекты выполняются с задержками сроков, часть заявляемой функциональности не работает или работает в полуручном режиме, доработка функциональности осуществляется под предлогом развития систем.

Критичность ситуации вызвана не столько соблюдением проектных ограничений, сколько не достижением эффектов заявленных при защите инвестиций в ИТ. Можно говорить о сложности определения и оценки эффектов от внедрения новых ИТ-систем, но отсутствие постинвестиционного контроля приводит к подмене бизнес-целей на формальное выполнение требований. Как следствие, эффективность ИТ-систем оказывается существенно ниже, чем могла бы быть при грамотном подходе.

Существует множество факторов, обуславливающих сложившуюся ситуацию, и каждый из них требует фундаментальных исследований и отдельного анализа причин. Данная статья раскрывает один из ключевых аспектов эффективности ИТ - качество используемых данных.

Управление качеством данных как самостоятельная область

В основе всех информационных технологий лежат цифровые данные. Глобальная «цифровизация» приводит к гигантским объемам данных. Невозможно говорить о развитии ИТ без понимания природы данных и технологий работы с ними.

По прогнозам IDC, к 2020 году цифровая вселенная достигнет объема в 40 зеттабайт, что в 57 раз больше, чем количество песчинок на всех пляжах планеты.

Среди экспертов часто можно услышать ставшую своеобразным мемом фразу Клайва Хамби: «Данные — это новая нефть XXI века». Выражение отражает одну из ключевых задач современной индустрии ИТ. Как и нефть, данные это сырье для производства нового технологичного товара - знания. Информационные технологии должны не просто собирать и хранить данные, а повышать их полезность, добывая из них информацию и превращая ее в знания. Другими словами, современные тенденции показывают необходимость перехода от «сырьевой экономики», генерирующей огромные объемы малополезных данных, к сложным аналитическим и интеллектуальным системам. И если в рамках ручного труда над отчетностью пользователь мог исправлять огрехи в данных, то для такого рода систем требуется высокое качество первичных цифровых данных. Недостоверные данные ведут к неверным решениям.

В сложившейся практике направление, объединившее технологии и решения для повышения полезности (качества) данных, называют «Управлением качеством данных». Следует понимать отличие этого направления от технологий их анализа, таких как «дата майнинг», «машинное обучение», «прогнозная аналитика». Анализ данных нацелен на создание качественно новой информации, предоставляющей нам новые знания, напрямую не содержащиеся в исходных данных. Управление качеством данных обеспечивает нам полезность цифровых данных, ценность каждого машинного бита.

В России рынок ИТ только развивается и достаточно слабо представлен комплементарными услугами, ориентированными на повышение общей эффективности ИТ-систем. Услуга управления качеством данных - один из таких вспомогательных сервисов, направленных на повышение отдачи от инвестиций.

По мере развития ИТ-ландшафтов и увеличения количества и многообразия ИТ-систем проблемы качества данных становятся предметом возрастающей критики и недовольства конечных пользователей. ИТ-директора рассматривают варианты возможных решений, но рынок может предложить только точечные решения для специализированных задач.

Для понимания технологии и перспектив развития направления «Управление качеством данных» необходимо обратиться к истории развития информационных систем и эволюции предлагаемых решений.

История вопроса

Вопросами управления данными занимались с самого начала развития компьютерных технологий. По мере роста объемов данных и их разнородности встал вопрос систематизации и стандартизации подходов к их структурированию и хранению.

Одними из первых в развитии направления управления данными были аналитики из компании IBM. В 1968-ом году была предложена концепция базы данных (БД), предопределившая дальнейшее развитие. А в 1981 Эдгаром Франком Коддом была окончательно сформулирована реляционная модель данных, которая легла в основу разработки реляционных баз данных и стандарта программного управления данными на основе языка SEQUEL, позже переименованный в SQL. Реляционная модель данных и SQL по сей день являются популярными при проектировании и реализации баз данных. Успехи ученных позволили компании IBM создать первую промышленную базу данных IBM System R.

В теории реляционных баз данных были заложены важные концепции независимости слоев физического хранения данных, логической модели и интерфейсов управления данными. Проработанная методология нормализации на основе правил «нормальных форм» позволяла добиться требуемого уровня согласованности данных за счет внутренних механизмов программного обеспечения системы управления базами данных (СУБД).

Казалось, еще один шаг и в большинстве крупных компаний появятся корпоративные БД для сохранения всех промышленных данных организации. Шло время, развивались функциональные возможности баз данных, разрабатывались новые программные продукты, но единой корпоративной базы данных так и не появилось. Почему? Для ответа на данный вопрос требуется еще глубже погрузиться в историю и внимательнее посмотреть на эволюцию информационных технологий.

На заре развития компьютеров, в 1946 году, группа ученых пенсильванского университета во главе с Джоном фон Нейманом предлагают принципиально новую архитектуру использования компьютерной памяти. Данные о перечне выполняемых команд программы сохраняются в одной области с обрабатываемыми данными. Это значило, что больше не требуется физической реализации логики программ с помощью «перемычек» и, что самое революционное, программа могла модифицировать последовательность командного кода исходя из результатов своих вычислений. После публичного распространения трудов, инженеры сразу оценили гениальность идеи, и первые два поколения ЭВМ создавались именно по архитектуре фон Неймана.

Несмотря на то, что программные и обрабатываемые данные в ЭВМ оказались в одной области памяти, природа и процессы их формирования остались разными. Программные данные, определяющие логику работы, определяются в процессе разработки программы. Обрабатываемые данные (корпоративные, пользовательские) создаются и обрабатываются в результате работы программы.

Компьютеры усовершенствовались, программы усложнились, появились базы данных, а подход к физическому хранению разнородных данных в одной области памяти остался прежним. Базовой причиной сохранения жесткой дифференциации данных стало выделение ролей разработчика и пользователя программного продукта. Необходимо было обеспечить, чтобы пользовательские данные не могли нарушить работу программы.

Конечно, есть нюансы рассматриваемой классификации. В зависимости от подходов к реализации, тождественные данные в разных программных комплексах могут интерпретироваться по-разному. Исторически, при дальнейшем развитии ПО, из пользовательских данных произошло выделение еще одного типа данных - «настройки», позволяющей пользователю влиять на логику работы программы в рамках преднастроенных возможностей. Для сложных систем даже появились отдельные профессии, связанные с настройкой специализированного программного обеспечения.

Ключом к решению проблемы управления качеством данных является применение принципиально разных подходов при работе с каждым из трех типов данных. Если качество программных данных находиться полностью в зоне управления программиста, то обеспечение качества пользовательских данных - гораздо более сложная задача. Она требует комплексных мер, в том числе и организационных, со стороны самого пользователя.

Оценки рынка

2019: Магический квадрант Gartner

В конце марта 2019 года аналитическая компания Gartner выпустила магический квадрант в области программного обеспечения для управления качеством данных.

На момент публикации магического квадранта (27 марта 2019 года) последний подсчет продаж инструментов для управления качеством данных эксперты Gartner сделали за 2017 год. По итогам этого периода объем рынка достиг $1,61 млрд, увеличившись на 11,6% относительно 2016-го.

По словам специалистов, решения для управления качеством данными обрели очень высокую важность для цифровой трансформации компаний, особенно тех, кто пользуется такими развивающимися технологиями, как автоматизация, машинное обучение, облачные вычисления и бизнес-ориентированные рабочие процессы.

Основной клиентский спрос на такой софт касается четырёх точек: аудитории, управления, разнообразия данных и времени задержки запросов. Производители ПО для управления качеством данных отдают предпочтению следующим направлениям: аналитике, интеллектуальной обработке данных, внедрению решений и ценообразованию.

В терминологии Gartner под «качеством данных» понимаются процессы и технологии выявления, понимания и исправления недостатков в данных, которые поддерживают эффективное принятие решений и управление информационными потоками в рамках операционных бизнес-процессов. Готовые к использованию инструменты, как правило, включают такие важные функции, как профилирование и синтаксический анализ текстовой информации, стандартизация, очистка, сопоставление, пополнение данных и мониторинг.

Магический квадрант Gartner в области решений для управления качеством данных

Лидерами этого рынка к 2019 году эксперты Gartner назвали следующие компании:

Informatica;
SAP;
IBM;
SAS;
Oracle;
Talend;
Sysort.

SAP развивает такие решения для управления качеством данных, как SAP Smart Data Quality, SAP Information Steward, SAP Data Services и SAP Data Hub. У этих продуктов насчитывается 14 тыс. клиентов к моменту составления аналитического отчета.

К числу основных достоинств SAP исследователи отнесли быстрое развитие новых функций и инноваций, сильную поддержку сообщества и широкие возможности использования продуктов в разных сценариях, в том числе в Big Data, аналитике и интеграции.

Что касается критики SAP, то она связана с трудностями интеграции продуктов компании со сторонними инструментами, высокими ценами и сложной схемой лицензирования. Кроме того, некоторые заказчики указывают на необходимость доработки пользовательского интерфейса в решениях SAP, чтобы сделать визуализацию бизнес-данных более наглядной.

Главным продуктом Oracle в области управления качеством данных является Oracle Enterprise Data Quality. Им пользуются 550 клиентов (к марту 2019 года). Большинство из них хвалят вендора за возможность применять ПО к различным областям, за профилирование данных и сильный бренд. При этом основное недовольство Oracle вызвано завышенными ценами, низким уровнем поддержки продуктов и слабо подготовленной документацией, а также недостаточным вниманием компании моделям развёртывания ПО через SaaS и облака.

У IBM отмечают глубокое понимание рынка, правильную стратегию, своевременное развитие инноваций и доступные цены на продукты. В то же время компания отстаёт от конкурентов, когда речь идет об обновлении продуктов или переходе на софт IBM с конкурирующих решений. Также заказчики говорят о проблемах интерактивной визуализации результатов работы софта и низком уровне технической поддержки продуктов. Несмотря на это, к марту 2019 году IBM собрала базу из 2500 клиентов, пользующихся системой управления качеством данных IBM InfoSphere Information Server for Data Quality.^[1]

Проблема качества пользовательских данных

Рассмотрим проблему пользовательских данных в БД. Принципы, заложенные в концепцию реляционных баз данных, с энтузиазмом были восприняты и использованы разработчиками программного обеспечения. Базы данных повсеместно используются для хранения всех трех типов данных: внутренней системной информации (программных), настроек, пользовательских данных.

Для системных данных все прекрасно. Принципы независимости слоев позволяют разработчику программы менять структуру данных, не погружаясь в вопросы организации их физического хранения. А реализованные в СУБД правила и ограничения реляционной модели данных обеспечивают их целостность.

Одним из примеров исключений является продукт компании Microsoft - Excel. Несмотря на то, что в нем не поддерживается целостность, удачная реализация принципа независимости пользовательских данных и простота использования обеспечили MS Excel фантастический успех.

С пользовательскими данными - по-другому. Пользователь работает с интерфейсами программ, не имея прямого доступа к организации структуры хранения данных. В то время как сам программный продукт не соответствует правилам, определенным в манифестах о системах управления данными в БД. Большинство программ не поддерживают принцип независимости структуры пользовательских данных от функций программы.

Конечный пользователь видит корпоративные данные через логику программных интерфейсов и преднастроенных отчетов. Любая необходимость изменения структуры данных, а иногда и просто появление новых значений, вынуждает пользователя обращаться к программисту для внесения модификаций в программный код или настройки системы.

Нарушение принципов независимости слоев стало одним из основных источником проблем обеспечения качества пользовательских данных в современных информационных системах.

Появление ERP-систем как попытка решить проблему лоскутной автоматизации

Проблема качества сильно усложняется, если программных продуктов становится несколько. Развитие информационных технологий и их активное использование приводит к неизбежному увеличению количества программ, которые вынуждена использовать компания. Сложившаяся ситуация получила нарицательное название «лоскутная автоматизация».

Проблема управления данными в отдельно взятом программном продукте может быть решена адаптацией пользовательских данных к структуре программы и реализацией специализированных проверок, следящих за целостностью данных.

Если программ много и в каждой программе используется своя база данных со своей структурой, то адаптировать структуру данных под каждую из них невозможно. А также крайне трудно реализовать механизмы передачи данных, которые бы обеспечивали целостность данных между интегрируемыми ИТ-системами.

Следствия: многократный ввод одинаковой информации, несогласованность при работе в различных информационных системах, высокие транзакционные издержки на выверку данных.

Последствия: снижение доверия у заказчика к информационным технологиям и эффективности инвестиций в ИТ.

Для решения возникших сложностей эксперты рынка предложили пойти по пути глобализации информационных систем. Например, для автоматизации бизнес-процессов в 1990 году аналитики компании Gartner закончили формировать концепцию системы класса Enterprise Resource Planning (ERP)¹. Ее суть - построение единой информационной системы на глобальной масштабируемой универсальной платформе (одной программе). Предполагалось, что с ее помощью можно автоматизировать все внутренние процессы управления предприятием, и она будет работать на одной базе данных, обеспечивая сквозную целостность корпоративных данных.

В конце XX века ERP преподносилось как универсальное решение взамен лоскутной автоматизации. Миру были представлены высокотехнологичные платформы от известных лидеров ИТ рынка: Oracle, SAP (выделилась из IBM), Microsoft. Качественным преимуществом предложенных продуктов стал очень высокий уровень проработанности и масштабность решений.

Культура разработки программного обеспечения активно развивалась и использовать комплексные технологии разработки могли позволить очень крупные корпорации с мощными научно-аналитическими центрами. Рынок программистов только формировался и небольшие ИТ-компании не могли создать качественную производственную базу.

Разрушение надежд

Образно говоря, логика эволюции не имеет компромиссов. Глобальные информационные платформы, как «гиганты динозавры», оказались промежуточным звеном в эволюции информационных систем. По мере усложнения бизнес-процессов предприятий и все ускоряющегося развития информационных технологий, сложность универсальных программных комплексов непрерывно увеличивалась. Стремясь за максимальным покрытием процессов автоматизации, функциональность глобальных систем становилась катастрофически огромной (например, количество таблиц в SAP ERP превышает 1,5 миллиона), а объем обрабатываемых программами данных удваивается каждые два-три года².

Вносить изменения в системы «монстры» становилось все сложнее, дороже и дольше. В итоге, в начале 2000-ых годов специализированные решения начали теснить ИТ-гигантов и в ИТ-ландшафте стало появляться все больше смежных систем.

Чтобы успеть за рынком, ERP-производители сместили свои усилия с собственных разработок в сторону приобретения компаний сегментных лидеров и их интеграции в свои платформы. Рынок накрыла волна консолидации.

В качестве подтверждения, на магическом квадранте Gartner для BI-систем за 2008 год мы видим в лидерах продукты от Cognos и Business Objects. Год спустя, эти продукты уже входят в линейки решений IBM и SAP, соответственно.

Но развитие информационных технологий происходило все быстрее и детерминировало дальнейшее усложнение решений. Какие бы усилия не предпринимали производители ERP, что бы не придумывали их менеджеры, это уже не могло переломить наметившиеся тенденции:

Снижение качества внедрения ИТ-систем, связанное с разнородностью рынка потребителя.
Сложность перехода на новые версии продуктов. Высокий объем доработок и модификаций стандартной функциональности системы с накоплением числа пользователей по мере их эксплуатации.
Длительный процесс внедрения системы, приводящий к несоответствию полученного результата постоянно меняющимся потребностям бизнеса.
Существенное время включения новых перспективных информационных технологий в продуктовую платформу.
Рост в ИТ-ландшафте количества корпоративных систем сторонних производителей и геометрический рост требуемых интеграционных потоков.

Как следствие, положительные эффекты от внедрения ERP-систем с лихвой перекрываются отрицательными. Предприятия скатываются обратно к «лоскутной автоматизации», а качество данных вновь становиться основной проблемой пользователей.

Осознание важности

Существующий ИТ ландшафт - рабочий. Но это антиквариат. Нам нужна не флорентийская мозаика, а "LEGO", чтобы было просто и удобно

Алиса Мельникова, экс-руководитель «Сбербанк-Технологий», глава департамента финансовых технологий, проектов и организации процессов ЦБ.

Во втором десятилетии XXI века отчетливо наметился отказ от идеи глобальных систем. Это хорошо видно на примере позиционирования крупных игроков. В частности, компания SAP больше не хочет ассоциироваться с ERP-системой и смещает фокус маркетинга на инновации в ИТ.

С другой стороны, менеджмент компаний, активно развивающий ИТ-направление для поддержки бизнеса, начал осознавать, что вопросы качества не решить простым формулированием требований на этапе закупок и «сложа ручки» ожидая результата. Решение вопросов эффективности ИТ-активов и качества корпоративных данных лежит в области внутренних процессов управления компанией. Необходимо внедрение новых централизованных процессов, обеспечивающих решение поставленных задач.

Подтверждение этому можно легко найти в ИТ-стратегиях компаний-лидеров. Программы их развития включают много сервисных проектов, таких как формирование корпоративной модели данных и развитие систем мониторинга. Популярность поисковых запросов в области качества данных за последние годы выросла в десятки раз.³

В отличие от других ИТ-сервисов⁴, сервис управления качеством данных получил распространение сравнительно недавно. Например, проблемами управления ИТ-архитектурой американские институты занимаются уже более 20 лет. В результате были сформированы и получили широкое распространение по всему миру подходы TOGAF, FEA, Gartner. В области качества данных можно найти лишь ряд специализированных решений по управлению транзакционными справочниками⁵. Управление нормативно-справочной информацией - важная задача, но эта одна из многих задач. Достоверность данных, их доступность и согласованность в различных ИТ-системах требует комплексного подхода. Требуется серьезная научно-аналитическая работа, позволяющая проработать все аспекты управления качеством данных на каждом этапе их жизненного цикла.

Проблема интеграции систем

Отдельно стоит отметить остроту вопроса обеспечения качества в процессах интеграции. На технологическом уровне существует множество стандартизованных программных интерфейсов для передачи самых различных данных: о документах, событиях, метаданных (данные о структуре данных) и многих других типов. Крупные интеграционные платформы поддерживают многие из них, что позволяет без труда настроить соединение и осуществлять передачу данных.

С другой стороны, отсутствие стандартов, определяющих жесткие правила управления данными внутри программных продуктов и алгоритмов их подготовки для передачи, приводит к несовместимости данных на уровне логических структур. Проще говоря, вы сможете передать данные, но автоматически правильно интерпретировать данные в системе получателя не удастся.

В итоге, реализация в интеграционном интерфейсе требуемой структуры и формата данных дорабатывается отдельно для каждой точки интеграции. В чем сложность таких разработок и почему они постоянно «ломаются»? Как говорилось выше, каждая система обладает своей логической структурой данных со своими справочниками. При интеграции необходимо преобразовать данные из одного набора справочников в другой набор справочников с другим перечнем значений. Это требует проработки алгоритма преобразования не просто на уровне полей справочников, а для каждого значения целевого справочника.

В свою очередь, разработка алгоритмов на уровне значений справочников требует знание предметной области и специфики бизнеса конкретного клиента. Простым разработчикам ПО эту задачу не решить. В итоге, возникает целая группа специалистов, которая формализует алгоритмы, скрупулезно программирует, тестирует и тщательно выверяет все данные.

Теперь представим, что в исходной системе меняется функциональность или значения ключевого справочника. На практике не всегда возможно даже предсказать место, где возникнет ошибка. Необходимо проводить ручную выверку данных, идентификацию ошибок, доработку алгоритмов, реализацию, тестирование. Поддержка интеграций превращается в перманентный и дорогостоящий процесс с низким доверием к результатам работы.

Формирование стандартов управления качеством данных позволило бы сделать процесс более управляемым и эффективным за счет системного и проактивного подхода. Как и в любой системе качества, цель управления качеством данных - решать вопросы до того, как это выльется в брак данных, где цена ошибки окажется очень большой.

Грамотное управление качеством позволит избежать необходимости многократного ввода первичных данных, снизить издержки на поддержку информационных систем и их интеграционных связей, повысить оперативность и достоверность корпоративных данных. И конечно, стандартизация управления качеством данных должна стать базовой основой для превращения ИТ-ландшафта из «мозаики» в «LEGO».

Как управлять качеством данных на практике

Дисциплина управления качеством данных по состоянию на 2017 год находиться в мировом тренде и ее активно развивают специалисты по всему миру. Среди наиболее популярных экспертов можно отметить Давида Лошина (David Loshin), Филипа Рассома (Philip Russom), Мартина Оберхофера (Martin Oberhofer), чьи труды уже завоевали широкую популярность.

Базовое понимание и подходы к управлению качеством данных достаточно хорошо проработаны научным сообществом. В настоящее время идет проработка и развитие новых практик с учетом произошедших за последнее время в ИТ инноваций. Идет активная проработка новых решений и их апробация в компаниях «пионерах».

Определение качества данных формулируется как обобщенное понятие полезности данных, формализуемое в определенном наборе критериев. Для корпоративных данных информационных систем управления принято выделять следующие шесть критериев: востребованность, точность, согласованность, своевременность, доступность и интерпретируемость⁶. Для каждого критерия определяется набор ключевых показателей эффективности (КПЭ) и прорабатываются практики, улучшающие их.

Перечень практик, составляющих основу управления качеством данных, достаточно большой и он постоянно расширяется. В связи с новизной направления и отсутствием пока единых стандартов, для многих из практик не существует специализированного ПО и отсутствует необходимая функциональность в ИТ-платформах. Внедрение практик носит больше организационный характер и требует существенных доработок ИТ-систем. Но это вопрос времени.

Практики выражаются в наборе требований к функционированию существующих процессов в компании, которые бы обеспечивали определенные аспекты качества данных.

Приведем примеры практик, использование которых позволило бы выстроить полноценный процесс управления качеством данных:

требования к ИТ-архитектуре;
требования к методическому обеспечению процессов ИТ;
требования к процессам обучения обеспечения качества в ИТ-системах;
требования к функциональности ИТ-систем по обеспечению качества данных;
требования к проведению тестирований и используемому пилотному объему данных;
требования к передаче системы в эксплуатацию;
требования к процессам поддержки ИТ-систем;
требования к процессам управления изменениями;
требования к информационному пространству пользователей;
требования к ведению описания данных (стандартизация);
требования к профилированию и мониторингу данных;
требования к управлению интеграционным взаимодействием;
требования к контролю межсистемной целостности данных;
требования к управлению ответственностью и процессам согласования.

Внедрение

Не обязательно подходить к проблеме управления качеством данных революционно. Внедрять практики рекомендуется с использованием итерационного подхода (например, по методологии Agile). Необходимо выбрать наиболее критичные области данных и связанные с ними ИТ-системы и процессы. Определить целевые значения критериев качества и подобрать наиболее эффективные практики. Для каждой практики разрабатывается индивидуальный план мероприятий и контролируется их результативность. В дальнейшем, накопленный опыт тиражируется на другие области данных или расширяется новыми критериями и практиками.

По информации Института хранилищ данных (The Data Warehouse Institute, TDWI), компания регулярно сталкивается с организациями, которые применяют только один метод, причем порой лишь к одному набору данных или предметной области. Большинство решений для обеспечения качества данных должны расширить количество применяемых технологий, наборов данных и предметных областей.

Важно отметить, что процесс управления данными в компании должен быть организован как централизованный и желательно определен на уровне ИТ-стратегии компании. Сами принципы и подходы управления качеством данных фиксируются в специально документе - меморандуме о качестве данных. При разработке меморандума важно учесть два фактора.

Во-первых, управление качеством данных нельзя рассматривать как обособленный и самодостаточный процесс. Положения меморандума должны быть взаимоувязаны с другими процессами управления ИТ, которые должны быть адаптированы соответствующим образом.

Во-вторых, меморандум - не законодательный документ, который должен быть создан и лежать на полке. Процесс управления качеством должен постоянно работать и непрерывно улучшаться.

Ответственность за данные

Отдельно стоит обратить внимание на ответственность за данные. Аналогично бюджетному управлению, процесс управления качеством данных - это сквозной процесс в рамках операционных процессов предприятия. По аналогии с центрами финансовой ответственности должен быть сформирован институт владельцев данных (Data Stuard). Их задача обеспечивать процессы управления качеством и безопасности данных в зоне своей ответственности. Важно отметить, что зона ответственности определяется только природой данных и не зависит от ИТ-систем, где эти данные используются.

В свою очередь, директор по ИТ (CIO) отвечает за процесс управления качеством в целом. Его обязанность обеспечить функционирование и исполнение процедур со стороны ИТ-службы, контролировать уровень сервиса и способствовать повышению эффективности используемых практик.

Менеджмент компании должен понимать, что процесс управления качеством данных не может быть решен только за счет службы ИТ. Ее задача - выполнять сервисную функцию для бизнеса и отвечать в рамках исполнения поставленных задач. ИТ-специалисты не могут полностью самостоятельно определять структуру данных, логику их обработки, правила наполнения справочников и алгоритмы формирования отчетности. Заказчиком ИТ-систем являются подразделения компании, заинтересованные в повышение эффективности своей работы. Они должны добиваться от ИТ-службы качественных и удобных ИТ-инструментов и адаптировать свою работу под их грамотное использование.

Перспектива развития управления качеством данных

Специалисты TDWI сформулировали основные направления, по которым происходит современное развитие дисциплины управления качеством данных. Их понимание позволяет правильно оценить перспективы направления и сформировать приоритеты развития.

Развитие новых практик и технологий по обеспечению качеству данных

Как писалось выше, в информационную эру постоянно возникают новые тренды и направления развития информационных технологий. Соответственно, для них необходимо непрерывное развитие новых и адаптация существующих практик.

Обеспечение качества данных в реальном времени

В соответствии с исследованием TDWI, обеспечение качества данных в реальном времени - это вторая по популярности быстро развивающаяся дисциплина после управления мастерданными. Филип Рассом рекомендует наделить её высоким приоритетом, чтобы сохранить согласованность данных между системами.

Координация с другими дисциплинами

Управление качеством данных выстраивается на основе уже сложившейся информационной среды. Внедрение практик управления качеством должно осуществляться в контексте уже сложившихся дисциплин, таких как управление ИТ-архитектурой и управление проектной деятельностью. Например, в проектную документацию системы должен включаться раздел с описанием автоматизированного контроля, а регламент обслуживания системы должен включать мониторинг автоматизированных отчетов по проверкам пользовательских данных.

Углублённое профилирование

Профилирование данных проводится зачастую поверхностно и отдельно для каждого справочника. Грамотное профилирование, выполненное на основе логической модели данных с анализом зависимостей между справочниками, позволяет определить более сложные уязвимости для качества данных. Обязательное профилирование должно производиться для данных, участвующих в интеграционных потоках между системами.

Разработка специализированного программного обеспечения

Многие решения для обеспечения качества данных первого поколения были самописными внутренними разработками. Такие решения демонстрируют востребованность программной автоматизации задач обеспечения качества данных. Собственные разработки, как правило, не соответствуют требованиям промышленных решений. Их практическая ценность не высока из-за невозможности тиражирования между ИТ-ландшафтами различных компаний. Да и возможности развития функциональности таких решений, в большинстве случаев, ограничены отсутствием масштабируемой архитектуры.

Развитие управления качеством данных в России

Информационные технологии в России активно развиваются. За счет развития цифровой экономики и нашего главного ресурса – талантливой молодежи, страна может сделать качественный рывок и составить конкуренцию мировым лидерам.

Милгром и Робертс утверждали, что экономическая эффективность ИТ обусловлена не только и не столько самими инвестициями в ИТ, сколько изменениями комплементарных сервисов, связанных с ИТ-активами. Инвестиции в активы и развитие направлений, призванных повысить эффективность самих ИТ, обеспечивают мультипликативный эффект.

Мы можем видеть энтузиазм и результаты отдельных компаний, решивших выполнить задачу внутри своего ИТ-ландшафта. На рыке ИТ-услуг встречаются отдельные эксперты, готовые развивать новое направление и проработать технологию процесса предоставления и оказания услуги.

Безусловно, это способствует созданию практической базы и формирует основу для дальнейшего развития. Но разрозненные действия участников рынка не позволяют обеспечить консолидацию, обработку и преемственность накопленного опыта. Успешные решения, созданные в условиях рынка, защищаются компаниями как конкурентное преимущество. Отсутствует институциональная основа, способная собирать знания для проведения фундаментального анализа, разработки технологии и формирования единых стандартов. Без этой основы мы не можем надеяться на значимые успехи и создание эффективных решений в данной области.

Информационные технологии развиваются с огромной скоростью. Реализация амбициозных задач выхода в ИТ-лидеры может быть выполнена только совместными усилия правительства, бизнеса, научного и образовательного сообщества. Необходимо принятие комплексных мер по построению общей экосистемы (хорошим примером является сообщество на базе стандартов института управления проектной деятельностью PMI):

Формирование научных институтов, занимающихся проблематикой в ИТ и регулярно обновляющие стандарты.
Развитие экспериментальной базы на основе компаний государственного сектора.
Выделение образовательных дисциплин для программистов и ИТ-консультантов, с оперативным обновлением программы дисциплины.
Создание стандартов в области управления ИТ и школы ИТ-менеджеров.
Развитие сертификатов в области ИТ (посвящённых практике управления ИТ, и не ограничивающихся вопросами безопасности и условий труда).
Поддержка на государственном уровне за счет законодательных инициатив, формирующая инкубационную среду, защищенную от угроз международных корпораций.

В США по данной тематике работают государственные институты и мощные аналитические центры крупных компаний. Наивно полагать, что Запад будет делиться своими наработками. Инновационные технологии развивающимся странам предоставляются с заметной временной задержкой. Это требуется для обеспечения технологического лидерства корпоративных ИТ-гигантов, позволяющего им спокойно организовывать производственный процесс, занимать основные позиции на рынке и снимать сливки.

Мы должны конкурировать с Западом на уровне скорости развития научной базы, технологий производственных процессов, качества и стандартов. Стандарты должны регулярно обновляться, и среда должна максимально быстро под них адаптироваться.

Для ИТ, с большой скоростью изменений и коротким жизненным циклом активов, эффект лидера – определяющий. В отличие от товарного рынка, на рынке ИТ стоимость копирования ничтожна мала и лидеру достается все.

2020: Российский Центр Аналитических Систем предложил сделать качество данных основой цифровой трансформации

27 ноября 2020 года стало известно, что российский Центр Аналитических Систем (ЦАС), специализирующийся на разработке, внедрении и консалтинге в области анализа данных и цифровой трансформации бизнеса, представил концепцию цифровой трансформации «Дата-грамотность и качество данных – два основных тренда цифровой трансформации в госуправлении» (Алексей Мамонов, генеральный директор ЦАС).

Реальный переход к цифровой модели управления (Data-driven) сильно буксует из-за двух основных проблем – недостаточного уровня грамотности чиновников в работе с данными, а также низкого качества данных, содержащихся в государственных информационных системах. По данным ЦАС и других аналитических источников, в 2019 году на каждого человека приходилось почти пять тысяч операций, основанных на данных, и эта цифра неуклонно растет. В то же время лишь 24% лиц, обязанных принимать решения на основе точной информации, умеют грамотно работать с данными (могут их «читать», анализировать и использовать как необходимую базу для своей повседневной работы).

Не менее важным условием для перехода к цифровой экономике является качество данных (степень пригодности данных к использованию). Это ключевой показатель для возможности построения «цифровых двойников» – копий процессов или объектов реального мира в информационных системах, – что по мнению многих экспертов, является основой цифровой экономики. Некорректность, неполнота и неактуальность исходных данных делают такие модели настолько искаженными, что масштабный переход к управлению на основе данных становится невозможным. Например, даже в наиболее достоверных государственных реестрах все еще присутствует значительная доля «грязных» данных (так, на ноябрь 2020 года в открытых данных ФНС содержатся сведения о 39 000 предприятиях, прекративших деятельность раньше, чем были они были зарегистрированы, есть записи, где на один ИНН приходится несколько десятков предприятий, а по открытым данным московского правительства в городе числятся дома, площадь которых превышает 4 млн. кв. м. и жилье площадью всего 1 кв. м.). Более того, значительная доля государственных ИС содержит данные, которые трудно назвать иначе, чем «цифровой мусор». Такое положение дел не дает возможности принимать обоснованные решения на основе данных, поскольку именно государственные информационные системы и предоставляемые ими открытые данные призваны служить единым достоверным и наиболее надежным источником информации для аналитических систем государственных и частных компаний.

Исправление ситуации необходимо начать с создания целостной стратегии управления данными в организациях и распространения грамотности работы с данными. При создании информационной системы, ее заказчику и оператору необходимо ответить на главный стратегический вопрос: какую ценность будет представлять эта система через несколько лет с точки зрения накопленных данных. В противном случае тратить на такую систему время и деньги не имеет смысла.

Грамотность работы с данными (Data Literacy) – направление деятельности внутри организаций, которое усиливает свое значение во всем мире. Это направление охватывает четыре основных навыка сотрудников организаций – умение читать данные (понимать, что означают те или иные показатели); владение аналитическими инструментами для работы с данными (например, BI системами); понимание, как анализировать эти данные и, наконец, способность аргументировать с помощью данных принятие решений. Ллетом 2020 года в России стартовал проект dataliteracy.ru как часть международного проекта thedataliteracy.org, призванный помочь организациям максимально быстро повышать уровень дата-грамотности своих сотрудников.

По словам Алексея Мамонова, идеальной с точки зрения управления на основе данных является ситуация, когда все необходимые для принятия решения данные, независимо от их физического расположения, организованы в единый каталог, доступный для анализа в соответствии с правами доступа. В качестве инструмента при этом должна использоваться быстрая BI-система, предоставляющая возможность самостоятельного исследования данных (например, конструирования дашбордов без привлечения ИТ специалистов) и поддерживающая запросы на естественном языке (в т. ч. голосом). Если управленец, зная актуальную повестку, может также видеть точную картину происходящего («цифровой двойник»), то и принимаемое решение становится наиболее уверенным или даже очевидным.

Предложение для бизнеса

В современном мире для выхода в лидеры необходимо избавиться от рудиментарных привычек производить оценку результатов на основе дешевизны и точности исполнения. На первый план выходят здравый смысл, эффективность (результат/стоимость) и скорость адаптации под новые условия.

Компаниям, серьезно задумывающимся над эффективностью собственного ИТ, рекомендуется не концентрироваться на точечных решениях проблем, а критически смотреть на внутренние ИТ-сервисы и дорабатывать их с учетом современных трендов:

Устойчивость к изменениям

Существующий мир меняется, меняются процессы организации и ИТ. В данных реалиях бесполезно рисовать требования на основе идеальной картинки «to-be» и мучительно ждать наступления счастья. Необходимо формировать стратегию развития ИТ на основе эффективной адаптации ИТ к изменениям в бизнес-процессах. Важна устойчивость систем и всего ИТ-ландшафта к изменениям и непрерывность бизнеса.

Мозаичная архитектура по принципам LEGO

Эффективный ИТ-ландшафт лежит в области множества высокоэффективных, взаимно интегрированных специализированных решений с рядом централизованных систем: интеграционная шина, КХД, централизованная НСИ, система мониторинга ИТ-систем и система контроля качества данных. Необходим отказ от моно-систем и обособленных стационарных решений, стандартизация требований к системам в части управления данными и интеграционными потоками.

Управление качеством данных

Развитие управления ИТ-архитектурой предполагает переход к управлению бизнес-архитектурой. Комплексное проектирование и управление бизнес-процессами, данными и ИТ-ландшафтом позволят достичь максимального эффекта. При этом, управление данными не должно вырождаться в набор правил и проверок. Необходимо создание полноценной корпоративной модели данных и построенной над ней системой управления качеством данных. Это позволит решить множество проблем с интеграцией и обеспечением ретроспективности данных в условиях постоянных изменений.

1. В рамках статьи проблематика качества данных рассматривается через фокус корпоративных информационных систем, автоматизирующих процессы компании. Системы других классов имеют свою специфику. Их включение в рассмотрение привело бы к излишней сложности представленного материала
2. С оценкой роста сложности систем можно ознакомиться в работах А.А. Боссома и В.М. Ильмана
3. По данным сервиса Wordstat от "Яндекс"
4. Перечень ИТ-сервисов и их применение можно найти в методологиях ITIL и COBOL
5. Справочников, элементы которых создаются в результате выполнения типовых пользовательских операций в системе (транзакции)
6. Для различных типов данных, как то «Большие данные» или «Архивы документов», набор критериев и подходы к управлению могут несколько отличаться