Новая платформа данных в X5 Group. Как компания переехала с хранилища SAP, отказалась от Tableau и SAS
Заказчики: X5 Group Подрядчики: X5 Group Продукт: ADB - Arenadata DBНа базе: VMware Tanzu Greenplum Второй продукт: ClickHouse - система управления базами данных (СУБД) Дата проекта: 2022/03
|
Выступая на конференции TAdviser SummIT 29 ноября 2023 года, директор по управлению данными Х5 Group Тигран Саркисов рассказал, как крупнейший российский ритейлер в сжатые сроки отказался от хранилища на базе SAP HANA и от ряда импортных инструментов BI, включая Tableau.
На начало 2022 года в Х5 фактически было два хранилища: SAP BW на HANA и целевая платформа, которая состояла из кластера Greenplum (сборка Arenadata DB), кластера Hadoop (озеро данных) плюс различные аналитические инструменты BI. Ранее в Х5 рассказывали, что на тот момент едва ли не половина аналитической нагрузки со стороны BI приходилась на legacy-хранилище данных SAP BW, которое строилось довольно давно и содержало в себе отчёты, сборки, к которым бизнес успел привыкнуть. Важной задачей, которая решалась с BW, была подготовка отчётности, закрытие финансового периода.
В платформе присутствовал инструмент для Data Governance: каталог данных IBM Cloud Pak for Data, а для решения задачи качества данных – Ataccama.
Тигран Саркисов пояснил присутствие двух DWH. Большинство компаний начинают с того, что у них есть некое наследие в виде Teradata, Exadata или др. Его довольно дорого разбирать, а пользы от этого не всегда много. Поэтому в Х5 оставили некоторую часть в облаке.
На февраль 2022 года платформа управления данными в компании выглядела следующим образом:
Инсталляция в Х5 была одной из самых высоконагруженных SAP BW систем в Европе. Она располагалась в облаке SAP HEC (HANA Enterprise Cloud) на базе российского ЦОДа немецкого вендора. Но после событий февраля 2022 года Х5 предупредили, что скоро ЦОД будет демонтирован, а серверы, которые там используются, переедут в европейский дата-центр. SAP дал Х5 на вывод данных всего три месяца. Поэтому пришлось оперативно разбирать эту часть.
Требовалась технология, сопоставимая с HANA, которая позволяет хранить данные и обрабатывать высоконагруженные запросы от большого количества пользователей. Такой технологией для компании стал ClickHouse, его добавили в архитектуру. Рынок IIoT в РФ: рост или тупик? ETL-часть с SAS сейчас мигрирует на dbt, и Tableau больше не используется – вместо него перешли на Qlik. C каталога данных IBM мигрировали на Open Metadata, которая вполне хорошо работает.
Проект шёл порядка 9 месяцев. В настоящее время платформа по управлению данными выглядит так:
Миграция прошла успешно, отметил Тигран Саркисов. Сначала были опасения, что, например, Greenplum не справится с нагрузкой, или что не успеют обучить пользователей. Но это оказалось преодолимым. Совместно ClickHouse с Greenplum справляются с задачами.
Сейчас в Х5 внедряют свое, частное облако, говорит Тигран Саркисов. Сейчас проект на уровне proof-of-concept использования S3, но вскоре планируется переходить к пилотным проектам по миграции основных данных в S3 с Hadoop и Greenplum. В компании рассчитывают, что в следующем году уже появится работающий кейс.
О TAdviser SummIT