DataLake
Озеро данных
DataLake (в пер. «озеро данных») — термин, описывающий любые крупные объемы данных. Фактически это репозитарий, в котором хранится огромный объем «сырых» данных в их первоначальном формате до тех пор, пока они не будут использованы. Цель создания озер данных – дать высококвалифицированным аналитикам возможность изучать неочищенные, не агрегированные данные и применять к ним различные аналитические техники.
Содержание |
Хотя озера данных все еще остаются новым явлением, в последнее время они получили некоторое признание со стороны ИТ-подразделений в связи с тем, что данные все больше превращаются в основу современного бизнеса. Озера рассматриваются как решение, позволяющее уменьшить разрастание данных и их изолированность. Они отпочковались от хранилищ данных, которые должны были помочь ИТ-подразделениям создать организованные репозитории стратегически важных наборов данных для принятия ключевых бизнес-решений. Эти данные могут использоваться для решения самых различных задач, начиная с аналитики и лучшего понимания потребностей клиентов и заканчивая применением искусственного интеллекта для принятия решений в реальном времени[1].
Озера данных представляют дальнейшую эволюцию хранилищ. Множество проектов создания последних провалились: они оказывались слишком дорогостоящими, требовали слишком много времени и позволяли достичь лишь немногих из поставленных целей. Данные меняются и растут так быстро, что необходимость в незамедлительном извлечении из них пользы стала еще более насущной. Никто не может позволить себе тратить месяцы или годы на анализ и моделирование данных для бизнеса. К тому времени, когда данные в хранилищах становятся доступными для использования, потребности бизнеса уже изменяются.
Витрины данных, как и хранилища, создавались для данных, предназначенных для использования в определенных целях или обладающих определенными свойствами (например, для данных подразделения маркетинга). Они приобрели популярность, поскольку здесь использование данных более понятно, а результаты могут выдаваться быстрее. Однако они разделяют данные, что сделало витрины менее полезными для компаний, имеющих огромные объемы данных и нуждающихся в их многофункциональном использовании многими сотрудниками.
В этой связи были разработаны озера данных, которые призваны ускорить работу с данными и облегчить их использование для удовлетворения тех потребностей, которые прежде не определялись. Появление облаков, предоставляющих дешевую вычислительную мощность и практически неограниченный объем хранения, сделало возможным создание озер данных.
2021
*Четыре способа обеспечить актуальность и эффективность корпоративного озера данных
В балансовых отчетах большинства компаний данные остаются нематериальным активом, преимущества которого в полной мере не используются, а ценность нередко невозможно определить. Согласно оценке, приведенной в отчете IDC Rethink Data, подготовленном совместно с компанией Seagate, только 32% данных, доступных предприятиям, используются с пользой. Как сообщили в Seagate 28 июня 2021 года, в рамках исследования были опрошены более 1500 респондентов по всему миру. Результаты показали, что остальные 68% данных остаются нетронутыми и незадействованными. В числе основных причин этого были названы неэффективное управление данными, рост и разрозненность данных, а также отсутствие возможности обеспечить их безопасность на необходимом уровне.
Чтобы извлекать максимальную пользу из данных, во многих компаниях стали внедрять облачные озера данных — платформы централизованного хранения всех видов данных. Такая платформа обеспечивает эластичную емкость хранилища и гибкость настройки скорости ввода-вывода. Она охватывает различные источники данных и поддерживает несколько видов вычислительных и аналитических ядер. «Вторые глаза» инспектора
Однако проекты по внедрению озера данных сопровождаются существенным риском: если не принимать своевременных мер, озеро может превратиться в «болото данных» — репозиторий, в котором потенциально ценная информация просто хранится на носителях без использования. Образуется огромное, практически стоячее болото, в котором данные «погрузились на дно» и, будучи недоступными конечным пользователям, превратились в бесполезный ресурс.
Чтобы озеро не стало болотом и постоянно было поставщиком актуальных аналитических сведений, директорам по ИТ и архитекторам данных рекомендуется придерживаться четырех принципов, описанных ниже.
1. Необходимо четко формулировать бизнес-задачу, которую планируется решить
При наличии четкой формулировки проблемы можно относительно легко найти данные, которые необходимо собрать, и выбрать оптимальные методы машинного обучения, позволяющие извлечь аналитические сведения из таких данных. Инвестиции в инфраструктуру хранения данных способствуют улучшению результатов практически любых бизнес-инициатив. Соответственно, появляется потребность в количественной оценке — в измерении преимуществ таких инвестиций.
Например, в маркетинге аналитическое ядро озера данных помогает проводить рекламные кампании с прицельно точным выбором каналов и круга потенциальных клиентов. Озеро данных можно применять для сбора, хранения и анализа информации на протяжении всего цикла управления ею.
В промышленности озера данных применяют для увеличения выработки, оптимизируя производственные параметры с помощью специальных алгоритмов искусственного интеллекта и моделей глубокого обучения.
Чтобы подобные решения работали максимально эффективно, важно, чтобы в озеро данных постоянно поступали свежие данные. Лишь в этом случае соответствующие программные системы смогут извлекать из данных необходимые сведения.
2. Важно фиксировать и сохранять всю информацию, какую только возможно
Организациям необходимы возможности фиксировать нужные данные, идентифицировать их, сохранять на соответствующих уровнях и предоставлять в удобной форме лицам, принимающим решения. Активация данных, то есть их полезное применение, начинается с процедуры фиксации.
Расширение использования интернета вещей и сетей 5G привело к лавинообразному росту данных, в связи с чем на предприятиях не успевают фиксировать весь их доступный объем. Тем не менее в компаниях осваивают методы, позволяющие фиксировать и сохранять как можно больше информации, чтобы в полной мере использовать ее потенциал как в настоящем, так и в будущем. Если не сохранять данные, их потенциальная ценность пропадет впустую.
Когда озера данных только появились, поиском нужной информации в них занимались специалисты соответствующего профиля. Современные озера данных поддерживают стандартный язык запросов SQL, и благодаря этому с ними могут работать даже рядовые пользователи, для которых самое важное — результат. Поэтому, чтобы помочь им в исследовании данных и поиске закономерностей, применяют средства искусственного интеллекта и машинного обучения. Благодаря прогрессу в этой области активно развиваются аналитические системы, работающие почти в реальном времени, а также средства расширенной аналитики и визуализации.
Ландшафт рынка озер данных быстро эволюционирует, и, по состоянию на 2021 год, в соответствующих решениях приоритетными стали возможности идентификации нужных данных и извлечения из них ценных сведений.
Используя службы облачного хранения с высокоэффективными механизмами управления, компании получают возможность переносить в масштабируемую архитектуру данных информацию, ежедневно генерируемую в процессе их деятельности. Модульные решения для хранения данных дают возможность агрегировать, хранить, перемещать и активировать данные на периферии и в облаке.
3. Необходимо проводить периодическую инвентаризацию данных
Озера данных нуждаются в аудитах и обновлениях. Необходимо периодически проверять данные предприятия, хранящиеся в облачном озере данных, иначе оно «помутнеет» — пользоваться им будет все труднее. Специалистам по исследованию данных станет гораздо сложнее находить требуемые закономерности, или эта возможность будет полностью утрачена.
Согласно оценкам, улучшению возможностей управления огромными озерами данных в наибольшей степени будут способствовать освоение служб облачного хранения и внедрение средств искусственного интеллекта и ПО автоматизации. Такие системы эффективно справляются с «просеиванием» больших объемов информации. Оптимальный вариант — выбрать набор данных и подходящий алгоритм машинного обучения для его обработки, а затем, в случае получения хороших результатов, воспользоваться тем же решением для других массивов данных. Например, мошенничество в банках обнаруживают с помощью систем на основе средств искусственного интеллекта. Вначале такие системы обучаются распознавать мошеннические операции, а затем с помощью ейронных сетей начинают работать, руководствуясь такими показателями, как частота транзакций, их объем и вид рознично-торговой организации.
Устаревшую информацию можно переместить в другой репозиторий для длительного хранения, поскольку в дальнейшем старые данные могут вновь оказаться ценными.
4. Следует внедрять массовые операции с данными
Аналитики IDC определяют массовые операции с данными (DataOps) как дисциплину, занимающуюся налаживанием связи между создателями и потребителями данных. DataOps становятся важным фактором эффективности стратегии управления данными. Помимо DataOps, такая стратегия должна включать оркестрацию данных на конечных точках и в ядре, проектирование архитектуры данных и обеспечение их безопасности. Задача управления данными — обеспечить единство обзора всех данных, как хранимых, так и перемещаемых, и предоставить пользователям возможность обращаться к ним для извлечения максимальной пользы.
Современные предприятия создают гигантские массивы информации, причем, согласно прогнозу, представленному в отчете Rethink Data, ее объем в период с 2020 по 2022 год будет возрастать ежегодно на 42%.
Опрос в целом показал, что предприятия часто перемещают данные между различными местами хранения: конечными точками, периферией и облаком. Из тысячи с лишним компаний, участвовавших в опросе, более половины перемещают данные между различными местами хранения каждый день, каждую неделю или каждый месяц. При этом объем перемещаемой за один раз информации составляет в среднем 140 ТБ. Чем быстрее компания перенесет такой массив из периферии в облако, тем оперативнее сможет проанализировать его для получения ценных сведений.
В связи с быстрыми темпами цифровизации, которые дополнительно ускорились из-за пандемии, во многих организациях начали собирать еще больше данных, и все они нуждаются в управлении.
Создание эффективных озер данных и поддержание их наполнения в актуальном состоянии позволяют заложить основу действенных долгосрочных стратегий управления корпоративными данными и, соответственно, успешного применения цифровой инфраструктуры и внедрения различных бизнес-инициатив.
Озеро данных vs. хранилище данных
Озеро данных задумано как основное место, куда стекаются данные организации. Это репозиторий для всех данных, где они хранятся в необработанном или частично обработанном виде. В некоторых случаях к данным добавляются теги метаданных для облегчения поиска отдельных элементов. Предполагается, что доступ к данным в озере осуществляется специалистами по обработке данных, а также специалистами, которые устанавливают точки соприкосновения для нисходящей (downstream) передачи данных. Говорить от нисходящем потоке данных в контексте озера данных допустимо, потому что озеро данных, подобно настоящему озеру, аккумулирует данных из всех источников, и они могут быть многочисленными, разнообразными и необработанными[2].
Из озера данные по нисходящей попадают в хранилище данных, которое подразумевает нечто более обработанное, упакованное и готовое к применению. И если озеро хранит данные в сложных для распознавания или вообще не читаемых подавляющим большинством сотрудников форматах (неструктурированном, полуструктурированном), то хранилище данных состоит из структурированных в виде баз данных, которые доступны приложениям и сотрудникам. Данные, предоставляемые в форме витрин или хабов, еще более удобны для применения внутренними подразделениями компании.
Таким образом, озеро данных содержит большие объемы данных в исходном виде. В отличие от запросов к хранилищу или витрине данных, для запросов к озеру требуется подход schema-on-read (мы принимаем и храним все данные, и рассуждаем об их структуре только в момент чтения для конкретной задачи).
Озеро данных: типы данных и методы доступа
Источники данных в озере данных включают все данные организации или одного из ее подразделений. К ним относятся структурированные данные реляционных баз, полуструктурированные данные (CSV, файлы журналов и др.), данные в форматах XML и JSON, неструктурированные данные (э-письма, документы, PDF-файлы и др.), а также двоичные данные (изображения, аудио и видео). С точки зрения протокола хранения это означает, что озеру нужно хранить данные, которые возникли в файловом, блочном и объектном хранилищах.
Объектное хранилище — это общепринятый протокол для самого озера данных. Не забывайте, что оно открывает доступ не к самим данным, а к заголовкам метаданных. Последние описывают данные, их можно прикрепить к чему угодно, от базы данных до фотографии. Подробные запросы к данным могут происходить где угодно, но не в озере данных.
Объектное хранилище очень хорошо подходит для хранения больших объемов данных в неструктурированном виде. То есть с ним нельзя работать, как с базой данных в блочном хранилище, но оно позволяет хранить несколько типов объектов в большой плоской структуре и знать, что там находится.
Объектное хранилище обычно не гарантирует высокую производительности, но применительно к озеру данных это нормально: запросы для него создавать и обрабатывать сложнее, чем для реляционной базы в хранилище данных. Но это не страшно, потому что бóльшая часть запросов на этапе озера данных будет касаться формирования более пригодных для детальных запросов нижестоящих хранилищ данных.
Озеро данных: онпремис vs. в облаке
К операциям с озером данных применимы все обычные аргументы, касающиеся локального и облачного решений. При развертывании озера данных онпремис необходимо учитывать требования к площади и электропитанию, дизайну, закупке оборудования, ПО, управлению, квалификации персонала и текущим расходам.
Преимущество аутсорсинга озера данных в облаке в том, что капитальные затраты (capex) на инфраструктуру переводятся в операционные расходы (opex) в виде платежей поставщику облачных услуг. Однако по мере увеличения объемов данных, отправляемых в облако и из него, затраты могут вырасти и за это будет взиматься дополнительная плата.
В связи с этим необходим тщательный анализ преимуществ и недостатков каждой модели хранения. При этом также нужно принять во внимание такие вопросы, как соответствие нормативным требованиям и возможности подключения, которые выходят за рамки просто архитектуры хранилища и озера данных. Конечно, также можно работать в гибридном режиме, при необходимости расширяясь в облако.
Онпремисные продукты
Озеру данных, как правило, требуется большая емкость хранения. Если речь об озере данных масштаба предприятия, то оно определенно должно быть большого объема. В середине прошлого десятилетия производители систем хранения выпустили первые пробные продукты для работы с озерами данных. EMC, например, запустила в 2015 г. линейку Federation Business Data Lake, в которой были представлены СХД EMC, а также продукты VMware и Pivotal для работы с большими данными. Прощупав почву, в 2017 г. Dell EMC нацелила на развертывание озер данных свою платформу Elastic Data Platform. Кроме того, она расширила область применения своего горизонтально масштабируемого сетевого хранилища (NAS) Isilon на озера данных.
С момента своего ребрендинга Hitachi Vantara, возможно, делает больший упор на аналитику, большие данные и Интернет вещей. Она предлагает возможности по организации озера данных на основе СХД Hitachi Content Platform в сочетании с IoT-платформой Lumada и средами интеграции данных Pentaho. Платформа Pentaho Data Integration and Analytics нацелена на большие данные. Она предоставляет удаленный доступ к отчетам и аналитике; получив доступ к данным, пользователь может их обрабатывать и использовать где угодно. Pentaho поддерживает хранилища данных Hadoop, Spark, NoSQL и аналитические базы данных. Lumada использует ПО Pentaho для оркестрации, визуализации и аналитики данных.
IBM также относится к категории поставщиков массивов хранения и хранилищ для озер данных, выступает в качестве консультанта, а также сотрудничает с Cloudera, поставщиком платформы управления данными, которая предназначена для оркестровки и аналитики больших объемов данных.
NetApp не особо углубляется в сегмент СХД для озер данных, но все же у нее имеются свои массивы на базе Ontap в качестве хранилища для больших данных, Hadoop и Splunk, например.
HPE также не предпринимает активных действий в плане выпуска продуктов для развертывания озер данных, за исключением того, что их можно развернуть с помощью портфеля продуктов GreenLake с оплатой по факту использования.
Стоит отметить, что вы можете создавать озера данных на оборудовании любого поставщика, и в качестве подходящего инструмента можно выбрать коммерческий комплект white box.
Возможности в облаке
Некоторые крупные поставщики СХД пытались было предлагать аплайенсы для озер данных, но оказалось, что это слишком сложная задача с множеством ответвлений и больше подходит для консалтинга или конкретных внедрений. Между тем, поставщики облачных услуг пошли другим путем, и тройка самых крупных из них предлагает определенные сервисы в области озер данных.
Так, AWS предлагает консоль, с помощью которой клиенты могут искать и просматривать доступные наборы данных. Затем они могут помечать, искать, совместно использовать, преобразовывать, анализировать данные и управлять определенными подмножествами данных внутри компании или с внешними пользователями. Решение основано на базе объектного хранилища AWS S3 и использует для его обслуживания различные сервисы AWS, включая микросервисы AWS Lambda, посик Amazon Elasticsearch, аутентификацию пользователей Cognito, AWS Glue для преобразования данных и аналитику Amazon Athena.
Предложение Azure аналогично и предлагает возможность запуска программ для массового параллельного преобразования и обработки петабайтов данных на U-SQL, R, Python и .Net. У Microsoft также имеется Azure HDInsight — управляемая аналитическая служба на базе Open Source, которая включает в себя такие фреймворки, как Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm и R.
Облачная платформа Google немного меньше похожа на универсальный магазин для развертывания озера данных. Очевидно, GCP позволяет создавать озера данных — Google ранее говорила, что ею пользуется Twitter, но, вероятно, ее решение в большей степени требует консультационных услуг, чем стандартные предложения конкурентов.
2019: Рекомендации по развертыванию озер данных
Поскольку это все еще достаточно новое явление, рынок не полностью адаптировался к озерам данных. Поэтому сейчас наибольшую выгоду извлекут первопроходцы, которые, вероятно, станут применять их в сочетании с искусственным интеллектом для ведения повседневных операций. Многие ИТ-подразделения подыскивают наиболее подходящее решение для своей компании. Ниже приводятся основанные на передовом опыте рекомендации по развертыванию озер данных.
1. Руководствуйтесь стратегией при помещении данных в озеро
Основная причина размещения данных в озерах — использование данных в определенных целях. Хотя теоретически озера должны служить многим целям, которые еще надлежит определить, начинать лучше тогда, когда что-то известно о том, как будут использоваться данные. Подумайте, какую пользу может принести озеро данных помимо хранения. Как и в случае с любой другой инициативой в области ИТ, важно прежде всего привести развертывание в соответствие с конкретной стратегией, которая определяет не только цели ИТ, но и долгосрочные цели компании в целом.
Задайтесь вопросом, поможет ли озеро управлять данными компании. Хранить данные для использования в будущем обойдется слишком дорого, когда речь идет о нескольких годах. Если компания не предполагает в ближайшее время использовать данные с определенной целью, их хранение означает разбазаривание средств.
2. Храните данные с максимальной детализацией и расставляйте теги
Хранение данных с максимальной детализацией позволяет их компоновать, агрегировать и производить с ними другие манипуляции в самых различных целях. Не следует агрегировать или обобщать данные перед помещением их в озеро. Поскольку ценность озера данных не проявится, пока компания не использует данные, лучше помещать их в озеро после расстановки тегов и каталогизации. Когда они потребуются, ИТ-подразделение сможет просеять репозиторий и выделить активы. Расстановка тегов, которые необходимы для подготовки отчетов, облегчает аналитику. Машинное обучение и ИИ помогают просеивать данные и создавать теги.
Кроме того, компании могут использовать аналитику, машинное обучение и ИИ для повышения общей конкурентоспособности компании. Один инструмент позволяет применять другие.
3. Имейте план уничтожения данных
Компании слишком часто накапливают большие объемы данных, не имея плана избавления от ненужных активов. Отсутствие такого плана может помешать выполнению требований регуляторов об уничтожении информации по истечение определенного времени. Например, такое требование содержится в GDPR применительно к данным о гражданах ЕС.
Сочетание плана уничтожения и озера данных способно помочь определить, что и когда должно быть уничтожено. Это также является решением в тех случаях, когда от компаний требуют отслеживать местонахождение данных о клиентах. Наличие единственного хранилища снижает затраты и экономит время.
Подготовка к будущему
Компании накапливают все больше данных, поэтому сохранится потребность в их хранении и использовании в стратегических целях. Озера данных — отличный способ выявления ценности данных для бизнеса. При выборе решения прежде всего определите, как, по вашему мнению, организация будет использовать данные, а затем — как их хранить. Например, после снижения цен на хранение очень привлекательно стало создание озер данных в облаках. Если использование облака соответствует целям компании, следует подыскать провайдера, который удовлетворит ваши уникальные потребности в инфраструктуре. Как облачный сервис-провайдер или ваше собственное подразделение DevOps встроят процесс в озеро данных, чтобы данные можно было загружать и извлекать по мере необходимости?
Поскольку для получения максимальной пользы от озера данных, несомненно, потребуется большой объем вычислений, подумайте, какие этапы аналитической обработки могут быть автоматизированы. Необходимы будут также опытные специалисты по созданию инфраструктуры для хранения озера данных, загрузки в него данных и трансформации данных для использования. Налаживание регулярного открытого обмена информацией между руководителями подразделения ИТ и бизнеса может стать первым шагом к любой трансформации ИТ, в т. ч. к созданию озер данных.
Смотрите также
- Data Mining
- Большие данные (Big Data)
- Большие данные (Big Data) мировой рынок
- Большие данные (Big Data) в России
- Большие данные: первые итоги
- Большие данные в электронной коммерции
- Большие данные (Big Data) в Сбербанке
- Машинный интеллект
- Когнитивный компьютинг
- Наука о данных (Data Science)
- DataLake (Озеро данных)
- BigData
- Нейросети
Примечания
- ↑ При нынешних темпах качественных изменений и роста объемов данных необходимость в извлечении их них пользы становится еще более насущной. Джон Грей, главный технолог консалтинговой группы Infiniti, входящей в состав InterVision, одного из ведущих провайдеров стратегических сервисов, делится на портале InformationWeek советами по поводу создания озер данных.
- ↑ Хранилище для озера данных: облако vs. онпремис