Проект

«Неофлекс» разработал дата-платформу для работы с большими данными для Mediascope

Заказчики: Mediascope (Медиаскоп, ранее TNS Россия, ТНС Гэллап Медиа)

Москва; Реклама, PR и маркетинг

Подрядчики: Неофлекс (Neoflex)
Продукт: Apache Hive
На базе: Apache Hadoop
Второй продукт: Apache Spark
Третий продукт: Apache Kafka

Дата проекта: 2019/08 — 2020/02
Технология: BI
подрядчики - 432
проекты - 2990
системы - 1128
вендоры - 546
Технология: Data Mining
подрядчики - 231
проекты - 787
системы - 274
вендоры - 193
Технология: Средства разработки приложений
подрядчики - 189
проекты - 410
системы - 646
вендоры - 323
Технология: СУБД
подрядчики - 261
проекты - 748
системы - 301
вендоры - 144

2020: Создание Mediascope Data Platform

12 марта 2020 года компания «Неофлекс» сообщила о реализации проекта по созданию дата-платформы для исследовательской компании Mediascope. В основу платформы легли решения «Неофлекс» для работы с большими данными на базе технологий семейства Hadoop. Проект запущен в промышленную эксплуатацию.

Mediascope Data Platform позволяет собирать и обрабатывать в унифицированном виде большие массивы разнородных данных о контакте человека с медиа и рекламой, его потребительском поведении. Благодаря этому платформа становится технологической основой для кросс-медиа аналитики в компании. Кроме собственных данных Mediascope, в платформу могут загружаться и обрабатываться данные партнеров: интернет-площадок, телеком-операторов, сторонние данные о покупках и потребительском поведении человека.

«Сырые» данные о потреблении медиаконтента попадают в платформу в потоковом режиме через менеджера очередей Kafka и загружаются в первичный слой на HDFS при помощи Apache NiFi. Далее происходит формирование аналитического слоя, где данные консолидируются, очищаются и производятся вычисления. Это осуществляется при помощи Apache Spark под управлением Apache Airflow. Доступ к уже готовой аналитике организован с использованием системы управления базами данных Apache Hive, которая позволяет выполнять запросы, агрегировать и анализировать данные, хранящиеся в Hadoop, используя традиционный SQL-интерфейс.

«
Важным фактором успеха проекта стало использование нашего акселератора разработки Datagram, который позволяет проектировать потоки данных в визуальном редакторе и генерировать исполняемый Scala – код автоматически. Это значительно ускорило и упростило процесс разработки, а также дало возможность привлекать ETL и SQL-разработчиков для проектирования потоков обработки данных c использованием библиотеки Apache Spark,
прокомментировал Иван Окопный, руководитель направления Big Data Solutions, «Неофлекс»
»

«
Нам удалось найти баланс подходов классического marketing research и data science, чтобы одновременно оставаться надежным поставщиком аналитики и отвечать запросам больших данных. Платформа позволит обеспечивать обработку данных об аудитории всех ведущих игроков медиа-рекламного рынка – телеканалов, интернет-площадок, радиостанций, издательских домов. Этот объем данных измеряется десятками террабайт. С помощью платформы Mediascope сможет предоставить клиентам доступ к данным на глубоком уровне с высокой степенью оперативности и быстрее запускать аналитические продукты,
отметил Василий Кузьмин, директор по работе с данными Mediascope
»