Проект

«Неофлекс» разработал дата-платформу для работы с большими данными для Mediascope

Заказчики: Mediascope (Медиаскоп, ранее TNS Россия, ТНС Гэллап Медиа)

Москва; Реклама, PR и маркетинг

Подрядчики: Неофлекс (Neoflex)

Продукт: Apache Hive
На базе: Apache Hadoop

Второй продукт: Apache Spark

Третий продукт: Apache Kafka

Дата проекта: 2019/08 — 2020/02

Технология: BI

подрядчики - 450
проекты - 3057

системы - 1149
вендоры - 559

Технология: Data Mining

подрядчики - 251
проекты - 845

системы - 290
вендоры - 208

Технология: Средства разработки приложений

подрядчики - 195
проекты - 430

системы - 676
вендоры - 343

Технология: СУБД

подрядчики - 272
проекты - 773

системы - 308
вендоры - 148

2020: Создание Mediascope Data Platform

12 марта 2020 года компания «Неофлекс» сообщила о реализации проекта по созданию дата-платформы для исследовательской компании Mediascope. В основу платформы легли решения «Неофлекс» для работы с большими данными на базе технологий семейства Hadoop. Проект запущен в промышленную эксплуатацию.

Mediascope Data Platform позволяет собирать и обрабатывать в унифицированном виде большие массивы разнородных данных о контакте человека с медиа и рекламой, его потребительском поведении. Благодаря этому платформа становится технологической основой для кросс-медиа аналитики в компании. Кроме собственных данных Mediascope, в платформу могут загружаться и обрабатываться данные партнеров: интернет-площадок, телеком-операторов, сторонние данные о покупках и потребительском поведении человека.

«Сырые» данные о потреблении медиаконтента попадают в платформу в потоковом режиме через менеджера очередей Kafka и загружаются в первичный слой на HDFS при помощи Apache NiFi. Далее происходит формирование аналитического слоя, где данные консолидируются, очищаются и производятся вычисления. Это осуществляется при помощи Apache Spark под управлением Apache Airflow. Доступ к уже готовой аналитике организован с использованием системы управления базами данных Apache Hive, которая позволяет выполнять запросы, агрегировать и анализировать данные, хранящиеся в Hadoop, используя традиционный SQL-интерфейс.

Важным фактором успеха проекта стало использование нашего акселератора разработки Datagram, который позволяет проектировать потоки данных в визуальном редакторе и генерировать исполняемый Scala – код автоматически. Это значительно ускорило и упростило процесс разработки, а также дало возможность привлекать ETL и SQL-разработчиков для проектирования потоков обработки данных c использованием библиотеки Apache Spark,

прокомментировал Иван Окопный, руководитель направления Big Data Solutions, «Неофлекс»

Нам удалось найти баланс подходов классического marketing research и data science, чтобы одновременно оставаться надежным поставщиком аналитики и отвечать запросам больших данных. Платформа позволит обеспечивать обработку данных об аудитории всех ведущих игроков медиа-рекламного рынка – телеканалов, интернет-площадок, радиостанций, издательских домов. Этот объем данных измеряется десятками террабайт. С помощью платформы Mediascope сможет предоставить клиентам доступ к данным на глубоком уровне с высокой степенью оперативности и быстрее запускать аналитические продукты,

отметил Василий Кузьмин, директор по работе с данными Mediascope

Источник — «https://med.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B5%D0%BA%D1%82:Mediascope_(%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D1%81%D0%BA%D0%BE%D0%BF,_%D1%80%D0%B0%D0%BD%D0%B5%D0%B5_TNS_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D1%8F,_%D0%A2%D0%9D%D0%A1_%D0%93%D1%8D%D0%BB%D0%BB%D0%B0%D0%BF_%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0)_(Apache_Hive)»