Заказчики: Mediascope (Медиаскоп, ранее TNS Россия, ТНС Гэллап Медиа) Москва; Реклама, PR и маркетинг Подрядчики: Неофлекс (Neoflex) Продукт: Apache HiveНа базе: Apache Hadoop Второй продукт: Apache Spark Третий продукт: Apache Kafka Дата проекта: 2019/08 — 2020/02
|
Технология: Data Mining
Технология: Средства разработки приложений
|
2020: Создание Mediascope Data Platform
12 марта 2020 года компания «Неофлекс» сообщила о реализации проекта по созданию дата-платформы для исследовательской компании Mediascope. В основу платформы легли решения «Неофлекс» для работы с большими данными на базе технологий семейства Hadoop. Проект запущен в промышленную эксплуатацию.
Mediascope Data Platform позволяет собирать и обрабатывать в унифицированном виде большие массивы разнородных данных о контакте человека с медиа и рекламой, его потребительском поведении. Благодаря этому платформа становится технологической основой для кросс-медиа аналитики в компании. Кроме собственных данных Mediascope, в платформу могут загружаться и обрабатываться данные партнеров: интернет-площадок, телеком-операторов, сторонние данные о покупках и потребительском поведении человека.
«Сырые» данные о потреблении медиаконтента попадают в платформу в потоковом режиме через менеджера очередей Kafka и загружаются в первичный слой на HDFS при помощи Apache NiFi. Далее происходит формирование аналитического слоя, где данные консолидируются, очищаются и производятся вычисления. Это осуществляется при помощи Apache Spark под управлением Apache Airflow. Доступ к уже готовой аналитике организован с использованием системы управления базами данных Apache Hive, которая позволяет выполнять запросы, агрегировать и анализировать данные, хранящиеся в Hadoop, используя традиционный SQL-интерфейс.
Важным фактором успеха проекта стало использование нашего акселератора разработки Datagram, который позволяет проектировать потоки данных в визуальном редакторе и генерировать исполняемый Scala – код автоматически. Это значительно ускорило и упростило процесс разработки, а также дало возможность привлекать ETL и SQL-разработчиков для проектирования потоков обработки данных c использованием библиотеки Apache Spark, прокомментировал Иван Окопный, руководитель направления Big Data Solutions, «Неофлекс»
|
Нам удалось найти баланс подходов классического marketing research и data science, чтобы одновременно оставаться надежным поставщиком аналитики и отвечать запросам больших данных. Платформа позволит обеспечивать обработку данных об аудитории всех ведущих игроков медиа-рекламного рынка – телеканалов, интернет-площадок, радиостанций, издательских домов. Этот объем данных измеряется десятками террабайт. С помощью платформы Mediascope сможет предоставить клиентам доступ к данным на глубоком уровне с высокой степенью оперативности и быстрее запускать аналитические продукты, отметил Василий Кузьмин, директор по работе с данными Mediascope
|