ITSumma: Spark-Greenplum connector

Продукт
Разработчики: ITSumma (Сумма АйТи)
Дата премьеры системы: 2023/08/30
Дата последнего релиза: 2024/03/20
Технологии: Big Data

Основная статья: Большие данные (Big Data)

2024: Совместимость с Apache Spark версии 3.0 и выше

Компания ITSumma 20 марта 2024 года представила обновленную версию коннектора. Так, до марта 2024 года решение поддерживало работу только с Apache Spark 2.0, теперь же коннектор совместим c Apache Spark версии 3.0 и выше.

Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.

По сравнению с предыдущей версией решения производительность выросла в 10-20 раз — с 1 до 10…20 Мбит/с, отметили в ITSumma. По словам разработчиков, это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк.

«
Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность — отметил Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.
»

На основе коннектора можно строить ETL-решения и анализировать качество данных. Он отличается большой гибкостью в настройке и обладает всем необходимым для интеграции в платформы больших данных функционалом.Метавселенная ВДНХ 3.3 т

Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.

2023: Разработка open source-плагина для Apache Spark

Компания ITSumma 30 августа 2023 года сообщила о разработке open source-плагин для Apache Spark, который значительно ускоряет обработку данных за счет параллельных операций чтения и записи.

Решение spark-greenplum connector — это многофункциональный плагин для платформ обработки и анализа больших данных. Используя его, вместо встроенного в Apache Spark коннектора, дата-инженеры смогут увеличить скорость чтения и записи из и в базу данных Greenplum в десятки раз и быстро масштабировать количество подключаемых и обрабатываемых источников.

С помощью коннектора инженеры смогут настроить структурированный стриминг с использованием микропакетной обработки. Эта функциональность помогает получать оперативные обновления требуемых данных, что повышает скорость обработки практически до реального времени.

У spark-greenplum connector имеется ряд дополнительных возможностей. Например, использование анонимного блока или функции PL/pgSQL в качестве источника или поглотителя данных при операциях чтения и записи. Это позволяет делегировать часть обработки данных на сторону БД.

На его основе можно строить ETL-решения и анализировать данные in-memory. Он обладает высокой скоростью передачи данных, большой гибкостью в настройке, а также:

  • автоматически формирует схемы данных;
  • разбивает вычисления на параллельные независимые потоки;
  • и поддерживает push-down операторы.

«
Подобные решения, которые обеспечивают работу систем обработки больших данных, имеют импортозамещающее значение. Учитывая важность этого, мы решили выложить наш коннектор в открытый доступ — сказал Тимур Хасанов, технический директор ITSumma.
»



СМ. ТАКЖЕ (1)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (118)
  Большая Тройка (46)
  Сбербанк (14)
  Умная Логистика (14)
  Доверенная среда (13)
  Другие (467)

  Доверенная среда (5)
  Большая Тройка (4)
  Цифра (4)
  Ростелеком (3)
  БизнесАвтоматика НПЦ (3)
  Другие (54)

  БизнесАвтоматика НПЦ (13)
  РИР (Росатом Инфраструктурные решения) (3)
  OneFactor (Уанфактор) ЕдиныйФактор (3)
  Сбербанк (2)
  Яндекс (Yandex) (2)
  Другие (44)

  БизнесАвтоматика НПЦ (7)
  РИР (Росатом Инфраструктурные решения) (3)
  Департамент информационных технологий Москвы (ДИТ) (3)
  Инфосистемы Джет (2)
  Marketing Logic (Маркетинг Лоджик) (2)
  Другие (63)

  БизнесАвтоматика НПЦ (3)
  Наносемантика (Nanosemantics Lab) (2)
  Rocket Group (Рокет Групп) (2)
  Сбер Бизнес Софт (2)
  Сбербанк (2)
  Другие (60)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (2, 117)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Доверенная среда (1, 13)
  Цифра (2, 10)
  Другие (259, 127)

  Доверенная среда (1, 5)
  Большая Тройка (2, 4)
  Цифра (1, 4)
  БизнесАвтоматика НПЦ (1, 3)
  Умная Логистика (2, 2)
  Другие (6, 8)

  БизнесАвтоматика НПЦ (1, 13)
  РИР (Росатом Инфраструктурные решения) (2, 3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (1, 2)
  МегаФон (2, 1)
  TData (ТДата) (1, 1)
  Другие (7, 7)

  БизнесАвтоматика НПЦ (1, 7)
  РИР (Росатом Инфраструктурные решения) (3, 4)
  CM.Expert (АвтоЭксперт) (1, 2)
  Датакаталог (1, 2)
  Цифра (1, 2)
  Другие (14, 14)

  Сбербанк (2, 2)
  Датакаталог (1, 2)
  СПбГУ ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики) (1, 2)
  Цифра (1, 2)
  Rocket Group (Рокет Групп) (1, 2)
  Другие (14, 15)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 117
  Большая Тройка: АИС Редактор территориальных схем - 39
  Доверенная среда: Триафлай BI-платформа - 13
  ZIIoT Платформа для работы с промышленными данными - 10
  Luxms BI - 8
  Другие 128

  Доверенная среда: Триафлай BI-платформа - 5
  ZIIoT Платформа для работы с промышленными данными - 4
  Visary BI Платформа бизнес-аналитики - 3
  Цифровая Траектория: Action Track (ATC) - 2
  Большая Тройка: АИС Редактор территориальных схем - 2
  Другие 10

  Visary BI Платформа бизнес-аналитики - 13
  Росатом Цифровое теплоснабжение - 2
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
  МегаФон: Аналитика городской среды - 1
  МегаФон: Цифровой туризм - 1
  Другие 6

  Visary BI Платформа бизнес-аналитики - 7
  CM.Expert Data Mining платформа - 2
  Росатом Цифровое теплоснабжение - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Arenadata Catalog - 2
  Другие 15

  Rocket Group: rTIM Платформа генеративного дизайна территорий - 2
  Visary BI Платформа бизнес-аналитики - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Arenadata Catalog - 2
  Наносемантика NLab Marker - 1
  Другие 11