Быстрее, точнее, безопаснее: Как искусственный интеллект помогает обезличить персональные данные
Проблема утечки данных становится для бизнеса все более острой. Роскомнадзор подсчитал, что в 2022 году было более 60 крупных инцидентов, в несанкционированный доступ попали свыше 230 млн записей с персональной информацией россиян. К репутационным и операционным рискам добавляется финансовый: законодатели готовы принять положение об оборотных штрафах в случае утраты критически важной информации. Планируется, что уже с 1 июля бизнес будет вынужден выплатить 1% от годового оборота, а при попытке скрыть ситуацию штраф достигнет 3%. А это зачастую десятки миллионов рублей. Сегодня максимальная санкция при повторном нарушении — 500 тысяч рублей. Вместе с Вячеславом Борисовым, владельцем продукта Сфера.Обезличивание данных, попробуем разобраться, каким образом можно замаскировать важную информацию, чтобы снизить вероятность негативного сценария, и как повысить эффективность защиты персональных данных (ПД) с помощью искусственного интеллекта.
Содержание |
Зачем нужны инструменты обезличивания данных?
Правила обращения с ПД в России предписаны сразу несколькими законодательными актами. Помимо профильного 152-ФЗ «О персональных данных», действуют 98-ФЗ «О коммерческой тайне» и 395-ФЗ «О банковской тайне». Кроме того, процессы регулируются внутренними требованиями компании. Например, службы информационной безопасности часто запрещают использовать ПД клиентов для проверки новой функциональности цифровых сервисов. В этом случае тестировщикам приходится оперировать пустыми базами данных или создавать тестовые среды вручную. В итоге страдает качество проверок, так как большинство багов разработки открывается только на промышленных объемах информации.
Решение проблемы — обезличивание ПД, которое позволяет сохранить их исходную структуру и формат значений, а также интеграционную целостность. Это важно, так как в разных базах данных хранятся фрагменты информации об одном и том же клиенте. Унифицированный подход к обезличиванию позволяет находить и сохранять все связи.
Одно из основных требований, которое предъявляется к инструментам обезличивания — необратимость, то есть зашифрованные данные не должны поддаваться повторной персонализации.
Где бизнесу взять инструменты обезличивания?
Ряд компаний самостоятельно разрабатывают инструменты для автоматического обезличивания, считая, что написание алгоритмов поиска, профилирования и маскирования данных не такая уж сложная задача. Однако, с учетом объема и количества баз данных, в которых содержится очень разнородная информация, и часть которых не задокументирована надлежащим образом, на выходе зачастую получается решение, которое работает с данными несистемно, и эффективность обезличивания разнится от случая к случаю.
Вариант такого подхода — заказная разработка. В среднем создание решения занимает минимум полгода, стоит от 15 млн рублей, и, как правило, через полгода выясняется, что инвестиции надо удвоить, а 30-40% решения переделать. Известный писатель-фантаст Сергей Лукьяненко выступит на TAdviser SummIT 28 ноября. Регистрация
Наконец, можно использовать рыночные продукты для обезличивания. До недавнего времени наиболее популярным было ПО известных западных вендоров Ataccama, DatProf, Informatica, Brillix и др. Они с разной степенью успешности адаптируются к российским реалиям, но с их использованием риски утечек резко снижаются. Однако есть нюанс: в ближайшее время заканчиваются сроки лицензий, продлить которые бизнес не может сразу по нескольким причинам. Альтернатива — отечественные решения, которые за последнее время нарастили функциональность и созрели, как, например, продукт Группы Т1 Сфера.Обезличивание данных.
Что такое Сфера.Обезличивание данных?
Это коробочное решение для обезличивания ПД «под ключ», необходимое в первую очередь специалистам, обеспечивающим информационную безопасность, менеджерам тестовых сред, сотрудникам, участвующим в тестировании программных продуктов.
Сфера.Обезличивание данных позволяет:
- Создавать обезличенные базы данных (поддержка СУБД Postgres, MS SQL, Oracle) и обезличенные датасеты (поддержка форматов Avro, Parquet, CSV).
- Создавать облегченные базы данных с опцией настройки критериев усечения.
- Загружать данные из одной базы в другую без изменения. Проводить инкрементальную загрузку данных с настройкой критериев инкремента.
- Искать и классифицировать в автоматическом режиме атрибуты с персональными данными на основе ML-моделей (Machine learning).
- Размечать пустые поля и таблицы баз данных. Отключать индексы, констрейнты и триггеры баз перед загрузкой данных, восстанавливать их по окончанию загрузки.
- Использовать библиотеку алгоритмов обезличивания, построенных на базе алгоритмов FPE-шифрования с сохранением формата значений и интеграционной целостности.
- Обезличивать большие данные.
- Формировать «белые списки» значений полей для исключения из обезличивания.
- Формировать отчеты с результатами поиска, классификации и обезличивания данных.
Конкурентные преимущества российского решения определяются тем, что его разработчики много лет занимались решением проблем обезличивания ПД в крупных финансовых компаниях. У команды был опыт написания собственных скриптов и интеграции инструментов зарубежных вендоров, продукты которых справлялись не со всеми типами персональных данных, принятых в России, или произвольно их зашифровывали. Например, последнее число в ИНН рассчитывается по математической формуле, то есть не может быть случайным, иначе система проверки целостности данных, обязательная для финансовой организации, не пропустит этот идентификатор. Из-за того, что ИНН неправильно обезличен, формируется некорректно работающий процесс.
В тот момент, когда стало понятно, что система фильтров не очень эффективна: требует постоянной актуализации правил для поиска ПД и «ручного» отслеживания исключения, возникла гипотеза, что ML-модель справится гораздо лучше, что и было подтверждено на практике.
Модель обучалась постепенно, по мере того как команда накапливала знания. Сейчас для запуска Сфера.Обезличивание данных у корпоративного заказчика достаточно двух дней. Срок возрастает, если информация, которой оперирует конкретная компания слишком специфическая. В этом случае пустая модель будет обучаться на данных пользователя, что может занять от одного месяца до полугода.
В чем преимущества технологии машинного обучения при обезличивании данных?
Автоматизированный поиск с помощью ML-модели предсказуемо выигрывает у ручного метода, базирующегося исключительно на правилах и точности. Полнота обнаружения ПД у Сфера.Обезличивание данных на сегодняшний день составляет 97,3%, а точность поиска достигает 95%.
Даже когда в источнике данных попадаются записи типовых персональных данных в формате, ранее не встречавшемся, система с высокой вероятностью правильно классифицирует подобную запись — определит, что это с высокой степенью вероятности фамилия человека, или номер телефона, или ИНН.
В итоге разработчики и тестировщики получают реалистичную базу данных с сохраненными структурными связями, позволяющую обрабатывать клиентские запросы, но без рисков утраты ПД.
Так, решение Сфера.Обезличивание данных используется в крупной российской финансовой организации. Компания еженедельно генерирует терабайты данных, и их обезличивание дает возможность передавать задачи по тестированию и выпуску качественных финтех-сервисов дочерним организациям.
Бонусом идет экономия средств, так как снижение класса конфиденциальности информации за счет деперсонализации позволяет существенно оптимизировать затраты на защиту. Уменьшатся и расходы на оплату труда. Поскольку ETL-процессы осуществляются автоматически, и система позволяет проводить обезличивание одновременно в нескольких базах данных буквально нажатием одной кнопки, существенно снижаются требования к команде и ее стоимость. Больше не нужно растить или нанимать высококвалифицированных сотрудников, с задачей по обезличиванию справиться любой тестировщик, без глубоких специфических навыков.
Типовой процесс обезличивания с помощью Сфера.Обезличивание данных
- Запрос об источнике данных для обезличивания.
- Подготовка баз данных. Получение доступа или разворачивание источника и приемника данных.
- Профилирование. Поиск и классификация подлежащих обезличиванию полей. Именно на этом этапе подключается искусственный интеллект. Классификация баз данных ведется с помощью технологии машинного обучения. В финале формируется отчет, в котором указано какой идентификатор присвоен каждому полю исходя из информации, содержащейся в нем.
- Анализ результатов профилирования. Заказчик и служба ИБ изучают готовый отчет, верифицируют результаты и при необходимости вносят свои коррективы.
- Непосредственно обезличивание. Идет процесс загрузки данных из источника в приемник с применением правил FPE-шифрования.
- Итоговая проверка результатов Службой ИБ.
Несмотря на сложность ИТ-ландшафта и насыщенность баз данных, решение запускает процесс обезличивания без долгих и сложных настроек.